• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
배터리
인공지능
양자컴퓨팅
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'오픈데이터로더 PDF'통합검색 결과 입니다. (4건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

한컴 PDF 기술, 글로벌 AI 개발 표준 '랭체인'에 통합…"세계 개발자 지원"

한글과컴퓨터가 PDF 데이터 추출 기술을 글로벌 인공지능(AI) 프레임워크에 통합하며 전 세계 개발자들의 데이터 활용 지원에 앞장선다. 한컴은 '오픈데이터로더 PDF'가 '랭체인'의 도큐먼트 로더 PDF 파트 공식 구성요소로 등록됐다고 3일 밝혔다. 랭체인은 챗GPT와 같은 대규모언어모델(LLM)을 기반으로 다양한 AI 애플리케이션을 구축하는 데 가장 널리 사용되는 오픈소스 프레임워크다. 전 세계 수십만 명의 AI 개발자가 활용하는 사실상의 표준 개발 도구로 자리 잡았다. 이번 등록은 한컴이 지난 9월 깃허브에 오픈데이터로더 PDF 코드를 공개한 데 이은 성과로, 해당 기술이 글로벌 AI 개발 생태계의 핵심 구성요소로 공식 인증받았다. 랭체인과의 통합은 단순히 코드를 공개하는 것을 넘어 해당 기술의 안정성과 성능, 나아가 AI 개발 환경에서의 적합성을 검증받았음을 뜻한다. 오픈데이터로더 PDF는 AI 학습·활용 과정에서 고질적인 병목 현상을 유발했던 PDF 문서 내 텍스트·표·이미지 등의 데이터를 정확하고 빠르게 추출해 AI가 즉시 활용 가능한 형태로 변환하는 기술이다. 한컴은 이번 랭체인 공식 등록을 통해 PDF 데이터 처리 문제로 어려움을 겪는 전 세계 AI 개발자들에게 오픈데이터로더 PDF를 PDF 데이터 분야에서 가장 신뢰할 수 있는 솔루션으로 직접 제공할 수 있게 됐다. 특히 이같은 성과는 오픈데이터로더 PDF의 기술적 우위를 제시하는 차별화 포인트가 될 전망이다. 한컴은 자사 문서 기술력이 국내를 넘어 글로벌 AI 표준 프레임워크에 기여하고 있음을 입증하며 기술 리더십 입지를 강화한다는 목표다. 한컴 정지환 최고기술책임자(CTO)는 "랭체인 공식 등록은 우리의 문서 처리 기술력이 글로벌 AI 개발 생태계의 표준으로 인정받은 중요한 성과"라며 "코드 공개에서 더 나아가, 전 세계 개발자들이 가장 활발하게 사용하는 글로벌 AI 프레임워크에 직접 통합됨으로써 AI 시대 데이터 활용의 어려움을 해결하는 데 실질적으로 기여하게 돼 기쁘다"고 말했다. 이어 "앞으로도 랭체인 커뮤니티와의 긴밀한 협력을 통해 기술을 지속적으로 고도화하고 AI 생태계 발전에 기여하는 노력을 이어갈 것"이라고 덧붙였다.

2025.11.03 15:55한정호

[기고] AX 시대 데이터 감옥, '오픈소스'로 해방한다

인공지능(AI) 패러다임의 중심축은 거대언어모델(LLM) 자체를 넘어 LLM에 신뢰할 수 있는 데이터를 안정적으로 공급하는 인프라 경쟁으로 이동했다. 오픈소스 AI 모델은 산업 수요에 맞게 미세조정이 가능하고 비용을 절감하며 민감 데이터의 내부 처리를 통해 보안성까지 확보할 수 있어 필수재가 됐다. 실제 AI 플랫폼 허깅페이스의 누적 AI 모델 수는 올해 10월 기준 215만 건을 돌파했으며 오픈로직 보고서에 따르면 글로벌 기업 96%가 오픈소스 활용을 유지하거나 확대할 계획이라고 밝혔다. 성공적인 AI 전환(AX) 구현의 핵심은 고품질 데이터지만, 실제 AI 개발 시간의 70%가 데이터 전처리 작업에 할애된다는 통계는 이 병목 현상을 증명한다. 한글과컴퓨터(한컴)는 첫 글로벌 오픈소스 프로젝트인 '오픈데이터로더 PDF'를 통해 AI 학습의 최대 난제인 '데이터 감옥' 문제를 해결하고 글로벌 AI 생태계에 기여하고자 한다. PDF, AI 시대 가장 방대한 '데이터 감옥' 기업 데이터의 대부분을 차지하는 전자문서는 AX 시대에 AI가 활용할 수 있는 핵심 데이터 자원으로 변화했다. 이 중 PDF는 AI 학습을 위한 가장 방대하고 신뢰도 높은 원천이라는 전략적 가치를 지닌다. 올해 기준 전 세계적으로 약 2조5천억 개의 PDF 문서가 존재하며 글로벌 기업 98%가 배포 문서 표준으로 PDF를 채택하고 있다. 헬스케어, 정부 공식 문서 등 신뢰도 높은 기록의 대다수(약 78~90%)를 차지한다는 사실은 PDF가 AI 학습을 위한 가장 방대하고 신뢰도 높은 원천임을 증명한다. 최근 허깅페이스가 공개한 PDF 기반 '파인PDFs' 데이터셋 연구 결과는 LLM 학습 시 이 고품질 PDF 데이터셋을 25% 비중으로 혼합했을 때 모델 품질이 가장 뛰어났다고 밝혔다. PDF 문서가 잘 정제될 경우 AI 모델 성능을 결정짓는 핵심 요소임을 보여주는 결과다. 그러나 PDF는 태생적으로 복잡한 표, 다양한 레이아웃, 이미지 속 텍스트 등 비정형적 요소가 많아 데이터를 온전히 추출하기 어려운 데이터 감옥으로 불려왔다. 한컴이 오픈데이터로더 PDF를 오픈소스로 공개한 것은 이 기술적 난제를 독보적인 문서 처리 기술로 해결하고 글로벌 AI 생태계 발전에 기여하려는 의지다. '오픈데이터로더 PDF'의 3대 기술 차별점 오픈데이터로더 PDF는 전 세계 개발자에게 합리적인 오픈소스 기반 PDF 데이터 추출 솔루션을 제공하기 위해 기존 서비스들과 차별화되는 세 가지 핵심 기술을 담았다. 첫째, 성능과 효율을 극대화한 하이브리드 엔진이다. 규칙 기반의 휴리스틱 방식과 AI 방식의 장점을 결합해 명확한 데이터는 빠른 속도의 휴리스틱 알고리즘으로 추출하고 복잡한 표나 이미지는 AI 기술로 품질을 극대화한다. 이는 고가의 그래픽처리장치(GPU) 장비 의존도를 최소화하면서 빠르고 정확한 데이터 추출을 가능케 한다. 둘째, 태그드 PDF 지원이다. 태그드 PDF는 제목·표 등 각 요소에 의미 태그가 포함된 포맷이다. 이 구조적 정보를 활용하면 AI 인식 기술 의존 없이 GPU 사용을 최소화하며 높은 속도와 정확도를 동시에 달성할 수 있다. 대부분의 오픈소스 도구가 이를 지원하지 못하는 상황에서 오픈데이터로더 PDF는 차별화된 성능을 제공한다. 셋째, 데이터 주권과 신뢰성을 보장하는 AI 안전성 지원이다. 네트워크 연결 없이 내부망에서 오프라인으로 구동돼 데이터 유출을 원천 차단한다. 나아가 학습 데이터에 악의적인 프롬프트를 주입하는 '프롬프트 인젝션' 등 AI 보안 위협을 필터링하는 AI 안전성 기능까지 제공해 신뢰할 수 있는 AI를 만드는 시작점을 지원한다. 글로벌 AI 생태계의 표준으로 오픈데이터로더 PDF는 기술적 우위를 넘어 글로벌 AI 생태계의 핵심 인프라로 자리매김하기 위한 로드맵을 실행하고 있다. 가장 큰 성과는 최근 LLM 기반 애플리케이션 구축에 가장 널리 쓰이는 오픈소스 프레임워크인 '랭체인'의 공식 구성 요소로 등록된 것이다. 이는 전 세계 수십만 AI 개발자가 활용하는 표준 프레임워크에 공식 편입됐음을 의미한다. 앞으로 랭체인에 이어 라마인덱스, 제미나이-cli 등 주요 AI 프레임워크와의 호환성을 지속 강화하고 글로벌 커뮤니티와 협력해 AI 데이터 추출 표준 도구로 자리 잡고자 한다. 데이터 감옥을 넘어 신뢰할 수 있는 AX 시대로 AI 시대로의 전환은 데이터 변환의 혁신 없이는 불가능하다. AI 개발 시간의 약 70%가 소요되는 데이터 전처리 병목 현상을 해결하는 기술이야말로 AX 시대 기술 경쟁력의 핵심이다. 한컴이 오픈데이터로더 PDF 프로젝트를 글로벌 오픈소스로 공개한 것은 전 세계 모든 기업과 개발자가 이러한 데이터 감옥의 장벽 없이 AX를 실현하도록 지원하겠다는 비전의 실천이다. 한컴은 앞으로도 AI 데이터 기술을 선도하고 핵심 기술의 오픈소스화를 통해 성공적인 AX 생태계 확장에 기여하며 고객이 가장 신뢰할 수 있는 AX 파트너로 자리매김하고자 한다.

2025.11.03 15:28정지환

[유미's 픽] "이 시장 뚫어라"…김연수 한 마디에 獨 달려간 한컴, 존재감 드러낼까

문서 포맷 HWP가 인공지능(AI) 학습에 적합하지 않다는 지적으로 그간 속앓이를 했던 한글과컴퓨터가 최근 '오픈데이터로더 PDF' 공개를 기점으로 글로벌 오픈소스 시장에 본격 진출했다. 국내 기술 자산을 글로벌 경쟁력으로 전환하고 AI 데이터 처리와 오픈소스 협업을 통한 기술 리더십을 확보함으로써 수익성을 더 크게 끌어올리기 위해서다. 22일 업계에 따르면 한컴은 최근 공개한 '오픈데이터로더 PDF'를 앞세워 기술 아이덴티티 중심의 글로벌 테크 기업으로 인지도를 높이기 위한 본격적인 움직임에 나섰다. 이를 위해 AI 기반 문서 인식 기술을 추가하고 ▲라마 인덱스(Llamaindex) ▲제미나이 CLI(Gemini-cli) ▲랭체인(LangChain) 등 주요 AI 프레임워크와의 호환성을 강화할 뿐 아니라 깃허브를 통한 글로벌 개발자 커뮤니티와의 협력 체계를 더 굳건히 하기 위해 분주히 움직이고 있다. 지난 15~16일 독일 베를린에서 개최된 유럽 최대 PDF 기술 컨퍼런스인 '2025 PDF 데이즈 유럽'에 참가한 것도 이 때문이다. 한컴은 이 자리에서 한컴이 오랜 기간 축적한 문서 처리 기술력을 바탕으로 개발한 PDF 데이터 추출 엔진 '오픈데이터로더 PDF'를 시연해 많은 관람객들의 눈길을 사로 잡았다. 이 솔루션은 AI 학습과 활용 과정에서 고질적인 난제로 지적돼 온 PDF 문서 데이터 처리 병목 현상을 해소하는 핵심 기술로, 이달부터 깃허브에 오픈소스로 공개됐다. AI가 문서를 더 잘 이해하고 활용할 수 있도록 JSON, 마크다운(Markdown), HTML 등 최적화된 형태로 데이터를 변환하는 것이 특징으로, 경량화된 SDK(소프트웨어 개발 키트) 형태로 제공돼 다양한 AI 서비스에 쉽게 연동할 수 있다. 현장에서는 복잡한 문서의 표, 이미지, 레이아웃을 정확하게 분석하는 독보적인 기술력에 대한 호평도 이어졌다. 이처럼 한컴이 글로벌 오픈소스 시장에 관심을 두게 된 것은 최근 AI를 포함한 IT 생태계에서 폐쇄적인 개발보다 오픈소스 기반의 환경으로 변화하며 사업적인 기회가 생겼다고 판단해서다. 또 공공 및 민간 시장에서 오픈소스의 도입 정책의 확대 및 의무화 움직임과 구글, 마이크로소프트 등 상용 SaaS 기업들의 오픈소스 전략 가속화도 한컴에게 큰 자극이 됐다. 더불어 글로벌 오픈소스 시장이 빠르게 성장하고 있다는 점도 주효했다. 실제 시장조사기관 프리시던스 리서치(Precedence Research)에 따르면 지난 해 글로벌 오픈소스 서비스 시장은 약 353억 달러 규모였으나, 오는 2033년에는 1천327억 달러까지 성장할 것으로 예상된다. 연평균 성장률(CAGR)은 약 15%에 달한다. 업계 관계자는 "최근 오픈소스 기반 AI 생태계는 급속한 성장을 보여주고 있다"며 "이젠 오픈소스가 단순한 코드 공개를 넘어 신뢰, 협업, 포용이라는 가치를 중심으로 AI 산업 전반의 패러다임 변화를 이끌고 있음을 시사한다"고 분석했다. 이 같은 분위기에 맞춰 김연수 한컴 대표는 올 들어 임직원들에게 오픈소스 시장에 진출해 빠르게 안착할 수 있도록 적극 행동에 나설 것을 주문했다. 지난 7월 글로벌 오픈소스 전문 기업 '듀얼랩'과 사업 협력을 위한 양해각서(MOU)를 체결한 것도 이의 일환이다. 특히 '오픈데이터로더 PDF'는 양사 협업의 첫 결과물로, 오픈소스 생태계를 통해 한컴이 전 세계 개발자, 커뮤니티, 기업 사용자들과의 협업을 확대할 수 있는 매개체가 될 것으로 기대를 모으고 있다. 또 한컴은 오픈소스의 공유 가치를 실현하면서도 지속 가능한 사업 모델을 구축하기 위해 '오픈 코어(Open Core)' 전략을 채택키로 했다. 이에 따라 핵심적인 PDF 데이터 추출 SDK는 누구나 자유롭게 사용할 수 있도록 공개하고 광학문자인식(OCR)의 정밀도를 높이거나 표, 수식, 차트 등을 고도화된 AI 기술로 인식하는 기능은 별도의 상용 '애드온(Add-on)' 형태로 출시해 수익을 창출할 계획이다. 업계에선 한컴이 이미 충분한 역량을 갖추고 있는 만큼 오픈소스 시장에서 빠르게 존재감을 드러낼 것으로 기대했다. 또 한글의 문서 포맷 HWP가 AI 학습에 적합하지 않다는 일부 평가가 있지만, HWPX는 국가 표준에 기반한 개방형 포맷으로 이미 활용되고 있다는 점에서 크게 문제되지 않을 것으로 봤다. 실제 한컴오피스는 HWPX를 기본으로 사용하되 ODF와 OOXML(DOCX) 포맷과의 호환성을 이미 지원하고 있다. 업계 관계자는 "데이터 추출이 어려운 바이너리 기반 문서 포맷은 HWP뿐 아니라 JPG, GIF 등 이미지 파일이나 DOC, PDF 등 문서 파일처럼 컴퓨터에서 동작하는 프로그램 대부분이 해당된다"며 "한컴이 개발한 개방형 문서포맷 HWPX의 AI 학습 데이터 추출 수준은 국제표준인 MS와 오픈소스 오피스 문서포맷과 차이가 없다"고 지적했다. 그러면서 "한글 파일 자체는 국제문서 포맷과 호환성에 문제가 없다"며 "MS오피스가 한글과의 호환성을 반영하지 않아 한컴오피스가 되레 AI 학습에 있어 걸림돌이 되고 있다고 지적 받을 때가 많다"고 덧붙였다. 한컴 관계자는 "한국이 국가표준(HWPX)을 사용하는 것은 기술 종속을 피하고 데이터 주권을 확보하기 위한 당연하고도 선진적인 표준 전략"이라며 "HWPX를 국내 표준(KS)에 머무르지 않고 오는 2026년 등록을 목표로 ISO 국제 표준 제정을 공식적으로 진행함으로써 우리 기술의 국제 표준 편입을 위해 적극 노력할 것"이라고 밝혔다. 한컴이 외부 개발을 위한 기술도 이미 2010년부터 공개했다는 점도 주목할 부분이다. 한컴은 외부 개발자가 관련 응용 프로그램을 개발할 수 있도록 API(응용 프로그래밍 인터페이스) 및 SDK(소프트웨어 개발 키트)를 공식 제공 중이다. 또 다수의 상용 소프트웨어가 HWP과 HWPX를 지원 중인 점도 오픈소스 시장으로 진입하기에 유리한 부분이다. 한컴 관계자는 "현재 폴라리스 오피스, 사이냅 오피스 등 국내 기업과 해외의 온리오피스(OnlyOffice) 등 오픈소스 생태계에서 HWP, HWPX 호환 기능을 공개된 표준을 통해 개발 중"이라며 "이는 해당 기술이 외부에 공개돼 있음을 방증하는 명백한 증거"라고 설명했다. 업계 관계자는 "한컴은 오픈데이터로더 PDF를 기반으로 글로벌 오픈소스 시장에 본격 진출하며 AI 데이터 처리 기술 경쟁력을 강화하고 있다"며 "외부 기여자 참여 장려, 국제 표준화 추진, 오픈 코어 기반 유료 기능 제공 등을 통해 기술 리더십과 수익 모델을 동시에 확보할 것으로 보인다"고 말했다. 이어 "한컴의 이러한 전략은 글로벌 오픈소스 시장에서 입지를 확대하고 기술 자립을 실현하며 AI 생태계에서 경쟁력을 강화하는 중요한 전환점이 될 것으로 기대된다"고 덧붙였다.

2025.09.22 11:43장유미

한컴, PDF 추출 핵심 기술 글로벌 오픈소스로 공개…AI 생태계 기여

한글과컴퓨터(한컴)가 AI 학습·활용 과정에서 고질적인 난제로 지적돼 온 PDF 문서 데이터 처리 병목 현상을 해소할 핵심 기술을 글로벌 오픈소스로 공개했다. 한컴은 자사 문서 처리 기술력을 바탕으로 개발한 PDF 데이터 추출 엔진인 '오픈데이터로더 PDF'의 오픈소스 프로젝트를 추진한다고 17일 밝혔다. 최근 허깅페이스는 PDF 문서를 기반으로 한 약 4억7천500만 건 규모의 대규모 데이터셋 '파인PDFs'를 공개했고 이를 활용하려는 기업들의 움직임도 본격화되고 있다. PDF는 전 세계적으로 AI 학습에 가장 널리 사용되는 문서 포맷이지만 복잡한 내부 구조 때문에 학습용 데이터 추출이 쉽지 않다. 이로 인해 '데이터 감옥'이라 불릴 만큼 AI 개발 과정에서 큰 제약이 따랐다. 이번 오픈소스 프로젝트는 이러한 문제를 해결하기 위해 한컴이 지난 7월 PDF 기술 전문기업 듀얼랩과 체결한 업무협약(MOU)의 첫 결실이다. 양사는 오픈소스 기반 PDF 데이터로더를 공동 개발하며 AI 생태계 확장을 목표로 하고 있으며 이번 기술 공개를 통해 본격적인 확산에 나선다. 공동 개발한 오픈데이터로더 PDF는 PDF 문서 내 텍스트·표·이미지·레이아웃 정보를 높은 정확도와 빠른 성능으로 추출해 AI 학습에 즉시 활용할 수 있는 정형화된 데이터로 변환한다. 특히 기존 경쟁 오픈소스 기술보다 우수한 성능을 입증했다. 공식 홈페이지에 공개된 벤치마크 테스트 결과, 사람의 읽기 순서를 측정하는 지표인 NID에서 타 기술 대비 85%라는 높은 수치를 기록하는 등 다양한 테스트에서 우수한 성능을 보인다. 또 금융·공공기관 등 민감한 데이터를 다루는 환경에서도 네트워크 연결 없이 완전 오프라인으로 작동해 데이터 유출과 외부 업로드로 인한 정보 노출 위험을 원천 차단한다. 이러한 오프라인 기반 보안성은 기업과 기관 단위 활용에서 중요한 기술적 장점으로 작용할 전망이다. 아울러 최근 AI 산업의 주요 화두로 떠오른 학습 데이터 안전성 문제에 대응하기 위한 전략도 담았다. 오픈데이터로더 PDF는 악의적인 콘텐츠 삽입을 통한 프롬프트 인젝션 등 보안 위협을 자동 감지·차단하는 기능을 추가로 제공할 예정이다. 이를 통해 AI 학습 데이터의 안정성과 신뢰성을 동시에 보장하고 보다 안전한 AI 모델 학습 환경 구축에 기여한다는 방침이다. 한컴은 이번 오픈소스 공개를 통해 단순 기술 공유를 넘어 AI 생태계 전반의 오픈소스 확산과 기술 고도화를 추진하고 있다. 이를 위해 챗GPT·제미나이·랭체인 등 주요 AI 프레임워크와의 연동·호환성을 강화하고 깃허브를 통한 글로벌 개발자 커뮤니티와의 협력을 이어갈 계획이다. 한컴 정지환 최고기술책임자(CTO)는 "AI 전환 시대 오픈소스는 더 이상 선택이 아닌 기업과 사회 전반의 혁신과 경쟁력 확보를 위한 필수 전략"이라며 "이번 오픈데이터로더 PDF 핵심 기술 공개를 통해 전 세계 개발자들에게 인정받고 협력을 통해 PDF 데이터 추출 기술을 한 단계 더 발전시켜 글로벌 최고 수준의 AI 데이터 추출 기술을 완성하겠다"고 말했다. 이어 "연말에는 AI 기반 문서 인식 기술을 추가하는 등 오픈소스 프로젝트를 지속적으로 고도화하겠다"고 덧붙였다.

2025.09.17 17:53한정호

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

삼성, 미전실 해체후 8년만 사업지원실 출범…'재무통' 박학규 진두지휘

"11초에 얼마나 담을 수 있을까"…알리익스프레스 팝업 가보니

앤트로픽 공동창업자 "AI 안전, 인류에 필수…韓, 클로드 사용 톱5"

‘역대급 실적’ 카카오..."외부 파트너와 에이전틱 AI 생태계 확장"

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.