• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
AI페스타
배터리
양자컴퓨팅
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'오픈데이터로더'통합검색 결과 입니다. (1건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

한컴, PDF 추출 핵심 기술 글로벌 오픈소스로 공개…AI 생태계 기여

한글과컴퓨터(한컴)가 AI 학습·활용 과정에서 고질적인 난제로 지적돼 온 PDF 문서 데이터 처리 병목 현상을 해소할 핵심 기술을 글로벌 오픈소스로 공개했다. 한컴은 자사 문서 처리 기술력을 바탕으로 개발한 PDF 데이터 추출 엔진인 '오픈데이터로더 PDF'의 오픈소스 프로젝트를 추진한다고 17일 밝혔다. 최근 허깅페이스는 PDF 문서를 기반으로 한 약 4억7천500만 건 규모의 대규모 데이터셋 '파인PDFs'를 공개했고 이를 활용하려는 기업들의 움직임도 본격화되고 있다. PDF는 전 세계적으로 AI 학습에 가장 널리 사용되는 문서 포맷이지만 복잡한 내부 구조 때문에 학습용 데이터 추출이 쉽지 않다. 이로 인해 '데이터 감옥'이라 불릴 만큼 AI 개발 과정에서 큰 제약이 따랐다. 이번 오픈소스 프로젝트는 이러한 문제를 해결하기 위해 한컴이 지난 7월 PDF 기술 전문기업 듀얼랩과 체결한 업무협약(MOU)의 첫 결실이다. 양사는 오픈소스 기반 PDF 데이터로더를 공동 개발하며 AI 생태계 확장을 목표로 하고 있으며 이번 기술 공개를 통해 본격적인 확산에 나선다. 공동 개발한 오픈데이터로더 PDF는 PDF 문서 내 텍스트·표·이미지·레이아웃 정보를 높은 정확도와 빠른 성능으로 추출해 AI 학습에 즉시 활용할 수 있는 정형화된 데이터로 변환한다. 특히 기존 경쟁 오픈소스 기술보다 우수한 성능을 입증했다. 공식 홈페이지에 공개된 벤치마크 테스트 결과, 사람의 읽기 순서를 측정하는 지표인 NID에서 타 기술 대비 85%라는 높은 수치를 기록하는 등 다양한 테스트에서 우수한 성능을 보인다. 또 금융·공공기관 등 민감한 데이터를 다루는 환경에서도 네트워크 연결 없이 완전 오프라인으로 작동해 데이터 유출과 외부 업로드로 인한 정보 노출 위험을 원천 차단한다. 이러한 오프라인 기반 보안성은 기업과 기관 단위 활용에서 중요한 기술적 장점으로 작용할 전망이다. 아울러 최근 AI 산업의 주요 화두로 떠오른 학습 데이터 안전성 문제에 대응하기 위한 전략도 담았다. 오픈데이터로더 PDF는 악의적인 콘텐츠 삽입을 통한 프롬프트 인젝션 등 보안 위협을 자동 감지·차단하는 기능을 추가로 제공할 예정이다. 이를 통해 AI 학습 데이터의 안정성과 신뢰성을 동시에 보장하고 보다 안전한 AI 모델 학습 환경 구축에 기여한다는 방침이다. 한컴은 이번 오픈소스 공개를 통해 단순 기술 공유를 넘어 AI 생태계 전반의 오픈소스 확산과 기술 고도화를 추진하고 있다. 이를 위해 챗GPT·제미나이·랭체인 등 주요 AI 프레임워크와의 연동·호환성을 강화하고 깃허브를 통한 글로벌 개발자 커뮤니티와의 협력을 이어갈 계획이다. 한컴 정지환 최고기술책임자(CTO)는 "AI 전환 시대 오픈소스는 더 이상 선택이 아닌 기업과 사회 전반의 혁신과 경쟁력 확보를 위한 필수 전략"이라며 "이번 오픈데이터로더 PDF 핵심 기술 공개를 통해 전 세계 개발자들에게 인정받고 협력을 통해 PDF 데이터 추출 기술을 한 단계 더 발전시켜 글로벌 최고 수준의 AI 데이터 추출 기술을 완성하겠다"고 말했다. 이어 "연말에는 AI 기반 문서 인식 기술을 추가하는 등 오픈소스 프로젝트를 지속적으로 고도화하겠다"고 덧붙였다.

2025.09.17 17:53한정호

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

오픈AI, 韓 미래 비전 밝힌다...'초거대 AI 서밋' 30일 개막

누리호 4호 왜 하필 자정에 쏠까..."이유는 KAI 때문"

AI 시대, 'HR의 현재와 미래' 바로 짚고 전망한다

바퀴 휴머노이드, 韓 제조현장 바꾼다

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.