• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
스테이블코인
배터리
AI의 눈
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'HWP'통합검색 결과 입니다. (6건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

HWP가 AI 혁신의 적? '진짜 범인'은 낡은 문서 문화와 관성

인공지능(AI) 시대를 맞아 공공 데이터 개방의 최대 걸림돌로 '아래아한글(HWP)'이 지목되며 거센 비판을 받고 있다. 독자적인 바이너리(Binary) 포맷 탓에 AI가 읽을 수 없어 데이터 활용을 가로막는다는 주장이 핵심이다. 하지만 현장의 전문가과 산업계의 시각은 다르다. AI 도입을 방해하는 진짜 주범은 파일 확장자가 아니라 기형적인 '문서 작성 문화'와 변화를 거부하는 '조직의 관성'이라는 지적이다. 29일 관련 업계에 따르면 주요 AI 기업은 이미 다양한 비정형 데이터를 활용하기 위한 서비스를 선보이며 AI 혁신을 지원하고 있다. 기업이 아닌 시대의 유물 '바이너리' 최근 공공·산업 분야에서는 HWP는 바이너리 구조라 AI가 읽을 수 없다'는 인식이 널리 퍼져 있다. 실제로 HWP 파일을 메모장으로 열면 글자가 깨지고 XML 기반 문서처럼 구조가 제대로 시각화되지 않아 분석이 어렵다는 비판이다. 이에 앞서 먼저 논란의 핵심인 파일 구조를 이해할 필요가 있다. 컴퓨터 파일은 크게 '텍스트(Text) 파일'과 '바이너리(Binary) 파일'로 나뉜다. 텍스트 파일은 이름 그대로 문자와 숫자로만 구성된 양식이다. 데이터가 표준 문자 코드(유니코드 등)로 저장되기 때문에 별도의 전용 프로그램 없이 메모장만 있어도 내용을 확인하고 수정할 수 있으며 호환성이 뛰어나다. XML이 대표적인 텍스트파일 양식이다. 반면 바이너리 파일은 이미지, 영상, 실행 프로그램처럼 복잡한 데이터를 저장하기 위한 방식이다. 방대한 정보를 효율적으로 담기 위해 단순 문자 코드가 아닌 별도의 규칙으로 데이터를 저장하며, 이를 해석하기 위해서는 한글이나 워드 같은 전용 애플리케이션이 반드시 필요하다. 2000년대 초반까지의 구형 문서 파일들이 주로 이 바이너리 구조를 채택했던 이유는 '효율성' 때문이다. 당시의 하드웨어 성능과 저장 공간의 한계로 인해, 글자뿐만 아니라 폰트, 레이아웃, 표 등 복잡한 서식 정보를 적은 용량에 담아내기 위해서는 텍스트 방식보다 압축적인 바이너리 방식이 훨씬 유리했기 때문이다. 이로 인해 전용 도구 없이는 내용을 읽을 수 없는 바이너리 파일은 AI 입장에서 활용이 까다로울 수밖에 없다. 마이크로소프트 역시 워드 2007 버전부터 XML 기반 DOCX를 채택한 만큼 바이너리 기반 DOC 파일로 저장된 이전 문서는 파일 전환에 대한 어려움이 동일하다. 결국 핵심은 특정 포맷 문제가 아닌 과거 기술로 만들어진 레거시 데이터를 어떻게 처리할 지의 문제다. 이는 국가를 가리지 않고 산업 전반에 걸쳐 동일하게 처한 문제다. 핸디소프트 이해석 대표는 "HWP, DOC 가릴 것 없이 과거 문서는 대부분 AI가 읽기 힘든 바이너리 구조라는 공통된 한계를 갖고 있다"며 "특정 양식이나 서비스를 비판하기 보다 방대한 데이터를 AI 자산으로 가공하기 위한 방안을 마련하는 것에 집중해야 한다"고 강조했다. 정부가 90년대부터 워드를 썼다면? 크게 다르지 않았을 것 일각에서는 "정부가 처음부터 글로벌 표준인 MS 워드를 썼더라면 지금 같은 문제는 없었을 것"이라고 주장한다. 하지만 이는 거대 조직의 생리와 기술 발전 과정을 간과한 분석이라는 평가다. 정부 부처처럼 방대한 인력과 수많은 부서가 연계된 조직은 새로운 시스템으로의 완전한 전환은 매우 어렵다. 실제로 마이크로소프트가 보안 지원이 종료된 구형 윈도우의 교체를 수없이 권고했지만 공공기관은 호환성과 예산 문제로 인해 지원 종료 후에도 종합상황실을 운영하며 버티는 현상을 반복해 왔다. HWP 대신 워드를 도입했더라도 이러한 시스템 관성은 동일하게 작동했을 가능성이 크다. 한글과컴퓨터 역시 이미 20년 전인 2007년에 개방형 포맷인 HWPX를 선보였고 2010년에는 HWP 5.0의 내부 설계도를 문서화해 공개했다. 기술적으로는 이미 십수 년 전부터 AI 학습에 용이한 '텍스트 기반 구조'를 갖춰두었던 셈이다. 그러나 당시 정부 부처 등 공공기관은 기술 발전 속도를 따라가지 못했다. 기존 구형 SW에서 최신 파일을 읽을 수 없다는 민원과 행정 불편을 이유로 도입을 차일피일 미뤘고, 심지어 현장에서는 최신 포맷인 HWPX를 사용하지 말라는 지침이 내려오는 역설적인 상황까지 벌어졌다. 결국 기술 개발 이후 무려 11년이 지난 2018년이 되어서야 HWPX는 비로소 공공의 공식 포맷으로 자리 잡을 수 있었다. 만약 우리 정부가 1990년대부터 워드를 썼다고 가정하더라도, 이러한 보수적인 행정 문화 아래에서는 대다수 문서가 AI가 이해하기 어려운 바이너리 기반의 구형 DOC 파일로 방치되었을 가능성이 크다는 지적이 나오는 이유다. 도입 막는 진짜 원인, 보여주기식 '의전용 편집' AI 전문가는 포맷보다 더 심각한 본질적 문제로 공공기관 특유의 기형적인 문서 작성 문화를 지목한다. 파일 내부 데이터가 보여주기식으로 파편화되어 AI가 이해하기 힘든 구조라는 지적이다. 대표적인 사례가 투명한 표(Table)다. 공공 문서를 열어보면 문서 전체 시각적 레이아웃을 잡기 위한 투명한 선으로 그려진 표가 남발된다. 심지어 표 안에 또 다른 표를 밀어 넣는 이중·삼중의 표가 존재한다. 이는 사람 눈에는 정갈한 보고서로 보이지만 AI가 텍스트를 추출하는 순간 재앙이 시작된다. 왼쪽 단의 항목과 오른쪽 단의 수치가 엉뚱하게 결합하거나 문장이 토막 나면서, 데이터 간의 핵심적인 상관관계가 완전히 파괴되기 때문이다. 이러한 현상의 배후에는 윗선의 '보여주기식 보고 문화'가 자리 잡고 있다. 내용의 논리적 구조보다는 ▲무조건 한 장에 모든 내용을 구겨 넣어야 하고 ▲자간과 장평을 억지로 조절해 끝 줄을 맞춰야 하며 ▲화려한 도표로 치장된 문서를 선호하는 '의전용 편집'이 공공 데이터를 제대로 사용할 수 없게 만든다는 것이다. 더불어 체계화되지 못한 문서 활용법도 비판에 올랐다. 업무 성격에 따라 엑셀, 파워포인트, 위키 등 데이터 구조에 최적화된 다양한 도구를 병행해야 함에도 HWP에 과도하게 집중됐다는 것이다. 이 대표는 "출판 목적 문서를 만들기에는 HWP가 좋은 도구이지만 이를 활용하는 방법에서 문제가 존재했다"며 "기존 방식대로 문서를 그림 그리듯 작성하는 문화가 계속된다면 아무리 최신 AI 모델을 도입해도 학습할 수 있는 유의미한 데이터는 얻을 수 없다"고 비판했다. 이어 "AI 시대를 대비하기 위해서는 파일 확장자를 바꾸는 것보다, 문서를 데이터로서 대하는 인식의 전환과 작성 공정의 대수술이 더 시급하다"고 강조했다. 사이냅소프트 전경헌 대표는 "HWP 외에도 PDF, 이미지 등 정부가 활용하는 데이터에는 수많은 비정형 데이터가 존재하며 이중 상당수는 대체가 불가능한 요소가 존재한다"며 "결국 정부가 추진하는 데이터 혁신의 핵심은 다양한 형태 비정형 문서 자산을 얼마나 정확하고 빠르게 정형 데이터로 만드냐에 달려있다"고 강조했다.

2026.01.29 16:54남혁우 기자

"AI 혁신 원한다면, 'AI 레디' 데이터 환경부터 갖춰야"

"많은 기업이 고성능 인공지능(AI) 모델 도입을 서두르고 있습니다. 하지만 정작 AI가 학습해야 할 데이터는 개인 PC와 이메일 보관함 속에 파편화된 채 죽어 있습니다. AI 혁신을 원한다면 모델을 고민하기 전에, 업무 과정에서 자연스럽게 양질의 데이터가 쌓이는 'AI 레디(AI Ready)' 환경부터 갖춰야 합니다." 26일 서울 구로구 폴라리스 오피스 사옥에서 만난 이해석 폴라리스 오피스 최고인공지능책임자(CAIO) 겸 핸디소프트 대표는 올해 AI 시장의 핵심 화두로 '데이터 구축 환경의 혁신'을 꼽으며 이같이 강조했다. 단순히 외부의 거대언어모델(LLM)을 도입하는 것을 넘어 기업 내부 업무 흐름(Workflow) 자체를 '데이터 친화적'으로 전환해야한다는 주장이다. AI 혁신의 적은 '데이터 파편화'… 클라우드로 모든 업무 데이터 통합해야 이 대표는 현재 기업들의 가장 큰 문제점으로 '파일 중심의 업무 관행'을 지적했다. 임직원들이 각자의 PC에서 문서를 작성하고 이를 메일이나 메신저로 주고받는 과정에서 수많은 복사본이 생성되기 때문이다. 이 과정에서 수정 이력은 유실되고, 무엇이 최종본인지 알 수 없는 '데이터의 늪'에 빠지게 된다. 이 대표는 "이런 정제되지 않은 데이터를 AI에 학습시키면 정확도가 떨어지는 것은 물론, 엉뚱한 답변을 내놓는 '할루시네이션(환각)' 현상만 심해진다"고 지적했다. 그가 제시한 해법은 폴라리스 오피스의 '클라우드 기반 공동 편집(Cloud Editor)' 기술을 통한 업무 프로세스 재설계다. 이 대표는 "파일을 첨부해서 전송하는 것이 아니라 클라우드 상 문서 링크를 공유하는 방식으로 업무가 바뀌어야 한다"고 역설했다. 문서를 클라우드에서 작성하고 수정하면 모든 변경 이력(History)이 중앙 서버에 남기 때문이다. 그는 "모든 업무 데이터가 한곳에 모이고 유일성이 보장되므로 별도 전처리 과정 없이도 AI가 학습하기 가장 좋은 'AI 레디' 상태를 유지할 수 있다"고 설명했다. 문서에 '맥락(Context)'을 입히다…전자결재와 연동된 데이터 파이프라인 이해석 대표는 단순한 문서 저장을 넘어 전자결재 시스템과의 결합을 통해 데이터에 맥락(Context)을 부여하겠다는 전략도 밝혔다. 이는 폴라리스 오피스의 문서 엔진 기술과 핸디소프트의 협업 프로세스가 시너지를 내는 핵심 지점이다. 그는 "AI가 기업 업무를 실질적으로 돕기 위해서는 텍스트 자체보다 그 문서가 가진 배경을 이해해야 한다"며 "누가 기안했고 언제 수정됐는지, 그리고 결정적으로 '최종 승인권자'가 누구인지에 대한 정보가 결합돼야 한다"고 설명했다. 이어 "폴라리스 오피스에서 작성된 문서가 전자결재 워크플로우를 타고 승인되는 순간, 이 데이터는 AI가 신뢰할 수 있는 '검증된 지식'이 된다"며 "이를 통해 실시간으로 생성되는 모든 업무 데이터를 AI가 즉시 활용 가능한 자산으로 만들 수 있다"고 강조했다. 별도로 데이터를 정제하느라 비용을 들이는 것이 아니라, 통합 워크플로우 위에서 일상적인 업무를 수행하기만 해도 저절로 'AI 학습용 고품질 데이터 파이프라인'이 구축된다는 설명이다. "HWP도 문제 없어"… 현실적 '하이브리드 전략'으로 시장 공략 이 대표는 국내 공공기관과 기업 업무의 표준인 HWP(아래아한글) 문서 활용 방안에 대해서도 현실적인 해법을 제시했다. 일각에서는 AI 전환을 위해 HWP 같은 레거시(Legacy) 포맷을 버려야 한다는 주장도 제기되나 수십 년간 축적된 방대한 지식 자산을 하루아침에 폐기하거나 업무 환경을 전면 교체하는 것은 불가능하다는 판단에서다. 그는 "HWP는 표나 서식 등 한국적인 업무 환경에 최적화된 훌륭한 포맷이지만 그동안 과도한 서식 등이 덧씌워져 AI가 읽기 어려웠던 것이 문제"라고 진단했다. 이에 대한 해결책으로 그는 폴라리스 오피스의 웹 편집 기술을 꼽았다. 이 대표는 "폴라리스 오피스 엔진은 HWP 문서의 레이아웃을 깨뜨리지 않고 그대로 클라우드 환경으로 끌어올릴 수 있다"며 "웹상에서 편집 가능한 데이터가 되면 AI가 문서 내 텍스트와 구조를 완벽하게 이해하고 학습할 수 있게 된다"고 설명했다. 보안 문제로 퍼블릭 클라우드 도입을 주저하는 공공기관과 대기업을 위한 '하이브리드 전략'도 내세웠다. 데이터 유출 우려가 없는 온프레미스 서버나 프라이빗 클라우드 환경에 폴라리스 오피스 솔루션을 설치해, 강력한 보안을 유지하면서도 AI와 클라우드의 이점을 누릴 수 있도록 지원하겠다는 계획이다. 이해석 대표는 올해가 기업용 AI 시장의 진정한 승부처가 될 것이라고 전망했다. 작년까지 많은 기업이 AI의 신기함에 주목해 보여주기식 도입(PoC)에 그쳤다면 올해부터는 비용 대비 효과(ROI)와 실질적인 생산성 향상을 증명해야 하는 냉정한 검증의 시기가 도래했다는 것이다. 이 대표는 "단순히 챗봇 창 하나 띄워놓는다고 업무가 혁신되는 것은 아니다. AI가 내 업무의 맥락을 파악해 결재 문서를 초안부터 작성해주고, 필요한 데이터를 즉시 찾아주는 '진짜 비서'가 되어야 한다"고 강조했다. 이어 "폴라리스 오피스는 화려한 AI 모델 경쟁에 뛰어들기보다, 그 모델들이 가장 잘 달릴 수 있는 '도로'를 닦는 데 집중할 것"이라며 "고객사의 데이터가 AI를 만날 준비를 가장 완벽하게 마칠 수 있도록 돕는 핵심 인프라 기업으로서 'AI 레디' 시대를 주도해 나가겠다"고 포부를 밝혔다.

2026.01.26 16:24남혁우 기자

오픈드래프트, '오픈닥스' 공개…HWP 99% 정확도 추출

오픈드래프트가 '아래한글(HWP)' 문서에서 데이터를 99% 추출할 수 있는 방법을 제시했다. 오픈드래프트는 원천 기술인 문서 편집기 특허 기술을 기반으로 개발한 데이터 추출 및 구조화 솔루션 '오픈닥스(OpenDocs)'를 공개했다고 20일 밝혔다. 그동안 공공기관 등에서 널리 쓰이는 아래한글 문서는 해외 인공지능(AI) 서비스가 지원하지 않아 AI 학습용 데이터를 추출하는 데 어려움이 있었다. 기존에 대안으로 사용되던 이미지 기반 광학 문자 인식(OCR) 방식은 처리 속도가 느리고 인프라 비용이 높을 뿐 아니라 표나 수식 등 복잡한 문서 구조에서 정확도가 현저히 떨어지는 한계가 있었다. 이번에 공개된 오픈닥스는 이러한 기술적, 비용적 문제를 근본적으로 해결했다. 별도의 복잡한 개발 과정 없이 파일 업로드와 간단한 설정만으로 AI 학습에 즉시 활용 가능한 구조화된 데이터셋을 구축할 수 있다. 오픈닥스의 강점은 정확도와 속도다. 구형 바이너리 형식부터 최신 HWPX까지 아래한글의 모든 버전을 지원하며, 표, 수식, 그래프 등 복잡한 요소가 포함된 문서에서도 최대 99% 수준의 데이터 추출 정확도를 자랑한다. 또 고성능 엔진을 탑재해 1천200페이지 분량의 대용량 문서도 40초 만에 처리할 수 있어 기존 방식 대비 비약적인 성능 향상을 이뤘다. 사용자 편의성도 놓치지 않았다. 원문 문서와 동일한 레이아웃을 웹 에디터 상에서 그대로 보여주며 추출 결과를 확인할 수 있어, 직관적인 검증과 레이블링 작업이 가능하다. 이는 데이터 전처리 과정인 정제, 검수, 교정 업무의 효율성을 크게 높여준다. 이미 공공 분야에서는 그 성능을 인정받고 있다. 국가기술표준원의 KS 표준문서, 한국정보통신기술협회(TTA) 단체표준문서, 국민권익위원회 민원처리 프로젝트 등 대규모 공공 사업에 도입되어 복잡한 법령 문서와 기술 규격서 환경에서도 안정적인 데이터 추출 능력을 검증받았다. 오픈드래프트 한재섭 대표는 "인공지능의 품질을 좌우하는 것은 결국 양질의 데이터"라며 "오픈닥스를 통해 적은 비용과 최소한의 노력으로 고품질 데이터를 확보할 수 있도록 지원하여, 모든 기관과 기업의 AI 경쟁력 강화에 기여하겠다"고 포부를 밝혔다.

2026.01.20 16:26남혁우 기자

공무원 10명 중 9명 "AI 못 읽는 HWP·PDF 쓴다"…AI 정부 전환 '걸림돌'

행정문서 대부분이 인공지능(AI)이 읽지 못하는 형식에 묶여 있어 AI 정부 전환의 걸림돌이 되고 있다는 지적이 나왔다. 공공문서를 AI-레디(Ready) 포맷으로 전환하고 메타데이터·API 연계를 통해 호환성을 높여야 한다는 주장이다. 13일 위성곤 더불어민주당 의원실이 공개한 '공공분야 AI 활용 현황' 설문조사 결과에 따르면, 전국 행정기관 종사자 1만4천208명 중 91.1%가 보고서·계획서 등 행정문서를 주로 HWP(한글)나 이미지·스캔 PDF 등 AI가 인식하기 어려운 형식으로 작성하고 있다고 답했다. 기존 HWP, PDF 등의 파일 형태는 일반 텍스트가 아닌 이진법 형태인 바이너리 형태로 저장되는 특성으로 인해 기계가 직접 읽고 처리하기 어렵다. 이에 한컴에선 지난 2020년 정부의 행정 문서 데이터화 추진 계획을 시작으로 이듬해에 표준 형식을 'HWP' 파일에서 'HWPX'로 전환했다. 끝자리에 'X'가 새로 붙게 된 'HWPX'는 기존 'HWP'와 달리 개방형 XML 기반의 형식으로, 해당 포맷은 문서 내 콘텐츠를 기계가 판독하는 것이 가능하도록 설계된 것이 특징이다. 마이크로소프트 워드가 사용하는 'DOCX' 포맷과 데이터 추출에서도 큰 차이가 없다는 디지털플랫폼정부위원회 및 민간 전문위원회의 자문도 받았다. 행정안전부 또한 공공 데이터의 활용도를 높이기 위해 'AI-레디' 개념을 공공 데이터에 도입하고 세부 기준과 관리 체계 마련에 나섰다. 행안부는 AI가 학습, 분석, 추론 등에 쉽게 활용할 수 있도록 앞으로 공공 데이터는 AI가 바로 읽고 활용할 수 있는 형식으로 제공하고, 요약 통계와 갱신 주기, 변경 이력 등 풍부한 속성 정보를 메타데이터로 함께 담도록 할 예정이다. 이와 별개로 지난 달 17일부터 이달 6일까지 중앙부처, 광역·기초자치단체 공무원을 대상으로 실시된 이번 조사에선 10명 중 7명이 실제 업무에 AI을 활용한 경험이 있는 것으로도 집계됐다. 전체 응답자의 68.9%는 챗GPT, 클로드, 코파일럿, 제미나이, 하이퍼클로바X 등 생성형 AI를 실제 업무에 활용한 경험이 있다고 답했다. 그러나 인터넷망 등 외부 개방망을 통한 사용 비율이 높아 정보 유출 우려도 제기됐다. AI를 사용하는 공무원 1만2천738명 중 인터넷망(개방형 망)에서 사용한다는 응답은 54.5%로 절반을 넘었다. 인터넷망과 업무망을 병행한다는 응답(12.9%)까지 포함하면 외부망 활용 비율은 67.5%에 달했다. AI 활용 용도(복수응답)는 ▲자료 검색·정리(41.5%) ▲행정문서 작성·요약(30.8%)▲회의록·보고서 요약(14.1%) ▲녹취록 요약(5.6%) 순이었다. AI 활용을 위한 교육 기반도 제대로 갖춰지지 않았다. 프롬프트 작성법 등 AI 도구 활용 역량을 위한 교육을 연 4회 이상 이수한다고 답한 공무원은 전체(1만4천208명)의 1.3%에 불과했고, 가끔 이수(연 1~3회)는 39.4%, 교육을 받은 적 없다는 응답은 59.4%에 달했다. 개인정보 보호·윤리·보안 등 가이드라인 관련 교육을 받은 경험이 있다는 응답도 39.6%에 그쳤다. 위 의원은 "폐쇄망 기반의 행정 전용 AI 환경을 마련해 보안을 강화해야 한다"며 "실무형 교육과 제도적 지원을 병행해야 한다"고 강조했다.

2025.10.13 17:56장유미 기자

[유미's 픽] "이 시장 뚫어라"…김연수 한 마디에 獨 달려간 한컴, 존재감 드러낼까

문서 포맷 HWP가 인공지능(AI) 학습에 적합하지 않다는 지적으로 그간 속앓이를 했던 한글과컴퓨터가 최근 '오픈데이터로더 PDF' 공개를 기점으로 글로벌 오픈소스 시장에 본격 진출했다. 국내 기술 자산을 글로벌 경쟁력으로 전환하고 AI 데이터 처리와 오픈소스 협업을 통한 기술 리더십을 확보함으로써 수익성을 더 크게 끌어올리기 위해서다. 22일 업계에 따르면 한컴은 최근 공개한 '오픈데이터로더 PDF'를 앞세워 기술 아이덴티티 중심의 글로벌 테크 기업으로 인지도를 높이기 위한 본격적인 움직임에 나섰다. 이를 위해 AI 기반 문서 인식 기술을 추가하고 ▲라마 인덱스(Llamaindex) ▲제미나이 CLI(Gemini-cli) ▲랭체인(LangChain) 등 주요 AI 프레임워크와의 호환성을 강화할 뿐 아니라 깃허브를 통한 글로벌 개발자 커뮤니티와의 협력 체계를 더 굳건히 하기 위해 분주히 움직이고 있다. 지난 15~16일 독일 베를린에서 개최된 유럽 최대 PDF 기술 컨퍼런스인 '2025 PDF 데이즈 유럽'에 참가한 것도 이 때문이다. 한컴은 이 자리에서 한컴이 오랜 기간 축적한 문서 처리 기술력을 바탕으로 개발한 PDF 데이터 추출 엔진 '오픈데이터로더 PDF'를 시연해 많은 관람객들의 눈길을 사로 잡았다. 이 솔루션은 AI 학습과 활용 과정에서 고질적인 난제로 지적돼 온 PDF 문서 데이터 처리 병목 현상을 해소하는 핵심 기술로, 이달부터 깃허브에 오픈소스로 공개됐다. AI가 문서를 더 잘 이해하고 활용할 수 있도록 JSON, 마크다운(Markdown), HTML 등 최적화된 형태로 데이터를 변환하는 것이 특징으로, 경량화된 SDK(소프트웨어 개발 키트) 형태로 제공돼 다양한 AI 서비스에 쉽게 연동할 수 있다. 현장에서는 복잡한 문서의 표, 이미지, 레이아웃을 정확하게 분석하는 독보적인 기술력에 대한 호평도 이어졌다. 이처럼 한컴이 글로벌 오픈소스 시장에 관심을 두게 된 것은 최근 AI를 포함한 IT 생태계에서 폐쇄적인 개발보다 오픈소스 기반의 환경으로 변화하며 사업적인 기회가 생겼다고 판단해서다. 또 공공 및 민간 시장에서 오픈소스의 도입 정책의 확대 및 의무화 움직임과 구글, 마이크로소프트 등 상용 SaaS 기업들의 오픈소스 전략 가속화도 한컴에게 큰 자극이 됐다. 더불어 글로벌 오픈소스 시장이 빠르게 성장하고 있다는 점도 주효했다. 실제 시장조사기관 프리시던스 리서치(Precedence Research)에 따르면 지난 해 글로벌 오픈소스 서비스 시장은 약 353억 달러 규모였으나, 오는 2033년에는 1천327억 달러까지 성장할 것으로 예상된다. 연평균 성장률(CAGR)은 약 15%에 달한다. 업계 관계자는 "최근 오픈소스 기반 AI 생태계는 급속한 성장을 보여주고 있다"며 "이젠 오픈소스가 단순한 코드 공개를 넘어 신뢰, 협업, 포용이라는 가치를 중심으로 AI 산업 전반의 패러다임 변화를 이끌고 있음을 시사한다"고 분석했다. 이 같은 분위기에 맞춰 김연수 한컴 대표는 올 들어 임직원들에게 오픈소스 시장에 진출해 빠르게 안착할 수 있도록 적극 행동에 나설 것을 주문했다. 지난 7월 글로벌 오픈소스 전문 기업 '듀얼랩'과 사업 협력을 위한 양해각서(MOU)를 체결한 것도 이의 일환이다. 특히 '오픈데이터로더 PDF'는 양사 협업의 첫 결과물로, 오픈소스 생태계를 통해 한컴이 전 세계 개발자, 커뮤니티, 기업 사용자들과의 협업을 확대할 수 있는 매개체가 될 것으로 기대를 모으고 있다. 또 한컴은 오픈소스의 공유 가치를 실현하면서도 지속 가능한 사업 모델을 구축하기 위해 '오픈 코어(Open Core)' 전략을 채택키로 했다. 이에 따라 핵심적인 PDF 데이터 추출 SDK는 누구나 자유롭게 사용할 수 있도록 공개하고 광학문자인식(OCR)의 정밀도를 높이거나 표, 수식, 차트 등을 고도화된 AI 기술로 인식하는 기능은 별도의 상용 '애드온(Add-on)' 형태로 출시해 수익을 창출할 계획이다. 업계에선 한컴이 이미 충분한 역량을 갖추고 있는 만큼 오픈소스 시장에서 빠르게 존재감을 드러낼 것으로 기대했다. 또 한글의 문서 포맷 HWP가 AI 학습에 적합하지 않다는 일부 평가가 있지만, HWPX는 국가 표준에 기반한 개방형 포맷으로 이미 활용되고 있다는 점에서 크게 문제되지 않을 것으로 봤다. 실제 한컴오피스는 HWPX를 기본으로 사용하되 ODF와 OOXML(DOCX) 포맷과의 호환성을 이미 지원하고 있다. 업계 관계자는 "데이터 추출이 어려운 바이너리 기반 문서 포맷은 HWP뿐 아니라 JPG, GIF 등 이미지 파일이나 DOC, PDF 등 문서 파일처럼 컴퓨터에서 동작하는 프로그램 대부분이 해당된다"며 "한컴이 개발한 개방형 문서포맷 HWPX의 AI 학습 데이터 추출 수준은 국제표준인 MS와 오픈소스 오피스 문서포맷과 차이가 없다"고 지적했다. 그러면서 "한글 파일 자체는 국제문서 포맷과 호환성에 문제가 없다"며 "MS오피스가 한글과의 호환성을 반영하지 않아 한컴오피스가 되레 AI 학습에 있어 걸림돌이 되고 있다고 지적 받을 때가 많다"고 덧붙였다. 한컴 관계자는 "한국이 국가표준(HWPX)을 사용하는 것은 기술 종속을 피하고 데이터 주권을 확보하기 위한 당연하고도 선진적인 표준 전략"이라며 "HWPX를 국내 표준(KS)에 머무르지 않고 오는 2026년 등록을 목표로 ISO 국제 표준 제정을 공식적으로 진행함으로써 우리 기술의 국제 표준 편입을 위해 적극 노력할 것"이라고 밝혔다. 한컴이 외부 개발을 위한 기술도 이미 2010년부터 공개했다는 점도 주목할 부분이다. 한컴은 외부 개발자가 관련 응용 프로그램을 개발할 수 있도록 API(응용 프로그래밍 인터페이스) 및 SDK(소프트웨어 개발 키트)를 공식 제공 중이다. 또 다수의 상용 소프트웨어가 HWP과 HWPX를 지원 중인 점도 오픈소스 시장으로 진입하기에 유리한 부분이다. 한컴 관계자는 "현재 폴라리스 오피스, 사이냅 오피스 등 국내 기업과 해외의 온리오피스(OnlyOffice) 등 오픈소스 생태계에서 HWP, HWPX 호환 기능을 공개된 표준을 통해 개발 중"이라며 "이는 해당 기술이 외부에 공개돼 있음을 방증하는 명백한 증거"라고 설명했다. 업계 관계자는 "한컴은 오픈데이터로더 PDF를 기반으로 글로벌 오픈소스 시장에 본격 진출하며 AI 데이터 처리 기술 경쟁력을 강화하고 있다"며 "외부 기여자 참여 장려, 국제 표준화 추진, 오픈 코어 기반 유료 기능 제공 등을 통해 기술 리더십과 수익 모델을 동시에 확보할 것으로 보인다"고 말했다. 이어 "한컴의 이러한 전략은 글로벌 오픈소스 시장에서 입지를 확대하고 기술 자립을 실현하며 AI 생태계에서 경쟁력을 강화하는 중요한 전환점이 될 것으로 기대된다"고 덧붙였다.

2025.09.22 11:43장유미 기자

포티넷 부사장 "한국 보안 미흡···공격 더 많아질 것"

한국 정보보호 수준은 1~2년 뒤를 생각하면 충분하지 않아요. 당장은 괜찮지만요. 미국 사이버 보안 회사로서 관찰하니 공격자가 한국에서 목표 삼을 만한 대상을 정찰하는 모습이 보여요. 1~2년 뒤 공격 경로가 정교해질 것 같습니다. 데릭 맨키 포티넷 부사장은 지난달 27일 서울 잠실동 롯데호텔월드에서 지디넷코리아와 만나 이같이 밝혔다. 맨키 부사장은 포티넷 북아시아 지역 연례 행사에 참석하기 위해 한국을 찾았다. 그는 “한국이 해야 할 일은 인공지능(AI)을 활용해 사이버 공격을 방어하는 일”이라며 “다른 조직도 보안을 탐지하고 대응하려고 AI에 투자하고 있다”고 말했다. 그러면서 “이미 많은 공격자가 한국에서 AI를 무기로 사이버 범죄를 저지른다”며 “AI라는 도구 덕에 외국인도 상당히 교묘하게 한국어로 공격하는 걸 봤다”고 전했다. 포티넷에 따르면 올해 들어 4월까지 공격자가 한국에서 사이버 공격을 시도한 건수는 8억8100만건이다. 맨키 부사장은 “세계 평균보다 많은 건수”라며 “모두 성공한 것은 아니라는 게 다행”이라고 분석했다. 그는 “한국에서 사이버 위협 판도가 여느 때보다 빠르게 변하고 있다”며 “과거에는 한글과컴퓨터가 개발한 한컴오피스 'hwp' 파일을 미끼로 내세운 공격이 많았다”고 들려줬다. 또 “hwp를 활용한 공격은 마이크로소프트(MS) 워드(word) 프로그램을 주로 쓰는 사기업보다 한컴오피스를 애용하는 정부 집단에서 활발하게 일어났다”며 “정부 관료가 업무 문서라고 생각해 hwp 파일을 내려받아 열면 공격 당했다”고 설명했다. 이어 “북한 해커 집단 라자루스가 hwp를 무기로 시스템에 접근해서 가상자산을 탈취해 수익을 얻었다”며 “시스템에 들어가기 위한 발판으로 hwp를 쓰기도 했다”고 덧붙였다. 맨키 부사장은 포티넷에서 바이러스 분석가로 출발했다. 개발자를 거쳐 위협 탐지 전문가로 일하고 있다. 공격자가 네트워크에 어떻게 침투하는지, 어떤 새로운 공격 기법을 썼는지, 무슨 기술을 개발해 보호해야 하는지 알아본다. 맨키 부사장은 2004년 9월부터 포티넷에서 일하고 있다. 입사하기 앞서 대학에서 프로그래밍을 가르쳤다. 그는 “막연히 네트워킹이나 소프트웨어(SW) 엔지니어가 되고 싶다고 생각했을 뿐 포티넷 들어오기 전에는 스스로 사이버 보안에 관심 있는지 몰랐다”며 “친구 권유로 포티넷에 지원해 흥미로운 기회를 얻었다”고 귀띔했다. 마지막으로 “많은 사람이 내가 포티넷에 합류하기 전 대학교에서 강의했다는 사실을 모른다”며 “이전 경력을 물어본 인터뷰 질문자는 유혜진 지디넷코리아 기자가 처음”이라고 웃었다.

2025.06.03 17:03유혜진 기자

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

피지컬 AI 로봇, 산업 현장으로…현대차그룹 125조원 투자한다

[ZD 브리핑] 미국 관세 불확실성 지속...갤럭시S26 시리즈 공개

'AI 추론칩' 강자 리벨리온, 글로벌 실전 테스트 돌입

[단독] AI 사업 대가 기준 '1.5배' 오른다…"최종 논의 중"

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.