• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
창간특집
인공지능
배터리
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'비전언어모델'통합검색 결과 입니다. (3건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

'문서 AI'가 더 똑똑해졌다…"서류 속 문맥·구조까지 파악"

문서 인공지능(AI) 기술이 단순 텍스트 인식을 넘어 문맥·구조까지 이해하는 방향으로 진화했다. 복잡한 문서에서도 주요 정보를 자동 식별하고 고도화된 자동화 처리까지 가능해졌다. 11일 IT 업계에 따르면 최근 문서 처리 시장에서는 비전언어모델(VLM) 기반 광학 문자 인식(OCR) 기술이 주목받고 있다. 이 기술은 계약서, 보고서 등 여러 형식과 맥락으로 이뤄진 문서 속 표, 조항, 제목, 본문을 AI로 식별해 구조화된 데이터로 변환할 수 있다. VLM은 이미지와 언어 정보를 동시에 이해하는 AI 모델이다. 일종의 '이미지 전문가'와 '언어 전문가'가 한 팀처럼 협업하는 방식으로 작동한다. 우선 이 모델은 문서에서 표, 문장, 도장, 손글씨 등 다양한 이미지 요소를 구분한다. 이후 각 영역의 텍스트를 분석해 의미를 파악하고, 이를 종합적으로 해석한다. 이 과정에서 시각 정보와 언어 정보가 실시간으로 상호작용하며 정답을 조율한다. 정보 하나가 잘못 인식되면 다른 정보가 이를 보완하고, 누락된 부분은 이미지 단서를 활용해 추론하는 식이다. 예를 들어, 사용자가 계약서에 VLM 기반 OCR을 적용하면 '계약 당사자'와 '계약 기간' '주요 조항' '서명란' 등을 자동으로 식별해 체계적으로 정리할 수 있다. 이를 통해 문서 처리 자동화 수준을 높이고 반복 작업과 인적 오류를 줄일 수 있다. 기존 OCR은 이미지 속 텍스트를 디지털 문자로 바꾸는 데만 초점 맞췄다. 문서 레이아웃이나 의미적 맥락은 이해하지 못해 데이터 활용에 한계가 있었다. 이에 추가 인력이 이를 수작업으로 정리해야만 했다. VLM OCR, 정확도·사업성 모두 잡아 한국딥러닝은 '딥 OCR 플러스' 출시로 VLM OCR 서비스를 이미 상용화했다. 이 솔루션은 별도 학습 없이 여러 형식 문서를 처리할 수 있다. 한국어·영어·숫자·특수문자가 섞인 복잡한 구조도 정확하게 인식할 수 있도록 설계됐다. 딥 OCR 플러스는 문서의 표나 문단을 자동 분석해 핵심 정보를 요약하고, 추출 데이터를 표준 포맷으로 제공해 업무 시스템과 연동된다. 한국딥러닝은 이 솔루션으로 문서 검토 시간을 최대 80% 줄이고, 일관된 데이터 품질을 유지할 수 있다고 강조했다. 앞서 업스테이지도 AI 기반 문서 구조화 솔루션 '다큐먼트 파스'를 출시해 보험, 금융, 의료 등 산업 현장에서 문서 자동화를 지원하고 있다. 고정밀 벤치마크에서 아마존·마이크로소프트 모델보다 높은 정확도를 기록한 것으로 전해졌다. 올해 6월 모델 '솔라'를 결합한 '솔라 다큐브엘엠'도 출시한다. 솔라 타큐브엘엠은 시각 정보와 언어 정보 통합 처리 역량을 강화해 문서 기반 요약, 질의응답, 자동 분류까지 수행할 수 있도록 구성됐다. 특히 비정형 문서나 복잡한 레이아웃 문서에서도 높은 인식률을 보일 것이란 평가를 받고 있다. 김지현 한국딥러닝 대표는 "비전 OCR은 돈 버는 AI"라며 "정확도와 사업성을 모두 잡을 수 있는 실용 기술"이라고 강조했다.

2025.05.11 14:40김미정

[기고] 텍스트만 읽는 AI는 한계…이미지까지 이해하는 'VLM 시대' 왔다

텍스트만 바라보던 인공지능(AI)이 이미지도 읽기 시작했다. 생성형 AI 열풍 정점에 서 있던 거대언어모델(LLM)이 세상을 바꾼 지 채 2년이 되기도 전에 산업계는 벌써 비전언어모델(VLM) 이라는 새로운 반열을 주목하고 있다. LLM은 인터넷 전체에 해당하는 방대한 문서, 코드, 게시글 등을 토큰 단위로 분해해 빈도와 순서를 학습하는 통계 기반 언어 모델이다. 이를 통해 문장 구조, 주제 흐름, 단어 간 연관도 등을 정교하게 파악할 수 있다. 그러나 LLM은 픽셀로 구성된 시각 정보를 직접 해석하지 못한다. 특히 스캔본 한 장 안에 담긴 표, 도장, 서명, 손글씨, 이미지 등 다양한 비정형 요소 앞에서는 입력 자체를 받지 못해 무력해진다. 이 때문에 반드시 광학문자인식(OCR)을 거쳐 텍스트로 전처리한 후에야 분석이 가능하다. 이 과정에서 발생하는 정보 손실이나 오인식이 전체 모델 성능에 결정적 영향을 미친다. 이 한계를 근본적으로 보완하는 방식이 VLM이다. VLM은 쉽게 말해 '사진 전문가'와 '언어 전문가'가 한 팀이 된 모델이다. 우선 이미지를 보고 표, 문장, 도장, 필기 영역을 구분한 후 텍스트 기반으로 의미를 해석한다. 이를 실시간으로 교차 어텐션(Cross-Attention) 층에서 주고 받으며 정답을 보정한다. 한 영역이 잘못 인식되면 다른 쪽이 보완하고, 누락된 정보는 이미지의 시각 단서 바탕으로 추론해 빈칸을 채운다. 언어와 시각 정보가 동일 공간에서 상호작용하듯 작동하는 식이다. 구조가 복잡하거나 손글씨가 섞인 문서도 훨씬 자연스럽게 이해할 수 있다. 예를 들어 물결 무늬 배경 때문에 일부 금액 텍스트가 흐릿해진 스캔 이미지에서도 VLM은 표 헤더와 숫자 패턴을 근거로 '이 칸은 청구 금액일 것'이라고 추론한다. 텍스트만 해석하던 기존 LLM 방식과 달리, VLM은 이미지와 문장이 함께 대화하는 구조로 작동하기 때문에 비정형 문서에 강력한 성능을 발휘한다. 실제 산업 현장에서 VLM 기반 OCR은 이미 도입 초기부터 기존 접근법보다 뚜렷한 개선 효과를 보이고 있다. 이미 업계에서는 VLM을 통한 생산성 향상 효과가 나오고 있다. 신생 물류기업 L사는 하루 평균 4만 장의 송장을 스캔하는데, 양식 종류가 600종을 넘어서면서 OCR 오류율이 18%까지 상승했다. VLM을 탑재한 OCR을 적용한 결과 첫 달에 오류율이 4%까지 떨어졌고, 급히 투입된 15명의 검수 인력을 4명으로 줄일 수 있었다. 금융·보험 분야에서도 VLM은 의미 있는 변화를 만들어냈다. 보험 손해 사정사 워크플로에 도입된 VLM 기반 OCR 엔진은 의료 영수증, 처방전, 수기 메모가 섞인 PDF 문서를 분석해 질병 코드와 치료 기간, 총 청구액 등 핵심 정보를 의미 단위로 자동 매핑했다. 결과적으로 도입 3개월 만에 평균 심사 시간이 건당 4.7분 단축됐다. 부실 청구 탐지율은 2.3배 향상됐다. 실질적인 VLM 구현을 위해선 세 가지 핵심 과제가 수반된다. 첫째는 중앙처리장치(GPU) 비용이다. 이미지 해상도가 높을수록 메모리 요구량은 기하급수적으로 증가한다. 둘째는 데이터 보안이다. 문서 이미지에는 신분증과 도장, 주소 등 민감한 개인정보가 포함된다. 저장 암호화와 접근 제어 등 보안 설계가 모델 설계 초기부터 명확히 반영돼야 한다. 마지막으로 운영 측면에서의 ML옵스 통합이다. VLM은 텍스트와 이미지 양쪽에서 오류가 누적될 수 있으므로, 라벨 재검수·재학습 주기를 기존보다 촘촘하게 설정해 지속적 품질을 수행해야 한다. 이런 기술 과제를 극복할 수 있다면 VLM은 단순 OCR을 넘어 멀티모달 로봇프로세스자동화(RPA)로 진화할 수 있다. VLM이 문서 의미를 이해하게 되면 수준 높은 복합 워크플로까지 자동화할 수 있을 것이다. 실제 모바일 스캐너나 드론 카메라처럼 네트워크 지연이 큰 현장에서는 경량화된 VLM을 엣지 디바이스에서 구동하는 방향으로 연구가 진행되고 있으며, 실제 적용 사례도 점차 증가하고 있다. 유럽연합(EU)의 AI법 등 주요 규제는 이미지 데이터의 편향성과 프라이버시를 명확히 규정하기 시작했다. 이로 인해 향후 VLM 개발자는 학습 데이터셋의 출처와 라벨링 과정을 투명하게 기록해야 하는 책임도 함께 지게 될 전망이다. 기업과 공공기관이 다양한 형식의 데이터를 한 눈에 이해하는 AI를 원한다면 VLM OCR 전략을 로드맵에 포함해야 한다. 문서 인식부터 업무 자동화까지 이어지는 다음 혁신의 축은 '텍스트‑이미지 융합형 AI'가 될 가능성이 크다. 현재 기술 기업들의 도전이 이 변화를 앞당기고 있으며, 실제 도입 성공 사례는 더 빠르게 쌓일 것이다. 텍스트 AI만으로 충분하다고 느끼는 지금 이 순간이, 어쩌면 VLM 전환을 준비할 마지막 골든타임일지 모른다.

2025.04.30 15:54김지현

"누구나 비전언어모델 사용"…구글, 신형AI '팔리젬마2' 오픈소스로 공개

구글이 사람처럼 보고, 이해하고, 상호작용할 수 있는 신형 비전언어모델(VLM)을 오픈소스로 공개했다. 이를 통해 의료, 제조 등 다양한 산업 분야에서 보다 효율적으로 AI를 활용할 수 있을 전망이다. 5일 구글 딥마인드는 오픈소스 VLM '팔리젬마2(PaliGemma2)'를 공식 블로그를 통해 공개했다. 비전언어모델은 사람처럼 이미지와 텍스트를 함께 학습하고 업무를 처리하는 AI 모델이다. 이를 통해 두 가지 데이터 유형이 독립적으로 처리되었을 때 놓칠 수 있는 정보 간 연관성을 이해하고 처리할 수 있는 것이 특징이다. 구글의 팔리젬마2는 젬마2 언어 모델 기반으로 개발돼 언어 처리 성능을 향상시켰다. 이를 통해 세부 사항을 요구하는 작업을 보다 정확하게 수행할 수 있으며 복잡한 작업의 완성도도 높일 수 있다. 특히 구글의 AI전용 프로세서 TPUv5를 활용해 학습 효율성을 극대화했으며 일반 PC 환경에서도 효과적으로 실행될 수 있도록 최적화 작업을 거쳤다. 기존 페일젬마는 224px 해상도만 지원한 반면 팔리젬마2는 448px와 896px등 고해상도 까지 지원해 실제 활용할 수 있는 업무 범위를 확대했다. 이 밖에도 세밀한 글씨를 정확히 감지하고 인식하기 위한 광학문자인식(OCR) 등의 기능을 개선했다. 고해상도도 이미지를 학습하고 구연할 수 있어 ICDAR 15와 토털텍스트 데이터셋 벤치마크에서 이전 최고 성능 모델을 능가하며 F1 점수 75.9를 기록하며 VLM 중 가장 우수한 성능을 달성했다. 구글 딥러잉 측은 페일젬마2를 활용해 더욱 복잡한 분자구조나 X레이 이미지를 분석하고 음악 파형 등을 인식해 디지털 변환하는 과정의 정확도를 높이는 등 다양한 분야에 활용할 수 있을 것으로 예측하고 있다. 구글의 다니엘 카이저스 연구 엔지니어는 "볼 수 있는 맞춤형 AI를 구축하는 것은 복잡하고 리소스 집약적인 노력이 요구됐다"며 "하지만 이제는 팔리젬마2를 통해 누구나 시각적 입력을 이해하고 상호작용할 수 있는 AI를 활용할 수 있게됐다"고 말했다.

2024.12.06 10:25남혁우

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

[ZD브리핑] 새 정부 출범 D-3…트럼프 철강 관세 50% 이번주 발효

美 관세 최대 타격 '자동차'…"중고차로 상쇄해야"

'주 4.5일 근무' 이상-현실 사이...HR 전문가 생각은?

"계정 공유 시대 끝"…OTT '공유 제한' 전면 확대

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현