• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
창간특집
인공지능
배터리
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'딥 이미지'통합검색 결과 입니다. (3건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

'문서 AI'가 더 똑똑해졌다…"서류 속 문맥·구조까지 파악"

문서 인공지능(AI) 기술이 단순 텍스트 인식을 넘어 문맥·구조까지 이해하는 방향으로 진화했다. 복잡한 문서에서도 주요 정보를 자동 식별하고 고도화된 자동화 처리까지 가능해졌다. 11일 IT 업계에 따르면 최근 문서 처리 시장에서는 비전언어모델(VLM) 기반 광학 문자 인식(OCR) 기술이 주목받고 있다. 이 기술은 계약서, 보고서 등 여러 형식과 맥락으로 이뤄진 문서 속 표, 조항, 제목, 본문을 AI로 식별해 구조화된 데이터로 변환할 수 있다. VLM은 이미지와 언어 정보를 동시에 이해하는 AI 모델이다. 일종의 '이미지 전문가'와 '언어 전문가'가 한 팀처럼 협업하는 방식으로 작동한다. 우선 이 모델은 문서에서 표, 문장, 도장, 손글씨 등 다양한 이미지 요소를 구분한다. 이후 각 영역의 텍스트를 분석해 의미를 파악하고, 이를 종합적으로 해석한다. 이 과정에서 시각 정보와 언어 정보가 실시간으로 상호작용하며 정답을 조율한다. 정보 하나가 잘못 인식되면 다른 정보가 이를 보완하고, 누락된 부분은 이미지 단서를 활용해 추론하는 식이다. 예를 들어, 사용자가 계약서에 VLM 기반 OCR을 적용하면 '계약 당사자'와 '계약 기간' '주요 조항' '서명란' 등을 자동으로 식별해 체계적으로 정리할 수 있다. 이를 통해 문서 처리 자동화 수준을 높이고 반복 작업과 인적 오류를 줄일 수 있다. 기존 OCR은 이미지 속 텍스트를 디지털 문자로 바꾸는 데만 초점 맞췄다. 문서 레이아웃이나 의미적 맥락은 이해하지 못해 데이터 활용에 한계가 있었다. 이에 추가 인력이 이를 수작업으로 정리해야만 했다. VLM OCR, 정확도·사업성 모두 잡아 한국딥러닝은 '딥 OCR 플러스' 출시로 VLM OCR 서비스를 이미 상용화했다. 이 솔루션은 별도 학습 없이 여러 형식 문서를 처리할 수 있다. 한국어·영어·숫자·특수문자가 섞인 복잡한 구조도 정확하게 인식할 수 있도록 설계됐다. 딥 OCR 플러스는 문서의 표나 문단을 자동 분석해 핵심 정보를 요약하고, 추출 데이터를 표준 포맷으로 제공해 업무 시스템과 연동된다. 한국딥러닝은 이 솔루션으로 문서 검토 시간을 최대 80% 줄이고, 일관된 데이터 품질을 유지할 수 있다고 강조했다. 앞서 업스테이지도 AI 기반 문서 구조화 솔루션 '다큐먼트 파스'를 출시해 보험, 금융, 의료 등 산업 현장에서 문서 자동화를 지원하고 있다. 고정밀 벤치마크에서 아마존·마이크로소프트 모델보다 높은 정확도를 기록한 것으로 전해졌다. 올해 6월 모델 '솔라'를 결합한 '솔라 다큐브엘엠'도 출시한다. 솔라 타큐브엘엠은 시각 정보와 언어 정보 통합 처리 역량을 강화해 문서 기반 요약, 질의응답, 자동 분류까지 수행할 수 있도록 구성됐다. 특히 비정형 문서나 복잡한 레이아웃 문서에서도 높은 인식률을 보일 것이란 평가를 받고 있다. 김지현 한국딥러닝 대표는 "비전 OCR은 돈 버는 AI"라며 "정확도와 사업성을 모두 잡을 수 있는 실용 기술"이라고 강조했다.

2025.05.11 14:40김미정

한국딥러닝 "문맥까지 이해하는 OCR 시대 왔다…업무 자동화 핵심 될 것"

"광학문자인식(OCR) 성장 잠재력은 무궁무진합니다. 문서 디지털화로 OCR 역할이 늘어날 것이기 때문입니다. 이럴수록 정확하면서도 안전한 OCR 서비스가 필요합니다. 한국딥러닝은 자체 모델 '딥 이미지'를 통해 이런 OCR 서비스를 맞춤형으로 공급하고 있습니다. OCR을 단순히 문서 인식하는 기술이 아닌 업무 자동화 핵심으로 만들 것입니다." 김지현 한국딥러닝 대표는 지디넷코리아 인터뷰에서 자사 OCR 서비스 특장점을 소개하며 이같이 밝혔다. 김지현 대표는 2019년 한국딥러닝을 설립했다. 22세 대학생이던 때다. 학창 시절부터 개발자 부모 영향으로 자연스럽게 코딩을 접했다. 스타트업에서 대학생 인턴으로 근무하며 창업을 결심했다. 그는 "당시 딥러닝 기술이 확산하던 때"였다며 "AI 기술이 다양한 산업에 스며들 것으로 판단해 회사를 설립했다"고 밝혔다. 김 대표는 창업 전부터 텍스트와 이미지, 영상, 음성 데이터를 수집했다. 이를 통해 자체 거대비전언어모델(LVLM) 딥 이미지를 내놨다. 딥 이미지는 텍스트와 이미지를 동시에 처리·생성할 수 있다. 텍스트·이미지 데이터가 상호작용하며 분석을 수행한다는 점에서 멀티모달 모델과 다르다. 이 모델은 현재 1억 장 넘는 이미지를 학습했다. 이를 기반으로 광학문자인식(OCR)을 비롯한 객체 검출, 영상 이해, 이미지 생성, 3D 모델 생성 등 다양한 비전 AI 솔루션을 제공한다. 한국딥러닝은 모델 개발과 운영을 위해 자체 그래픽처리장치(GPU) 서버와 분산처리시스템을 온프레미스 형태로 갖췄다. 김 대표는 "모델 초기 투자비와 유지비 부담이 컸다"며 "고효율 분산 학습 알고리즘을 통해 비용을 줄였다"고 설명했다. 이어 "서버는 스케일아웃 방식으로 확장 가능하도록 설계했다"며 "비용 문제는 고객사와 기술협력·장기계약을 통해 해결했다"고 덧붙였다. "기업 맞춤형으로 제공…정확도·보안·유연성 높아" 김지현 대표는 자사 OCR 특장점으로 높은 정확도, 유연성, 보안성을 꼽았다. 한국딥러닝은 각 태스크와 프로젝트 특성을 반영한 맞춤형 OCR을 제공한다. 단순히 글자를 인식하는 데 그치지 않고, 문서 맥락과 레이아웃을 고려해 필요한 정보를 정확히 추출하는 것이 강점이다. 김 대표는 "문서 폼이 다양하면 OCR 인식 정확도가 떨어진다"며 "이는 OCR 기술이 주로 정형화된 폼에만 최적화됐기 때문"이라고 설명했다. 그는 "딥이미지의 OCR은 다양한 폼의 문서 수십만 건을 분석하고 필요한 데이터를 일관성 있게 정리할 수 있다"고 말했다. 김 대표는 자사 OCR이 높은 보안성을 갖췄다고 강조했다. 현재 온프레미스 형태로 OCR 서비스를 제공하고 있어서다. 이에 문서 데이터가 외부로 나가지 않고 기업 내부에서 처리된다. 반면 타사 OCR 서비스는 인터넷 기반의 클라우드 환경에서 작동한다. 사용자가 문서 파일을 외부 서비스에 올려야 한다는 의미다. 이 과정에서 민감 정보가 외부로 전송될 수 있다. 한국딥러닝은 온프레미스 외에도 프라이빗 클라우드와 가상 프라이빗 클라우드(VPC)상에서 서비스를 지원한다. 김 대표는 OCR 서비스가 키-밸류 추출과 맞춤형 폼 변환 기능을 통해 높은 유연성을 갖췄다고 설명했다. 키-밸류 추출은 문서에서 중요한 정보(키)와 그에 해당하는 값(밸류)을 자동으로 찾아내는 기능이다. 예를 들어 신청서에서 이름과 생년월일, 전화번호가 키다. 여기에 입력된 내용이 밸류다. 김지현 대표는 "보통 OCR은 문서 속 텍스트만 인식한다"며 "필요한 정보를 찾기 위해 추가 작업이 필요하다"고 말했다. 이어 "자사 OCR은 문서 구조를 분석해 필요한 정보만 정확히 추출한다"며 "고객은 원하는 데이터를 빠르게 찾을 수 있다"고 강조했다. "OCR 잠재력 무한대"…이미지 분석으로 해외 공략 김지현 대표는 OCR 사업 확장 가능성이 더 커질 것이라고 내다봤다. 그는 "앞으로 문서는 디지털 데이터로 변환될 것"이라며 "OCR이 이 부분에서 큰 역할을 할 것"이라고 예측했다. 또 "거대언어모델(LLM) 기술이 발전하면서 OCR과 챗봇, 에이전트 연계 활용도 가능해질 것"이라며 "이에 따른 OCR 사업 확장 가능성도 높다"고 덧붙였다. 김 대표는 솔루션을 해외 시장에 적극 공급할 예정이다. 현재 인도네시아 건설사에 도로와 터널 균열을 감지하는 이미지 분석 솔루션을 제공하고 있다. 그는 "언어 장벽이 있는 OCR 대신 이미지 디텍션, 세그멘테이션, 분류 서비스로 해외 시장을 노릴 것"이라고 말했다. 한국딥러닝은 올해 OCR 기반 데이터 수집·정제 작업에 집중할 계획이다. 김 대표는 "OCR로 변환한 문서를 디지털화한 후 챗봇이나 전사적자원관리(ERP) 시스템에 적용할 수 있도록 가공하는 것이 목표"라며 "OCR을 단순히 문서를 인식하는 기술이 아닌 업무 자동화 핵심 요소로 만들 것"이라고 강조했다.

2025.02.07 15:07김미정

이미지 AI 발전 가속…전문가들 "포르노·가짜 뉴스 남용 막아야"

생성 인공지능(AI)의 그림이 정교해지고 이미지 편집 기능이 추가돼 실제 사진과 구분이 점점 어려워지고 있다. 이를 남용하는 사례가 늘면서 윤리적 해결책과 법제화의 필요성이 커지고 있다. 19일 미국의 테크 전문지 벤처비트에 따르면 구글은 최근 미국 시장에서 '이마젠3'를 출시했다. 이는 지난 5월 구글이 해당 모델을 최초로 발표한 후 3개월 만이다. 이에 따라 '이마젠' 사용자들은 텍스트를 입력해 그림을 마음껏 그릴 수 있게 됐다. 업계는 이를 오픈AI의 이미지 생성 모델인 '달리'에 대항하려는 움직임으로 보고 있다. 구글보다 앞서 지난해 10월 오픈AI는 '챗GPT'에 '달리3'를 통합한 멀티모달 모델을 도입했다. 이는 지금까지 유료 이용자들에게만 제공됐던 모델이었지만 지난 15일부터 무료 사용자에게도 하루 최대 2건씩 제공되고 있다. 일론 머스크 엑스(X) 대표의 챗봇 '그록'도 이에 가세했다. 지난 13일 X는 프리미엄 사용자들에게 '그록-2'의 베타 버전을 제공하기 시작했고, 여기에는 이미지 생성 기능도 포함돼 있다. 이들 이미지가 점점 실제와 구분이 안 되는 수준으로 진화하고 있다는 것이 업계 전문가들의 의견이다. 실제로 루르 대학교가 올해 5월 실시한 조사에 따르면 3천명의 연구 참가자 대부분이 AI가 생성한 이미지를 실제 사진으로 착각한 것으로 나타났다. 이제 생성 AI가 단순히 그림을 생성하는 것뿐만 아니라 편집까지 할 수 있어 더 많은 우려를 낳고 있다. 샌프란시스코에 위치한 그림 AI 스타트업인 미드저니는 지난 15일 웹브라우저 이미지 편집기를 공개했는데 이 서비스는 이미지 일부를 다시 칠하거나 경계를 늘리는 등의 아웃페인팅 및 캔버스 확장 기능을 지원한다. 이렇게 이미지 생성 및 편집 AI가 급속도로 발전하면서 가짜 이미지 남용 가능성에 대한 우려가 커지고 있다. 실제로 머스크의 '그록'은 '이마젠'이나 '달리'와 달리 크게 검열되지 않고 있다. 머스크 X 대표가 '세상에서 가장 재미있는 AI'라고 표현한 그록은 프롬프트에 따라 대부분의 이미지를 생성할 수 있다. 외신에 따르면 '그록'은 프롬프트를 따라 테일러 스위프트· 카멀라 해리스 후보의 노골적 성적 대상화 이미지와 911 테러를 저지르는 트럼프 전 대통령의 사진 등을 생성한 바 있다. 전문가들은 검열되지 않는 이미지에 편집 기능까지 더해지면 문제가 더 심각해질 수 있다고 분석한다. AI는 아직도 영어를 제외한 글자들을 제대로 표시하지 못하고 사람의 손가락 같은 복잡한 형태를 그리지 못하지만 기술이 발전할수록 이러한 문제도 해결될 전망이기 때문이다. 이미 유사 기술인 딥페이크의 경우 기술이 고도화되면서 여러 문제가 발생했다. 지난 15일 샌프란시스코시 변호국은 딥페이크 포르노를 생성할 수 있는 사이트들의 폐쇄 조치를 요구하는 소송을 제기했다. 이 사이트들은 오픈소스 생성 AI를 사용해 피해자들의 동의 없이 얼굴을 포르노 영상과 합성하는 등의 문제를 초래했다. 이는 딥페이크 기술이 극도로 고도화되고 상용화가 가능한 수준에 이르렀음에도 관련 규제가 따라오지 못했음을 보여준다. 전문가들은 딥페이크와 마찬가지로 점점 고도화되고 있는 이미지 생성 및 편집 AI에도 신속히 규제를 마련해야 한다고 입을 모은다. 이미지 AI들이 고도의 편집 기능을 통해 성적 대상화 및 가짜뉴스 이미지를 대량생산할 가능성이 크기 때문이다. 이러한 폐해를 방지하기 위해 규제뿐만 아니라 기업들의 기술 개발도 필요하다고 전문가들은 분석한다. 하디 살만 오픈AI 연구원은 "기업들은 AI 도구의 잠재적 위협에 대한 방어 수단을 구축하는 데 투자해야 한다"며 "이를 위해 모델 개발자, 정책 입안자, 소셜미디어 플랫폼 간의 적극적 협력이 필요하다"고 강조했다.

2024.08.19 17:52조이환

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

수십년 된 공공SW 관행, 이젠 바꿔야...AI·SW 기반 국가전략 필요

SKT, AI 사업 성장에 영업익 14% 껑충

양자컴퓨팅 주가, 일제히 급등…실적호조→상용화 기대감 고조

韓 디스플레이, '아이폰17'용 OLED 공급 본격화…美 관세 변수

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현