[인터뷰] 사이냅소프트 "OCR IX, 에이전틱 도큐먼트 AI 시대 주도한다"
"광학문자인식(OCR)은 이제 글자를 읽는 기술을 넘어 문서를 이해하고 업무를 대신 수행하는 단계로 넘어가고 있습니다." 김영표 사이냅소프트 혁신개발팀장은 9일 지디넷코리아와 서울 마곡 본사에서 만나 최근 출시한 '사이냅 OCR IX'를 이같이 설명했다. OCR IX는 시각언어모델(VLM)과 인공지능(AI) 에이전트 개념을 결합한 신제품으로, 사이냅소프트가 제시하는 에이전틱 OCR 전략의 출발점으로 평가된다. 사이냅소프트는 2019년 딥러닝 기반 OCR 제품을 처음 선보인 이후 공공·금융·기업 시장을 중심으로 200건 이상의 레퍼런스를 쌓아왔다. 이번 OCR IX는 기존 OCR 제품을 IX로 리브랜딩하며 단순 인식 기술을 넘어 문서 이해와 업무 자동화까지 확장한 것이 특징이다. 김 팀장은 "OCR의 본질은 이미지에서 텍스트를 추출하는 것이지만, 실제 현장에서는 그 이후가 더 중요하다"며 "문서에서 핵심 키-밸류(KV)를 뽑고 이를 업무 시스템과 연결하는 과정이 OCR 도입의 진짜 목적"이라고 말했다. 사이냅소프트가 정의한 에이전틱 OCR은 KV 추출 결과뿐 아니라 그 구축과 운영 과정 자체를 AI 에이전트가 수행하는 개념이다. 서식 분석, 모델 선택, 학습, 검증, 보완 과정을 사람 대신 AI가 반복 수행해 구축 기간과 운영 부담을 줄이는 것이 목표다. 김 팀장은 "기존 OCR 프로젝트는 솔루션 도입 이후에도 별도의 구축 사업이 항상 따라붙었다"며 "서식이 조금만 바뀌어도 다시 비용과 시간이 들었지만, OCR IX는 이 과정을 AI가 스스로 반복 수행하도록 설계했다"고 밝혔다. OCR IX은 비전언어모델(VLM), KVT, 폼메이커 등 다양한 인식·추출 엔진을 제공해 비정형·정형문서를 처리할 때 속도와 복잡성 등 목적에 맞게 활용할 수 있다. 김 팀장은 "문서가 들어오면 정형·비정형 여부, 레이아웃 복잡도, 추출 항목 특성을 분석한 뒤 최적의 엔진 조합을 자동으로 구성한다"며 "결과를 정량 평가해 부족한 부분은 다시 보완하는 방식"이라고 말했다. 비정형 문서 OCR의 가장 큰 난제로는 기술보다 현실적인 비용 구조를 꼽았다. 그는 "계약서나 거래명세서처럼 문서 양식이 계속 바뀌는 환경에서는 유지·운영 비용이 가장 큰 부담"이라며 "OCR IX는 고객이 직접 GUI 환경에서 서식을 수정·보완할 수 있도록 설계했다"고 설명했다. 최근 화두인 VLM 기반 OCR의 환각(할루시네이션) 문제에 대해서도 선을 그었다. 사이냅 OCR IX는 VLM이 문서를 새로 '생성'하지 못하도록 구조적으로 제한한다. 그는 "VLM은 정답을 만들어내는 주체가 아니라, 기존 OCR 엔진이 인식한 확정 텍스트를 이해·검증하는 역할"이라며 "VLM이 근거를 찾고 그 근거를 다시 검증하는 구조로 환각을 통제한다"고 말했다. 그래픽처리장치(GPU) 비용 역시 고객들이 민감하게 묻는 지점이다. OCR IX는 문서 유형에 따라 GPU를 아예 쓰지 않거나 중소형 GPU만으로도 운영할 수 있도록 선택지를 제공한다. 김 팀장은 "VLM 단독 방식은 고성능 GPU가 필수지만, 데이터가 쌓이면 KVT로 전환해 비용을 크게 줄일 수 있다"며 "초기에는 VLM으로 빠르게 도입하고 이후 총소유비용(TCO)을 낮추는 전략이 현실적"이라고 말했다. 실제 사이냅소프트 내부 테스트 기준에 따르면 VLM 대비 KVT 전환 시 GPU 비용은 최대 20분의 1 수준까지 낮아지고 처리 속도는 수 초에서 1초 이내로 개선될 수 있다. OCR IX는 산업별 특화보다는 업무 난이도 중심 전략을 택했다. 단순 텍스트 추출이 필요한 경우는 'OCR 라이트'로, 복잡한 KV 추출과 업무 자동화가 필요한 경우는 OCR IX로 대응한다는 방침이다. 김 팀장은 "우리 솔루션은 기존 공공과 금융에서 강점이 있지만, 특정 산업에 국한된 제품은 아니다"며 "대출 서류 심사, 무역 문서, 진단서처럼 비정형 문서를 이해해야 하는 영역이 주요 타깃"이라고 밝혔다. OCR IX는 사이냅소프트의 도큐먼트 AI 포트폴리오에서도 핵심 역할을 맡는다. OCR IX가 인식한 이미지·PDF 데이터는 도큐애널라이저를 거쳐 구조화되고 이후 '어시스턴트'나 '아이넥스'와 같은 생성형 AI 서비스로 연결된다. 그는 "OCR IX의 인식 품질이 높아질수록 상위 AI 서비스의 정확도와 신뢰성도 함께 향상된다"며 "문서를 잘 읽는 것이 모든 문서 AI의 출발점"이라고 역설했다. 향후 방향성에 대해 김 팀장은 문서 AI를 넘어 비전 AI 전반으로의 확장을 예고했다. OCR과 VLM, 자연어처리(NLP), 음성 인식 기술을 축적해 장기적으로는 피지컬 AI까지 이어질 수 있는 기반을 마련하겠다는 구상이다. 김 팀장은 "에이전틱 OCR은 문서 이해에서 멈추지 않고 실제 업무 실행까지 연결되는 과정"이라며 "OCR IX는 그 출발점이고, 문서를 가장 정확하게 이해하는 AI로 진화해 나갈 것"이라고 강조했다.