검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'VLM'통합검색 결과 입니다. (15건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

지미션, 비정형 문서 이해·팩스 자동화 AX 솔루션 공개

지미션이 비정형 문서 이해와 팩스 업무 자동화, 영상 관제까지 아우르는 인공지능(AI) 전환(AX) 포트폴리오를 공개했다. 단순한 인식 자동화를 넘어 문서 구조와 의미를 해석하고, 후속 업무까지 연결하는 방향성을 제시했다는 점에서 업관심을 끌고 있다. 지미션은 STK 2026 현장에서 문서 이해, 팩스 자동화, 영상 분석을 결합한 AX 포트폴리오를 공개하며 공공·금융 등 문서 집약 산업을 겨냥한 현장형 AI 전략을 제시했다고 15일 밝혔다. 이번 전시의 핵심은 비전언어모델(VLM) 기반 OCR과 자율형 AI 에이전트 기술이다. 기존 OCR이 문서 내 텍스트 추출에 집중했다면 지미션이 공개한 'VLM OCR'은 계약서, 공문서, 금융서류 등 복잡한 비정형 문서의 구조와 문맥을 함께 해석하는 데 초점을 맞췄다. 이미지와 언어를 동시에 처리하는 모델을 기반으로 문서를 구조화된 데이터로 변환해, 문서 분류·정보 추출·업무 연계 효율을 높일 수 있도록 설계됐다. 이는 기업 현장에서 반복적으로 발생하는 문서 처리 병목을 줄이는 데 의미가 있다. 특히 서식이 일정하지 않은 계약서나 행정문서, 금융 관련 서류는 기존 규칙 기반 OCR로 처리하기 어려운 경우가 많았는데, VLM 기반 접근은 이런 한계를 보완할 수 있는 대안으로 평가된다. 함께 공개된 '에이전틱 G-팩스'는 팩스 수신 이후 과정을 AI 에이전트가 자율적으로 수행하는 자동화 솔루션이다. 수신 문서 분류, 핵심 데이터 추출, 요약, 검색, 후속 시스템 연계까지 전 과정을 자동화하는 것이 특징이다. 팩스 기반 업무 비중이 여전히 높은 공공기관과 금융권, 일부 제조업 현장에서 실질적인 도입 수요를 겨냥한 제품으로 해석된다. AI 기반 영상 분석 플랫폼 '덱스마(DEXMA)'도 현장 적용성을 강조한 솔루션으로 소개됐다. 이 플랫폼은 컴퓨터비전 기술을 활용해 CCTV 영상을 실시간 분석하고, 침입·배회·쓰러짐·화재 등 위험 상황을 자동 탐지해 관리자에게 즉시 알린다. 지미션에 따르면 DEXMA는 최근 한국인터넷진흥원(KISA)의 지능형 CCTV 성능 시험인증에서 배회 분야 인증을 획득했다. 이번 전시에서 지미션이 보여준 방향성은 분명하다. 문서 AI, 에이전트 자동화, 영상 인텔리전스를 개별 기능 단위가 아니라 실제 업무 프로세스 전반의 전환 도구로 묶어 제안하고 있다는 점이다. 특히 공공·금융처럼 정확성과 추적 가능성, 업무 연속성이 중요한 산업군을 주요 타깃으로 삼고 있다는 점에서 B2B AX 시장 공략 의도가 읽힌다. 지미션은 최근 하이서울기업 인증을 취득하고 하나원큐 애자일랩 17기에 선정되는 등 사업 확장 기반도 다지고 있다. 회사는 향후 문서와 데이터, 영상 영역에서 축적한 AI 기술을 바탕으로 현장 체감형 솔루션 공급을 확대한다는 계획이다. 한준섭 지미션 대표는 "AI 기술은 단순한 업무 효율화 수준을 넘어 기업 운영 방식 자체를 혁신하는 단계로 진화하고 있다"며 "고객이 실제 업무 환경에서 체감할 수 있는 실질적 솔루션을 지속적으로 선보이겠다"고 말했다.

2026.06.15 11:12남혁우 기자

로민 상반기 수주 50억 규모…문서 AI 사업 확장 '속도'

로민이 비전언어모델(VLM) 기반 문서 자동화 사업을 앞세워 산업별 고객 확장에 속도 붙었다. 로민은 올해 상반기 누적 수주액 50억원을 기록했다고 28일 밝혔다. 금융권에서 VLM 기반 다큐먼트 AI 에이전트 적용이 확대되고, 공공·제조·헬스케어 분야까지 사업 범위가 넓어진 결과라는 평가다. 로민은 지난해 다큐먼트 AI 에이전트를 출시한 뒤 고객 업무 흐름에 맞춘 문서 자동화 영역으로 사업을 확장해왔다. 올해 금융권을 중심으로 신규 수주가 빠르게 증가한 것으로 전해졌다. 금융권에서는 우리은행과 수협은행 등 은행 3곳과 코리안리를 포함한 보험사 2곳이 로민 플랫폼 기반 사업을 도입했다. 국내 대형 증권사와 캐피탈사로도 적용 범위가 넓어지고 있다. 로민은 제조·공공·헬스케어 분야에서도 고객 기반을 확대하고 있다. 현대자동차, 한화에어로스페이스, 사회보장정보원, GC케어 등을 고객사로 확보했다. 로민은 수주 확대 배경으로 멀티모달 기반 기술 경쟁력을 꼽았다. VLM은 시각 정보와 언어를 함께 이해하는 기술이다. 최근 글로벌 시장에서 문서 자동화 기술이 기존 광학문자인식(OCR) 중심에서 문맥과 문서 구조까지 이해하는 멀티모달 AI 기반으로 빠르게 전환되는 추세다. 이들은 단순 정보 추출을 넘어 문서를 이해하고 다음 업무까지 자동 수행하는 AI 에이전트 형태로 VLM 기술 적용 범위를 확대하고 있다. 로민은 브랜드 체계도 정비했다고 밝혔다. 기존 제품 브랜드인 '텍스트스코프 스튜디오'를 사명과 같은 '로민'으로 통합했다. 로민 플랫폼은 API 연동을 통해 고객 기존 업무 시스템과 연결된다. 문서 업로드부터 결과 전달까지 이어지는 업무 흐름을 자동화하고 문서 분류, 핵심 정보 추출, 문서 구조 파싱, 문서 간 대조, 비식별, 검수, 학습 기능을 하나의 워크플로 안에서 제공한다. 로민은 현재 이 플랫폼을 서비스형 소프트웨어(SaaS) 형태로 제공하기 위한 베타 서비스 출시도 준비하고 있다. 구축형 중심 사업에서 플랫폼형 사업으로 확장하려는 전략으로 풀이된다. 강지홍 로민 대표는 "이번 성과는 금융권을 비롯한 주요 산업에서 우리 기술력과 구축 역량을 인정받은 결과"라며 "앞으로 고객 업무 흐름에 맞춘 자동화 기능을 고도화해 기업 내 다양한 문서 처리 업무를 지원하는 핵심 플랫폼으로 자리매김하겠다"고 말했다.

2026.05.28 17:21김미정 기자

지미션, 정부 AI 바우처 공급기업 선정…VLM OCR 지원 확산

지미션이 정부 인공지능(AI) 바우처 사업을 기반으로 기업 대상 AI 전환(AX) 시장 공략에 박차를 가한다. 문서 처리와 영상 분석을 결합한 AI 솔루션을 앞세워 산업 현장의 업무 효율성과 안전 관리 수준을 동시에 높인다는 전략이다. 지미션은 과학기술정보통신부와 정보통신산업진흥원(NIPA)이 주관하는 '2026년 AI 바우처 지원사업'의 공급기업으로 선정됐다고 23일 밝혔다. AI 바우처 지원사업은 AI 도입이 필요한 중소·벤처기업에 바우처를 제공하고 이를 통해 최적의 AI 솔루션 도입을 지원하는 정부 사업이다. 수요기업은 공급기업의 기술을 활용해 업무 자동화와 생산성 향상을 추진할 수 있다. 지미션은 이번 사업을 통해 비전언어모델(VLM) 기반 문서 처리 솔루션과 AI 영상 분석 플랫폼을 중심으로 기업의 AX를 지원할 계획이다. 특히 문서 자동화와 영상 분석을 결합한 산업별 맞춤형 AI 적용 모델을 확대한다는 방침이다. 주요 솔루션인 '닥스훈드 VLM OCR'은 VLM 기반 멀티모달 광학문자인식(OCR) 기술을 적용한 문서 처리 엔진이다. 계약서·금융 서류·공문서 등 다양한 비정형 문서를 고정밀로 인식하고 구조화된 데이터로 변환할 수 있는 것이 특징이다. 기존 OCR의 양식 의존성을 넘어 문맥 기반 이해가 가능하며 온프레미스 구축도 지원해 보안이 중요한 산업에 적합한 것으로 평가된다. 영상 분석 솔루션 '덱스마 워치 v1.0'도 함께 제공된다. 해당 플랫폼은 AI 컴퓨터비전 기술을 기반으로 CCTV 영상을 실시간 분석해 객체 탐지와 행동 인식을 수행한다. 침입·배회·쓰러짐·화재 등 다양한 이벤트를 자동 감지하고 즉시 알림을 제공해 효율적인 영상 관제를 지원한다. 지미션은 도입 컨설팅부터 개념검증(PoC), 실제 운영까지 전 과정에 걸친 지원 체계를 제공할 계획이다. 이를 통해 기업이 실제 업무 환경에서 AI를 활용할 수 있는 기반을 마련하고 실질적인 성과 창출을 지원한다는 구상이다. 한준섭 지미션 대표는 "AI 바우처 지원사업은 기업이 실제 업무 환경에 AI를 적용할 수 있는 중요한 기회"라며 "VLM OCR과 영상 분석 기술을 통해 다양한 산업에서 실질적인 효율 개선과 안전 관리 수준 향상을 지원하겠다"고 밝혔다.

2026.03.23 15:49한정호 기자

GPU 1장으로 분당 500장 인식…사이냅소프트, '사이냅 OCR IX' 경쟁력 입증

사이냅소프트가 그래픽처리장치(GPU) 한 장으로 분당 문서 페이지 500장을 처리하는 차세대 광학문자인식(OCR) 솔루션 '사이냅 OCR IX'의 경쟁력을 입증했다. 고성능 역량과 온프레미스 지원을 앞세워 금융·공공 시장 레퍼런스를 확대한다는 목표다. 사이냅소프트는 지난달 출시한 사이냅 OCR IX의 세부 성능 데이터를 공개했다고 27일 밝혔다. 공개 자료에 따르면 사이냅 OCR IX는 OCR 엔진 단독 기준 11GB GPU 1장으로 동시 30건 요청 환경에서 분당 약 500장을 처리한다. 비정형 문서에서 핵심 정보를 자동 추출하는 키밸류 트레이너(KVT) 구성에선 분당 약 240장의 처리 성능을 기록했다. 이같은 속도는 실제 운영 환경에서 서비스 품질과 직결되는 요소다. 금융권의 신분증 인식이나 비대면 본인인증(eKYC)은 청약·정책대출 접수·연말정산 등 특정 시기에 수요가 급증한다. 단기간에 몰리는 수십만 건의 인증 요청을 지연 없이 처리하지 못할 경우 서비스 병목이 발생할 수 있다. 공공 부문 역시 사업 신청 기간에 하루 수십만 건의 서류가 접수되는 만큼 대규모 트래픽을 안정적으로 소화할 수 있는 인프라가 요구된다. 사이냅소프트는 농협은행·케이뱅크·신한은행·동양생명·현대해상 등 다수 금융사와 행정안전부, 한국자산관리공사 등을 포함해 200건 이상의 레퍼런스를 확보하고 있다. 인식 정확도와 처리 속도, 시스템 안정성을 종합적으로 충족하며 시장 신뢰를 확보했다는 설명이다. 특히 고객 내부 온프레미스 환경에서도 안정적으로 운영되며 보안성과 실적용성을 입증 중이다. 사이냅 OCR IX에 탑재된 비전언어모델(VLM)은 기존 OCR 솔루션의 서식 학습 부담을 줄이는 데 초점을 맞췄다. 사전 학습 없이도 처음 보는 서식을 처리하고 필요한 항목을 추출할 수 있어 기관마다 형식이 다른 계약서·확인서·점검표 등 비정형 문서 환경에서 도입 기간과 비용을 단축할 수 있다. 동시에 고성능 GPU 없이 자체 서버만으로 운영 가능한 CPU 버전도 지원해 초기 도입 부담을 낮췄다. 인식 범위 역시 확장됐다. 표 안에 중첩된 표나 스캔 과정에서 선이 누락된 표, 저해상도 이미지 내 표 인식은 물론 수식·바코드·QR코드까지 지원한다. 연구 문서나 물류·제조 현장에서 활용도가 높은 손글씨 인식 품질도 개선해 문서 자동화 적용 영역을 넓혔다. 전경헌 사이냅소프트 대표는 "200건 이상의 실적으로 입증된 신뢰성에 VLM의 유연성을 더해 기업 업무 환경에 최적화된 도큐먼트 AI 모델을 구현했다"며 "성능 수치로 증명된 압도적인 처리 역량을 바탕으로 시장 리더십을 더욱 공고히 할 것"이라고 밝혔다.

2026.02.27 16:39한정호 기자

"추론하는 CCTV 구현"... 한국딥러닝, 생활안전 데이터 구축

한국딥러닝이 인공지능(AI) 기술로 공공 안전 시스템을 업그레이드했다. 한국딥러닝은 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 주관한 '2025년 초거대 AI 확산 생태계 조성 사업'을 성공적으로 마무리했다. 이번 사업에 한국딥러닝이 주관하고 쿠도커뮤니케이션이 참여해 비전언어모델(VLM) 기반 다각도 CCTV 생활안전 데이터 5000건을 구축했다. 생활 안전 데이터는 기존 지능형 CCTV의 단편적 상황 인식 한계를 해결하기 위해 추진됐다. 단방향 영상과 객체 라벨링 방식에서 벗어나 사건 전후 맥락을 파악할 수 있는 시계열 데이터를 구축해 행위 인식의 사각지대를 최소화했다. 한국딥러닝은 단계별 논리 사고가 포함된 생각의 사슬(CoT) 라벨링 저작 도구를 개발해 데이터를 확보했다. 개인정보 보호를 위해 얼굴, 상호명 간판, 차량번호 등을 비식별화 처리했으며, 가명정보처리위원회 적정성 검토도 완료했다. 구축된 데이터는 경계선 침입, 특정 구역 내 지속 배회 등 생활안전 상황 11종에 대한 원천·가공 데이터다. NIA 외부 검증에서 다양성, 구문 정확성, 의미 정확성, 추론 유효성 등 전 항목 품질 100%를 인정받으며 우수 평가를 받았다. 이번 성과는 AI가 사건 맥락을 분석해 관제 요원 업무 부담을 경감하고 인력 부족 문제를 해소하는 데 기여할 전망이다. 부천시 손잡고 실제 생활안전 시나리오를 반영함으로써 실무 활용도를 높였다. 김지현 한국딥러닝 대표는 "이번 사업을 통해 단순 객체 탐지를 넘어 상황 맥락과 흐름을 이해할 수 있는 차세대 CCTV 학습 데이터를 구축했다"며 "최근 확보한 데이터셋이 AI 모델 학습에 활용되면 보다 정확하고 신뢰할 수 있는 지능형 CCTV 시스템 구현이 가능할 것"이라고 밝혔다.

2026.02.11 14:57김미정 기자

[인터뷰] 사이냅소프트 "OCR IX, 에이전틱 도큐먼트 AI 시대 주도한다"

"광학문자인식(OCR)은 이제 글자를 읽는 기술을 넘어 문서를 이해하고 업무를 대신 수행하는 단계로 넘어가고 있습니다." 김영표 사이냅소프트 혁신개발팀장은 9일 지디넷코리아와 서울 마곡 본사에서 만나 최근 출시한 '사이냅 OCR IX'를 이같이 설명했다. OCR IX는 시각언어모델(VLM)과 인공지능(AI) 에이전트 개념을 결합한 신제품으로, 사이냅소프트가 제시하는 에이전틱 OCR 전략의 출발점으로 평가된다. 사이냅소프트는 2019년 딥러닝 기반 OCR 제품을 처음 선보인 이후 공공·금융·기업 시장을 중심으로 200건 이상의 레퍼런스를 쌓아왔다. 이번 OCR IX는 기존 OCR 제품을 IX로 리브랜딩하며 단순 인식 기술을 넘어 문서 이해와 업무 자동화까지 확장한 것이 특징이다. 김 팀장은 "OCR의 본질은 이미지에서 텍스트를 추출하는 것이지만, 실제 현장에서는 그 이후가 더 중요하다"며 "문서에서 핵심 키-밸류(KV)를 뽑고 이를 업무 시스템과 연결하는 과정이 OCR 도입의 진짜 목적"이라고 말했다. 사이냅소프트가 정의한 에이전틱 OCR은 KV 추출 결과뿐 아니라 그 구축과 운영 과정 자체를 AI 에이전트가 수행하는 개념이다. 서식 분석, 모델 선택, 학습, 검증, 보완 과정을 사람 대신 AI가 반복 수행해 구축 기간과 운영 부담을 줄이는 것이 목표다. 김 팀장은 "기존 OCR 프로젝트는 솔루션 도입 이후에도 별도의 구축 사업이 항상 따라붙었다"며 "서식이 조금만 바뀌어도 다시 비용과 시간이 들었지만, OCR IX는 이 과정을 AI가 스스로 반복 수행하도록 설계했다"고 밝혔다. OCR IX은 비전언어모델(VLM), KVT, 폼메이커 등 다양한 인식·추출 엔진을 제공해 비정형·정형문서를 처리할 때 속도와 복잡성 등 목적에 맞게 활용할 수 있다. 김 팀장은 "문서가 들어오면 정형·비정형 여부, 레이아웃 복잡도, 추출 항목 특성을 분석한 뒤 최적의 엔진 조합을 자동으로 구성한다"며 "결과를 정량 평가해 부족한 부분은 다시 보완하는 방식"이라고 말했다. 비정형 문서 OCR의 가장 큰 난제로는 기술보다 현실적인 비용 구조를 꼽았다. 그는 "계약서나 거래명세서처럼 문서 양식이 계속 바뀌는 환경에서는 유지·운영 비용이 가장 큰 부담"이라며 "OCR IX는 고객이 직접 GUI 환경에서 서식을 수정·보완할 수 있도록 설계했다"고 설명했다. 최근 화두인 VLM 기반 OCR의 환각(할루시네이션) 문제에 대해서도 선을 그었다. 사이냅 OCR IX는 VLM이 문서를 새로 '생성'하지 못하도록 구조적으로 제한한다. 그는 "VLM은 정답을 만들어내는 주체가 아니라, 기존 OCR 엔진이 인식한 확정 텍스트를 이해·검증하는 역할"이라며 "VLM이 근거를 찾고 그 근거를 다시 검증하는 구조로 환각을 통제한다"고 말했다. 그래픽처리장치(GPU) 비용 역시 고객들이 민감하게 묻는 지점이다. OCR IX는 문서 유형에 따라 GPU를 아예 쓰지 않거나 중소형 GPU만으로도 운영할 수 있도록 선택지를 제공한다. 김 팀장은 "VLM 단독 방식은 고성능 GPU가 필수지만, 데이터가 쌓이면 KVT로 전환해 비용을 크게 줄일 수 있다"며 "초기에는 VLM으로 빠르게 도입하고 이후 총소유비용(TCO)을 낮추는 전략이 현실적"이라고 말했다. 실제 사이냅소프트 내부 테스트 기준에 따르면 VLM 대비 KVT 전환 시 GPU 비용은 최대 20분의 1 수준까지 낮아지고 처리 속도는 수 초에서 1초 이내로 개선될 수 있다. OCR IX는 산업별 특화보다는 업무 난이도 중심 전략을 택했다. 단순 텍스트 추출이 필요한 경우는 'OCR 라이트'로, 복잡한 KV 추출과 업무 자동화가 필요한 경우는 OCR IX로 대응한다는 방침이다. 김 팀장은 "우리 솔루션은 기존 공공과 금융에서 강점이 있지만, 특정 산업에 국한된 제품은 아니다"며 "대출 서류 심사, 무역 문서, 진단서처럼 비정형 문서를 이해해야 하는 영역이 주요 타깃"이라고 밝혔다. OCR IX는 사이냅소프트의 도큐먼트 AI 포트폴리오에서도 핵심 역할을 맡는다. OCR IX가 인식한 이미지·PDF 데이터는 도큐애널라이저를 거쳐 구조화되고 이후 '어시스턴트'나 '아이넥스'와 같은 생성형 AI 서비스로 연결된다. 그는 "OCR IX의 인식 품질이 높아질수록 상위 AI 서비스의 정확도와 신뢰성도 함께 향상된다"며 "문서를 잘 읽는 것이 모든 문서 AI의 출발점"이라고 역설했다. 향후 방향성에 대해 김 팀장은 문서 AI를 넘어 비전 AI 전반으로의 확장을 예고했다. OCR과 VLM, 자연어처리(NLP), 음성 인식 기술을 축적해 장기적으로는 피지컬 AI까지 이어질 수 있는 기반을 마련하겠다는 구상이다. 김 팀장은 "에이전틱 OCR은 문서 이해에서 멈추지 않고 실제 업무 실행까지 연결되는 과정"이라며 "OCR IX는 그 출발점이고, 문서를 가장 정확하게 이해하는 AI로 진화해 나갈 것"이라고 강조했다.

2026.02.09 14:07한정호 기자

AI모델, 간단한 패치로 지식 전수…'분자비서'도 첫 공개

스마트폰을 바꿀 때마다 연락처와 사진을 개인이 일일이 옯겨야 한다면 난감해진다. 실제 데이터 학습이 필요한 인공지능(AI) 모델에서도 이 같은 상황은 마찬가지였다. 새로운 AI 모델이 나놀 때마다 막대한 비용을 들여 데이터 학습을 다시했다. 국내 연구진이 이같은 문제를 해결할 대안으로 AI 모델 간 '지식 이식'이 가능한 기법을 제안했다. 향후 AI 모듈(SW) 패치로 지식 이식이 손쉬워질 전망이다. KAIST는 전산학부 김현우 교수 연구팀이 고려대학교 연구팀과 공동으로 서로 다른 인공지능 모델 사이에서 학습된 지식을 효과적으로 '이식'할 수 있는 새로운 기술을 개발했다고 27일 밝혔다. 김현우 교수는 "이번 연구를 확장하면, 빠르게 발전하는 초거대언어모델이 등장할 때마다 반복적으로 수행해야 했던 후학습 비용을 크게 줄일 수 있다. 특정 분야 전문 지식을 손쉽게 추가하는 '모델 패치'가 가능해질 것”이라며 "지식 전수 과정에서 지적 재산권 침해나 윤리적인 문제는 없다"고 설명했다. 최근 인공지능 분야에서는 사진과 글을 함께 이해하는 시각–언어 모델(VLM)이 빠르게 발전하고 있다. 사용자가 사진을 보여주며 질문하면 설명을 해주는 챗GPT와 같은 멀티모달 AI가 대표적이다. 이러한 모델들은 대규모 이미지와 언어 데이터를 사전 학습해, 적은 양의 데이터만으로도 새로운 분야에 비교적 빠르게 적응할 수 있다는 장점을 지닌다. 그러나 새로운 AI 모델이 나올 때마다 이러한 '적응 과정'을 처음부터 다시 수행해야 한다는 점이 큰 비효율로 지적돼 왔다. 기존의 적응 기법들 역시 모델 구조가 조금만 달라져도 그대로 활용하기 어렵거나, 여러 모델을 동시에 사용해야 해 메모리와 연산 비용이 크게 증가하는 한계를 안고 있었다. 연구팀은 이러한 문제를 해결하기 위해 모델의 구조나 크기에 상관없이 학습된 지식을 재사용할 수 있는 전이 가능한 적응 기법인 '트랜스미터(TransMiter)'를 제안하고, AI가 쌓은 '적응경험'을 다른 AI모델로 쉽게 옮길 수 있다. 이는 AI의 복잡한 내부 구조를 뜯어고치지 않고, 예측 결과(output)만 보고 배운 요령을 다른 AI에게 전해주는 방식이다. 서로 생김새가 다른 AI 모델이라도 같은 질문에 내놓은 답변을 기준으로 정리해 주면, 한 AI가 익힌 노하우를 다른 AI도 바로 활용할 수 있다. 복잡하고 시간이 많이 드는 학습 과정을 다시 거칠 필요가 없고, 속도도 거의 느려지지 않는다. 김현우 교수는 "그동안 모델 구조나 크기가 다르면 재사용이 거의 불가능하다고 여겨졌던 AI의 적응 지식을 모델 종류에 상관없이 정밀하게 이식할 수 있음을 처음으로 입증했다"며 "필요한 분야에 맞춰 거대언어모델을 실시간 업데이트하는 이른바 '지식 패치(patch)' 기술로의 활용도 기대된다"고 말했다. 연구는 KAIST 전산학부 송태훈 석사과정생, 이상혁 박사후연구원, 고려대학교 박지환 박사과정생이 공동 저자로 참여했다. 연구 결과는 인공지능 분야 국제 학술대회(AAAI 2026, Association for the Advancement of Artificial Intelligence)에서 구두로 발표됐다. 구두 발표 채택률은 4.6%다. 한편 김현우 교수 연구실은 이번 논문을 포함해 구글 클라우드 AI와 공동 진행한 문서 내의 테이블 이해를 고도화한 기술인 탭플래시(abFlash) 등 논문 3편을 이 학회에서 발표했다. 탭플래시는 정보 밀도가 높은 영역에 집중하고 중복된 정보를 최소화하는 전략을 통해 계산 효율성을 크게 향상시킨 기술이다. 점적으로 질문 내용을 인공신경망에 주입해 스스로 질문에 관련성 높은 입력 중심으로 정확하고 간결한 특성값 생성을 유도하는 기법이다. 기존 공개 모델 및 상용 모델을 모두 능가하는 성능을 달성했다. 연산량(FLOPs)은 7%, 메모리 사용량은 30% 절감을 실현했다. 다른 하나는 과학 도메인 인공지능 분자비서인 '콜라모(CoLLaMo) 시스템'을 개발했다. 분자구조를 1차원 문자열, 2차원 분자 그래프, 3차원 공간 정보로 통합 이해하고, 사용자 지시에 따라 분자 속성을 예측하며 다양한 질의응답과 분자 표현법 변환 등을 수행할 수 있다. 김현우 교수는 이 콜라모가 인공지능 동료과학자(Co-scientist) 개념을 구현하고, 과학 연구 효율성과 발전속도를 획기적으로 높이는 데 기여할 수 있을 것으로 기대했다. 이들 연구는 국방기술진흥연구소 산학연 주관 핵심기술 연구개발사업과 정보통신기획평가원(IITP) 디지털혁신기술 국제공동연구사업 지원을 받아 수행됐다.

2026.01.27 10:03박희범 기자

포지큐브, '고성능컴퓨팅 지원사업' 선정…국산 문서파싱 VLM 개발 가속

포지큐브가 그래픽처리장치(GPU) 자원 확보를 통해 국산 문서파싱 비전언어모델(VLM) 개발을 가속한다. 포지큐브는 정보통신산업진흥원(NIPA)의 '2025년 고성능컴퓨팅 지원사업'에 선정됐다고 27일 밝혔다. 포지큐브는 이번 사업을 통해 한글 기반 문서 분석과 마크다운 자동 생성을 수행하는 경량 비전언어모델(SVLM) 개발을 완료할 계획이다. 고성능컴퓨팅 지원사업은 과학기술정보통신부와 NIPA가 민간 클라우드 사업자를 통해 GPU 기반 인공지능(AI) 컴퓨팅 인프라를 확보하고 국내 AI 연구·개발 기업과 기관에 대규모 GPU 자원을 제공하는 프로그램이다. 고성능 연산 환경을 지원해 AI 기술 개발 경쟁력을 강화하는 것이 목적이다. 포지큐브는 이번 사업을 통해 7B 모델로 큐웬 2.5VL-32B급의 문서 분석·마크다운 생성 성능을 확보하는 것을 목표로 한다. 이를 통해 PDF·PPT·워드·스캔 이미지 등 다양한 문서를 정밀하게 이해하고 7B 모델 특유의 낮은 연산 비용을 기반으로 실시간 응답형 API 서비스로 활용할 수 있도록 할 예정이다. 특히 해외 모델이 처리하지 못하는 국내 공공·금융기관 고유 문서 서식의 한계를 보완할 수 있다는 점이 차별점이다. 포지큐브는 개발된 VLM을 자사 솔루션 '로비 G'에 적용해 온프레미스 기반 문서 자동화, 거대언어모델(LLM) API 비용 절감, 응답 속도 개선 등 효과를 기대하고 있다. 더불어 문서 변환 엔진인 로비 G 데이터렉스에 탑재되는 핵심 모델을 독립 제품으로 판매하는 투트랙 전략도 추진한다. 또 7B 모델을 바탕으로 금융 도메인 특화 70B급 대형 모델 개발·상용화를 추진해 기업의 AI 전환(AX)을 지원할 계획이다. 포지큐브는 "국내 문서 자동화 시장은 공공·금융기관을 중심으로 급속하게 성장 중이며 국산 SVLM은 필수 기술"이라며 "이번 연구를 통해 한국형 문서 AI 생태계를 선도하겠다"고 밝혔다.

2025.11.27 18:39한정호 기자

노타, KISA 지능형 CCTV 성능 인증 획득…AI 영상 관제 상용화 '가속'

노타가 인공지능(AI) 영상 분석 기술의 신뢰성과 완성도를 공식적으로 입증했다. 노타는 한국인터넷진흥원(KISA)이 주관한 지능형 CCTV 성능시험·인증 4개 부문(배회·침입·쓰러짐·유기)을 통과했다고 6일 밝혔다. KISA 지능형 CCTV 성능시험·인증 제도는 AI 영상 분석 기술의 객체 탐지 정확도, 행위 인식 성능, 환경 적응성 등을 종합적으로 검증하는 공신력 있는 평가 제도다. 노타는 4개 부문 평가에서 평균 95점의 높은 성적을 기록하며 자사 영상 분석 기술이 산업·공공·교통 등 다양한 실제 환경에서 안정적이고 신뢰성 있게 작동할 수 있음을 공식적으로 확인받았다. 인증을 획득한 노타의 '노타 비전 에이전트(NVA)'는 비전언어모델(VLM)을 기반으로 영상 속 객체 간의 관계와 상황의 맥락을 이해해 위험을 정밀하게 감지하고 대응할 수 있는 영상 관제 솔루션이다. 특히 노타의 독자적인 AI 모델 경량화·최적화 기술을 적용해 대규모 인프라나 네트워크 제약이 있는 현장에서도 실시간으로 정밀한 분석이 가능한 것이 특징이다. 노타는 지난 8월 코오롱인더스트리 김천2공장에 NVA를 도입하며 국내 최초로 VLM 기반 영상 관제 솔루션의 상용화를 실현했다. 이후 제조·건설·교통·공공안전 등 다양한 산업 분야로 적용 영역을 확대하고 있다. 두바이 도로교통국(RTA)과도 협력해 교통사고를 자동 인식·보고하고 상황별 대응을 제안하는 에이전트형 교통 관리 시스템을 선보일 예정이다. 또 교통·제조·안전 등 NVA 수요가 높은 동남아 시장 진출에도 속도를 내며 글로벌 시장 다각화를 추진하고 있다. 채명수 노타 대표는 "이번 KISA 인증은 노타의 AI 영상 관제 기술이 공인된 수준의 신뢰성과 완성도를 갖췄음을 입증한 결과"라며 "앞으로도 산업·교통·공공안전 등 다양한 분야에서 영상 AI 기술의 표준을 제시하고 실질적인 사고 예방과 인명 보호를 통해 사회 안전망 구축에 기여하겠다"고 말했다. 이어 "AI가 현실 공간의 상황을 인식하고 대응하는 피지컬 AI 시대가 빠르게 다가오고 있는 만큼, 생성형 AI 영상 관제 기술을 중심으로 이러한 산업적 변화 속에서 새로운 가치를 만들어가며 혁신을 선도해 나가겠다"고 덧붙였다.

2025.11.06 17:09한정호 기자

지미션, 중기부 업고 'VLM OCR' 날개…'보는 AI'로 문서 혁신 이끈다

지미션이 차세대 비전언어모델(VLM) 광학문자인식(OCR) 기술을 앞세워 지능형 문서처리 시장 선점에 나선다. 지미션은 중소벤처기업부가 주관하는 '중소기업기술혁신개발사업 시장확대형' 연구과제에 최종 선정됐다고 22일 밝혔다. 선정된 과제는 'VLM 기반의 멀티모달 지능형 OCR 솔루션 연구개발'이다. VLM은 텍스트는 물론 이미지와 시각 정보까지 함께 분석하는 멀티모달 모델이다. 기존 기술이 단순히 문서 속 글자를 정확히 읽어내는 데 집중했다면 지미션의 기술은 문서의 전체 맥락까지 이해하는 한 단계 진화한 기술로 평가받는다. 이 기술은 문서 속 글자, 표, 그래픽, 서식 구조를 종합적으로 파악한다. 이를 통해 AI가 단순 문자 인식을 넘어 문서가 담고 있는 본래 의미를 파악하는 것이 가능해진다. 지미션은 AI OCR를 기반으로 ▲문서 자동 분류 ▲개인정보 마스킹 ▲거대언어모델(LLM) 기반 요약 및 검색 기술을 이미 보유하고 있다. 이번 연구개발은 기존 기술에 VLM을 더해 문서 처리 수준을 한 차원 높이는 것을 목표로 한다. 기술이 상용화되면 사용자는 문서 속 항목의 의미와 맥락까지 반영된 지능형 서비스를 경험할 수 있다. 일례로 같은 숫자라도 계좌번호인지, 주민등록번호인지 서식에 맞춰 스스로 구분하고 필요한 항목만 골라 추출하거나 요약할 수 있게 된다. 더불어 맥락에 기반한 검색 기능으로 방대한 문서 더미에서도 원하는 정보를 신속하고 정확하게 찾을 수 있게 된다. 한준섭 지미션 대표는 "이번 연구개발을 통해 기존 OCR을 뛰어넘는 고도화된 문서처리 기술을 확보할 것"이라며 "공공, 금융, 의료, 기업 등 다양한 산업에서 활용할 수 있는 혁신적 AI 솔루션을 선보이겠다"고 밝혔다.

2025.09.22 16:33조이환 기자

"AI로 문서 한번에 분석"…한국딥러닝, 경기도청에 '딥파서' 공급

한국딥러닝이 경기도청의 디지털전환을 위해 표와 차트, 문서 구조까지 인식하는 인공지능(AI) 플랫폼을 공급한다. 한국딥러닝은 경기도청 '2025년 생성형 AI 플랫폼 구축사업'에 문서 구조 분석 솔루션 '딥 파서'를 제공한다고 26일 밝혔다. 이번 프로젝트는 엠티데이타와 공동으로 진행되며 사업규모는 131억원이다. 경기도청은 약 11개월간의 사업을 통해 행정문서 작성 회의 관리 정보 검색 등 실무 중심의 AI 지원 체계를 마련한다. 이는 전국 광역지자체에서 처음으로 생성형 AI를 도입하는 사례다. 핵심은 전체 문서의 90% 이상을 차지하는 한글(HWP)과 PDF 파일을 구조화된 데이터로 변환하는 것이다. 딥 파서는 행정문서와 정책자료를 정밀 디지털화하고 구조화해 AI 업무 활용 기반 데이터를 제공한다. 기존 광학문자인식(OCR)이 텍스트 추출에 머물렀다면 딥 파서는 영상언어모델(VLM) 기술을 활용해 표, 차트, 문서 구조까지 인식한다. 이를 통해 AI 에이전트가 활용할 수 있는 고품질 지식 데이터베이스(DB) 구축을 지원한다. 이 기술은 행정문서의 정밀 구조화 정책 문서와 보고서의 자동 정보 추출, 회의록 요약과 키포인트 정리, 공무원 대상 질의응답 AI 서비스 구현 등으로 이어진다. 딥 파서는 지난 5년간 학습한 한국딥러닝의 자체 VLM 모델을 기반으로 개발됐다. 별도 데이터 수집이나 라벨링 없이 다양한 문서 유형을 처리할 수 있으며 OCR 테스트에서 문서 항목 인식 정확도 97.3% 데이터 추출 정확도 96%를 기록했다. 김지현 한국딥러닝 대표는 "경기도청 생성형 AI 플랫폼 프로젝트를 통해 공공 부문의 디지털 전환에 실질적으로 기여할 수 있게 돼 의미가 크다"며 "딥 파서의 문서 구조 분석은 단순 문서 인식을 넘어 AI가 진정으로 이해하고 활용할 수 있는 핵심 기술"이라고 강조했다.

2025.08.26 11:23김미정 기자

'문서 AI'가 더 똑똑해졌다…"서류 속 문맥·구조까지 파악"

문서 인공지능(AI) 기술이 단순 텍스트 인식을 넘어 문맥·구조까지 이해하는 방향으로 진화했다. 복잡한 문서에서도 주요 정보를 자동 식별하고 고도화된 자동화 처리까지 가능해졌다. 11일 IT 업계에 따르면 최근 문서 처리 시장에서는 비전언어모델(VLM) 기반 광학 문자 인식(OCR) 기술이 주목받고 있다. 이 기술은 계약서, 보고서 등 여러 형식과 맥락으로 이뤄진 문서 속 표, 조항, 제목, 본문을 AI로 식별해 구조화된 데이터로 변환할 수 있다. VLM은 이미지와 언어 정보를 동시에 이해하는 AI 모델이다. 일종의 '이미지 전문가'와 '언어 전문가'가 한 팀처럼 협업하는 방식으로 작동한다. 우선 이 모델은 문서에서 표, 문장, 도장, 손글씨 등 다양한 이미지 요소를 구분한다. 이후 각 영역의 텍스트를 분석해 의미를 파악하고, 이를 종합적으로 해석한다. 이 과정에서 시각 정보와 언어 정보가 실시간으로 상호작용하며 정답을 조율한다. 정보 하나가 잘못 인식되면 다른 정보가 이를 보완하고, 누락된 부분은 이미지 단서를 활용해 추론하는 식이다. 예를 들어, 사용자가 계약서에 VLM 기반 OCR을 적용하면 '계약 당사자'와 '계약 기간' '주요 조항' '서명란' 등을 자동으로 식별해 체계적으로 정리할 수 있다. 이를 통해 문서 처리 자동화 수준을 높이고 반복 작업과 인적 오류를 줄일 수 있다. 기존 OCR은 이미지 속 텍스트를 디지털 문자로 바꾸는 데만 초점 맞췄다. 문서 레이아웃이나 의미적 맥락은 이해하지 못해 데이터 활용에 한계가 있었다. 이에 추가 인력이 이를 수작업으로 정리해야만 했다. VLM OCR, 정확도·사업성 모두 잡아 한국딥러닝은 '딥 OCR 플러스' 출시로 VLM OCR 서비스를 이미 상용화했다. 이 솔루션은 별도 학습 없이 여러 형식 문서를 처리할 수 있다. 한국어·영어·숫자·특수문자가 섞인 복잡한 구조도 정확하게 인식할 수 있도록 설계됐다. 딥 OCR 플러스는 문서의 표나 문단을 자동 분석해 핵심 정보를 요약하고, 추출 데이터를 표준 포맷으로 제공해 업무 시스템과 연동된다. 한국딥러닝은 이 솔루션으로 문서 검토 시간을 최대 80% 줄이고, 일관된 데이터 품질을 유지할 수 있다고 강조했다. 앞서 업스테이지도 AI 기반 문서 구조화 솔루션 '다큐먼트 파스'를 출시해 보험, 금융, 의료 등 산업 현장에서 문서 자동화를 지원하고 있다. 고정밀 벤치마크에서 아마존·마이크로소프트 모델보다 높은 정확도를 기록한 것으로 전해졌다. 올해 6월 모델 '솔라'를 결합한 '솔라 다큐브엘엠'도 출시한다. 솔라 타큐브엘엠은 시각 정보와 언어 정보 통합 처리 역량을 강화해 문서 기반 요약, 질의응답, 자동 분류까지 수행할 수 있도록 구성됐다. 특히 비정형 문서나 복잡한 레이아웃 문서에서도 높은 인식률을 보일 것이란 평가를 받고 있다. 김지현 한국딥러닝 대표는 "비전 OCR은 돈 버는 AI"라며 "정확도와 사업성을 모두 잡을 수 있는 실용 기술"이라고 강조했다.

2025.05.11 14:40김미정 기자

[기고] 텍스트만 읽는 AI는 한계…이미지까지 이해하는 'VLM 시대' 왔다

텍스트만 바라보던 인공지능(AI)이 이미지도 읽기 시작했다. 생성형 AI 열풍 정점에 서 있던 거대언어모델(LLM)이 세상을 바꾼 지 채 2년이 되기도 전에 산업계는 벌써 비전언어모델(VLM) 이라는 새로운 반열을 주목하고 있다. LLM은 인터넷 전체에 해당하는 방대한 문서, 코드, 게시글 등을 토큰 단위로 분해해 빈도와 순서를 학습하는 통계 기반 언어 모델이다. 이를 통해 문장 구조, 주제 흐름, 단어 간 연관도 등을 정교하게 파악할 수 있다. 그러나 LLM은 픽셀로 구성된 시각 정보를 직접 해석하지 못한다. 특히 스캔본 한 장 안에 담긴 표, 도장, 서명, 손글씨, 이미지 등 다양한 비정형 요소 앞에서는 입력 자체를 받지 못해 무력해진다. 이 때문에 반드시 광학문자인식(OCR)을 거쳐 텍스트로 전처리한 후에야 분석이 가능하다. 이 과정에서 발생하는 정보 손실이나 오인식이 전체 모델 성능에 결정적 영향을 미친다. 이 한계를 근본적으로 보완하는 방식이 VLM이다. VLM은 쉽게 말해 '사진 전문가'와 '언어 전문가'가 한 팀이 된 모델이다. 우선 이미지를 보고 표, 문장, 도장, 필기 영역을 구분한 후 텍스트 기반으로 의미를 해석한다. 이를 실시간으로 교차 어텐션(Cross-Attention) 층에서 주고 받으며 정답을 보정한다. 한 영역이 잘못 인식되면 다른 쪽이 보완하고, 누락된 정보는 이미지의 시각 단서 바탕으로 추론해 빈칸을 채운다. 언어와 시각 정보가 동일 공간에서 상호작용하듯 작동하는 식이다. 구조가 복잡하거나 손글씨가 섞인 문서도 훨씬 자연스럽게 이해할 수 있다. 예를 들어 물결 무늬 배경 때문에 일부 금액 텍스트가 흐릿해진 스캔 이미지에서도 VLM은 표 헤더와 숫자 패턴을 근거로 '이 칸은 청구 금액일 것'이라고 추론한다. 텍스트만 해석하던 기존 LLM 방식과 달리, VLM은 이미지와 문장이 함께 대화하는 구조로 작동하기 때문에 비정형 문서에 강력한 성능을 발휘한다. 실제 산업 현장에서 VLM 기반 OCR은 이미 도입 초기부터 기존 접근법보다 뚜렷한 개선 효과를 보이고 있다. 이미 업계에서는 VLM을 통한 생산성 향상 효과가 나오고 있다. 신생 물류기업 L사는 하루 평균 4만 장의 송장을 스캔하는데, 양식 종류가 600종을 넘어서면서 OCR 오류율이 18%까지 상승했다. VLM을 탑재한 OCR을 적용한 결과 첫 달에 오류율이 4%까지 떨어졌고, 급히 투입된 15명의 검수 인력을 4명으로 줄일 수 있었다. 금융·보험 분야에서도 VLM은 의미 있는 변화를 만들어냈다. 보험 손해 사정사 워크플로에 도입된 VLM 기반 OCR 엔진은 의료 영수증, 처방전, 수기 메모가 섞인 PDF 문서를 분석해 질병 코드와 치료 기간, 총 청구액 등 핵심 정보를 의미 단위로 자동 매핑했다. 결과적으로 도입 3개월 만에 평균 심사 시간이 건당 4.7분 단축됐다. 부실 청구 탐지율은 2.3배 향상됐다. 실질적인 VLM 구현을 위해선 세 가지 핵심 과제가 수반된다. 첫째는 중앙처리장치(GPU) 비용이다. 이미지 해상도가 높을수록 메모리 요구량은 기하급수적으로 증가한다. 둘째는 데이터 보안이다. 문서 이미지에는 신분증과 도장, 주소 등 민감한 개인정보가 포함된다. 저장 암호화와 접근 제어 등 보안 설계가 모델 설계 초기부터 명확히 반영돼야 한다. 마지막으로 운영 측면에서의 ML옵스 통합이다. VLM은 텍스트와 이미지 양쪽에서 오류가 누적될 수 있으므로, 라벨 재검수·재학습 주기를 기존보다 촘촘하게 설정해 지속적 품질을 수행해야 한다. 이런 기술 과제를 극복할 수 있다면 VLM은 단순 OCR을 넘어 멀티모달 로봇프로세스자동화(RPA)로 진화할 수 있다. VLM이 문서 의미를 이해하게 되면 수준 높은 복합 워크플로까지 자동화할 수 있을 것이다. 실제 모바일 스캐너나 드론 카메라처럼 네트워크 지연이 큰 현장에서는 경량화된 VLM을 엣지 디바이스에서 구동하는 방향으로 연구가 진행되고 있으며, 실제 적용 사례도 점차 증가하고 있다. 유럽연합(EU)의 AI법 등 주요 규제는 이미지 데이터의 편향성과 프라이버시를 명확히 규정하기 시작했다. 이로 인해 향후 VLM 개발자는 학습 데이터셋의 출처와 라벨링 과정을 투명하게 기록해야 하는 책임도 함께 지게 될 전망이다. 기업과 공공기관이 다양한 형식의 데이터를 한 눈에 이해하는 AI를 원한다면 VLM OCR 전략을 로드맵에 포함해야 한다. 문서 인식부터 업무 자동화까지 이어지는 다음 혁신의 축은 '텍스트‑이미지 융합형 AI'가 될 가능성이 크다. 현재 기술 기업들의 도전이 이 변화를 앞당기고 있으며, 실제 도입 성공 사례는 더 빠르게 쌓일 것이다. 텍스트 AI만으로 충분하다고 느끼는 지금 이 순간이, 어쩌면 VLM 전환을 준비할 마지막 골든타임일지 모른다.

2025.04.30 15:54김지현 컬럼니스트

[현장] "美·中은 무단 크롤링, 우리는 정공법"…업스테이지, 글로벌 AI 정조준

"미국과 중국의 프론티어 인공지능(AI) 랩들이 무단 크롤링으로 데이터를 확보할 때 우리는 역차별이라 느껴질 만큼 합법적이고 투명한 방식으로 데이터를 수집해왔습니다. 이러한 제약에도 실사용 사례를 통해 검증된 우리 '워크 인텔리전스'를 바탕으로 인류의 업무 효율성을 5배, 10배, 나아가 100배까지 끌어올리며 새로운 세상을 열겠습니다." 김성훈 업스테이지 대표는 16일 서울 여의도 콘래드 호텔에서 열린 기자 간담회에서 향후 비전에 대해 이같이 밝혔다. '미래의 일을 위한 워크 인텔리전스'를 주제로 열린 이번 행사는 자사의 기술 스택과 국내외 도입 사례, 글로벌 확장 전략 등을 종합적으로 공개하는 자리였다. 행사에는 업스테이지 일본법인 대표를 포함한 주요 경영진이 참여해 향후 해외 시장 공략 전략도 함께 발표했다. 이날 업스테이지는 문서 추출 엔진 '도큐먼트 파스', 경량화 거대언어모델(LLM) '솔라', 문서 특화 멀티모달 모델 '솔라 도크VLM'을 중심으로 한 워크플로우 자동화 기술을 대거 공개했다. 국내에서는 KB금융, 한컴, 로앤컴퍼니 등의 실제 도입 사례를 소개했고 일본·동남아·북미 등에서 진행 중인 개념검증(PoC)과 수출 성과를 통해 글로벌 확장의 구체적 로드맵도 제시했다. 문서 기반 업무 자동화 기술 공개…"AI로 리포트 작성부터 의사결정까지" 김 대표는 업스테이지가 자체 개발한 문서 처리 엔진 '도큐먼트 파스'를 시작으로 기술 경쟁력을 설명했다. 이 솔루션은 이미지나 PDF 기반 문서에서 핵심 데이터를 추출한 뒤 이를 컴퓨터가 이해할 수 있는 HTML 형태로 정교하게 구조화한다. '도큐먼트 파스'는 표, 차트, 2단 편집 등 사람이 보기 편하게 구성된 비정형 문서를 LLM이 처리할 수 있도록 정제해 주는 데 특히 강점을 보인다. 실제로 이 기술은 허깅페이스 벤치마크에서 아마존웹서비스(AWS), 구글, 메타 등 글로벌 솔루션을 제치고 정확도 97.02점으로 1위를 기록했으며 처리 속도 또한 세계 최고 수준으로 평가받았다. 문서를 정교하게 구조화하는 기술 외에도 업스테이지는 자체 언어모델 '솔라(Solar)'를 통해 텍스트 기반 업무의 자동화까지 전방위로 대응하고 있다. 회사는 그래픽 처리장치(GPU) 한 장만으로도 고성능을 내는 소형 언어모델(sLM)을 개발하는 것을 목표로, 모델 경량화와 정밀도 간 균형에 집중하고 있다. '솔라' 시리즈는 고정밀 문서 분석, 보고서 요약, 질의응답 등 워크플로우 전반에서 핵심 역할을 수행한다. 지난해 공개된 '솔라 프리뷰'는 허깅페이스에 등록된 약 90만 개 LLM 중 트렌딩 3위에 오르며 기술력을 입증했다. '솔라 프로 1.3'은 국내 언론사들로부터 수급한 대량의 기사 데이터를 학습해 한국어 해석 성능을 크게 끌어올렸다. 차기 모델은 오는 6월 출시 예정인 '솔라 프로 1.5'다. 파라미터 수는 기존 22억 패러미터에서 31억 패러미터로 확장됐지만 여전히 GPU 한 장으로 구동 가능한 경량 구조를 유지하고 있다. 김 대표는 "우리는 '솔라'를 지속적으로 업데이트하는 동시에 오픈AI 'o 시리즈'나 딥시크 'R1'과 유사한 '사고의 연쇄(CoT)' 추론 기능도 개발 중"이라며 "고차원적 해석과 판단이 요구되는 산업 현장에 LLM을 실질적으로 투입할 수 있는 기반을 마련하기 위한 기초 작업"이라고 설명했다. 이에 더해 업스테이지는 문서 이해와 언어 처리 기술을 단일 파이프라인으로 연결해 '워크 인텔리전스' 완성도를 끌어올리고 있다. 이날 공개된 '솔라 도크VLM'은 이러한 통합 전략을 대표하는 기술이다. 기존 멀티모달 모델이 일반 이미지에는 강하지만 문서 인식에는 한계가 있는 반면 이 모델은 문서 전용 인코더를 탑재해 100페이지 이상 분량도 안정적으로 처리한다. 요약, 질의응답, 보고서 작성까지 한 번에 수행하는 단일 파이프라인을 구현한 것이 특징이다. 데이터 확보 방식에서도 업스테이지는 차별화를 꾀하고 있다. 김 대표는 "오픈AI와 같은 프론티어 기업들이 무단 크롤링 방식으로 데이터를 확보하고 있다"며 "이 가운데 우리는 쿠오라(Quora)와 같은 글로벌 파트너와의 계약을 통해 거의 불공정 거래 급으로 투명하게 데이터를 수집하고 있다"고 설명했다. 이어 "대선 이후에는 정부 차원에서 데이터 계약과 보상에 대한 새로운 거버넌스가 마련되기를 기대한다"고 밝혔다. 기술력이 곧 매출로 연결되기 시작했다는 점도 주목할 만하다. 업스테이지는 법률 분야에서 로앤컴퍼니와는 판례·조문 검색에 특화된 AI 검색 엔진을 구축했고 한컴의 '한컴 어시스턴트'에는 문서 초안·요약 기능을, 보험사들에는 수술 자동 판단·지급 심사로 이어지는 자동화 파이프라인을 공급하며 실적을 쌓았다. 이들 성과를 포함해 1년 간 누적 계약액은 250억원을 넘겼으며 이는 지난해 대비 다섯 배 증가한 수치다. 재무 적자와 향후 자금 조달 계획에 대한 기자의 질문에는 "현재의 적자는 대부분 GPU 등 고성능 인프라에 대한 선제적 투자 때문"이라며 "멀티모달 모델과 '솔라 프로 1.5' 등 신제품 개발이 완료되면 운영비용은 급격히 줄어들 것"이라고 답했다. 이어 "글로벌 주요 기업들과의 논의도 활발히 진행 중이며 조만간 긍정적인 투자 소식을 전할 수 있을 것"이라고 밝혔다. 맞춤형 LLM 통해 日 조준, 동남아·북미로 확장 가속 이날 행사에서는 업스테이지의 해외 진출 전략, 특히 일본 시장 공략 역시 집중 조명됐다. 마츠시타 히로유키 업스테이지 재팬 지사장은 일본 내 전략과 비전을 직접 발표했다. 그는 AWS 시니어 매니저 출신으로, 지난달 일본 도쿄에서 개소식을 열고 업스테이지 일본 법인을 공식 출범시킨 인물이다. 마츠시타 지사장은 "세계 수준의 기술력과 팀 문화, 글로벌과 로컬을 모두 이해하는 전략이 있어 회사에 합류했다"며 "일본 기업들이 미국 빅테크의 기술력은 인정하면서도 현지화된 솔루션을 함께 구축하는 어려움을 겪을 때 우리는 작지만 강력한 모델로 이 간극을 충분히 메울 수 있다"고 강조했다. 일본 AI 시장은 오는 2030년까지 20억 달러(한화 약 2조8천억원) 규모로 성장할 전망이다. 특히 전체 AI 지출 중 94%가 모델이 아닌 솔루션·애플리케이션 영역에 집중될 것으로 분석된다. 이에 따라 회사는 단순한 모델 판매가 아니라 각 기업의 목적과 니즈에 맞춘 솔루션을 제공하는 '빌더-퍼스트' 전략을 취하고 있다. 기술적 차별화도 이어졌다. 업스테이지는 최근 일본 스타트업 카라쿠리와 공동으로 일본어 최적화 경량 LLM '신(Syn)'을 개발했다. 이 모델은 14억 패라미터급 소형 구조임에도 불구하고 금융·의료·제조 등 주요 산업 벤치마크에서 높은 정확도를 기록했다. 사업 측면에서는 지역 IT기업 퓨식(Fusic)과도 전략적 파트너십을 체결했다. 퓨식은 규슈 지역을 기반으로 고객 네트워크와 도메인 전문성을 보유하고 있다. 업스테이지는 이들과 함께 10건 이상의 개념검증(PoC)를 동시다발적으로 진행 중이며 기술 트레이닝 프로그램도 함께 운영하고 있다. 교육 콘텐츠 및 문서 AI 등 핵심 기술 역시 일본 시장에 맞춰 현지화 작업이 진행 중이다. 유통 전략에서도 다층적 접근을 택했다. 클라우드 사업자 및 유통사와는 총판 계약을 체결했고 컨설팅·시스템통합(SI) 파트너사와는 공동 영업을 전개해 세일즈 파이프라인을 확장하고 있다. 마츠시타 지사장은 "교육, PoC, 고도화된 솔루션 도입까지 일본 내에서 지속 가능한 AI 생태계를 직접 구축하겠다"며 "실제 매출 인식은 올해 하반기부터 본격화될 것"이라고 설명했다. 일본 외 지역에서도 업스테이지의 '소버린 AI' 구축 사업은 빠르게 확장되고 있다. 김성훈 대표는 "태국 IT기업 JTS에 공급한 태국어 LLM이 최종 낙점돼 인수인계를 마쳤다"며 "중국계 '타이쿤2' 모델과의 경쟁 끝에 최고 성능으로 인정받은 첫 수출 사례"라고 밝혔다. 이어 "이 프로젝트를 계기로 말레이시아, 베트남, 몽골, 터키 등지에서도 유사 요청이 들어오고 있다"고 설명했다. 북미 시장 공략도 이미 시작됐다. 현재 업스테이지는 S&P500 소속 대형 보험사 세 곳과 도큐먼트 품질검증(QA) 기반의 정보 추출 워크플로우 도입을 협의 중이다. 또 미국 최대 규모의 텔레헬스 기업과는 환자 진료 기록 자동 요약 솔루션 개발을 논의하고 있으며 대형 헬스케어 클리닉과는 수십 년간 축적된 의료 기록을 디지털로 전환하는 작업을 함께 검토 중이다. 김성훈 업스테이지 대표는 행사를 마치며 "우리는 단순히 모델을 공급하는 기업이 아니라 글로벌 시장에서 신뢰받는 디지털 전환 파트너가 되겠다"며 "이를 통해서 일의 미래를 완전히 재설계해 새로운 세상을 여는데 기여하겠다"고 강조했다.

2025.04.16 14:52조이환 기자

[현장] 엔비디아가 찍은 'AI 천재' 에이단 고메즈 코히어 CEO, 韓 찾아 금융시장에 '러브콜'

"금융 서비스와 의료, 공공 부문과 같은 산업을 중심으로 한국에서도 성과를 낼 수 있었으면 합니다." 캐나다 인공지능(AI) 스타트업 코히어 창업자 에이단 고메즈 최고경영자(CEO)가 한국 시장 공략에 대한 의지를 드러냈다. 오픈AI, 구글 등 미국 빅테크들과 달리 기업 시장을 주로 공략하며 수익 효율화에 나선 코히어가 향후 어떤 전략으로 국내 고객 확보에 나설 지 주목된다. 고메즈 CEO는 6일 서울 서초구 양재동 엘타워에서 진행된 LG CNS AX(AI 전환) 세미나에 연사로 참석해 "우리 고객들은 글로벌 경제의 주요 부문에서 자사 솔루션을 활용하고 있다"며 "금융, 의료, 제조, 에너지, 정부, 통신 등 모든 산업이 우리의 주력 분야"라고 강조했다. 코히어는 지난 2019년 구글 전 연구원 출신인 에이단 고메즈, 닉 프로스트와 캐나다 기업가인 이반 장이 설립한 곳으로, 오픈AI, 앤트로픽 등을 경쟁사로 두고 있다. 엔비디아를 비롯해 세일즈포스, AMD, 시스코, 일본 후지쯔 등 글로벌 기업들로부터 자금을 지원 받고 있는 상태로, 현재 조달한 자금은 총 9억7천만 달러(약 1조3천468억원)인 것으로 알려졌다. 이곳의 기업 가치는 55억 달러(약 8조원)에 이른다. IT 전문 매체 디인포메이션에 따르면 코히어의 지난해 3월 기준 연 매출은 3천500만 달러로, 오픈AI에는 한참 못미치고 있다. 오픈AI의 매출은 지난해 40억 달러, 오는 2029년에는 1천억 달러에 이를 것으로 예상됐다. 경쟁사인 앤트로픽과 비교해도 지난해 매출이 최소 5배 이상 앞선 것으로 분석됐다. 이 같은 상황 속에 코히어는 올해부터 글로벌 사업 확장을 통해 매출 확대를 추진하는 분위기다. 이를 위해 국내에서도 LG CNS와 향후 협업을 추진할 계획이다. 올해 1월에는 기업 고객을 집중 공략하기 위해 AI 워크스페이스 플랫폼 '노스'도 출시했다. '노스'는 기업이 '커맨드(Command)' 모델 시리즈와 상호작용할 수 있는 챗봇 인터페이스를 제공한다. 이 도구를 통해 직원들은 수익 보고서를 분석하거나 문서를 찾는 등 비즈니스 작업을 수행할 수 있다. 특히 텍스트뿐 아니라 그래프와 같은 데이터도 출력할 수 있다는 점이 장점이다. 고메즈 CEO는 '에이전트 AI, 비즈니스의 새로운 동력'이라는 주제를 앞세워 진행된 이날 세미나에서 '노스'를 직접 소개하며 한국 기업을 고객사로 확보하기 위해 노력했다. 이번 세미나에는 LG CNS 임직원들과 고객사 220여 명이 참석해 코히어의 제품과 향후 전략에 대해 높은 관심을 보였다. 고메즈 CEO는 "5년 반 전 창업해 현재 엔터프라이즈에 초점을 맞춘 선도적인 글로벌 대규모 언어 모델(LLM) 기업 AI 회사로 성장했다"며 "강력한 기관 투자자들과 전략적 비즈니스 파트너들의 지원을 받고 있는 상태로, 미국 오라클, 캐나다 RBC, 일본 후지쯔, 사우디아라비아 STC 등 전 세계 유슈의 기업들과 협력하고 있다"고 운을 띄웠다. 이어 "우리의 사명은 일상적인 업무를 사람이 아닌 기계에 맡겨 비즈니스 생산성과 효율성을 높이는 것"이라며 "이에 맞춰 두 가지 최첨단 (AI) 기본 모델을 구축하고 있는 상태로, 최근 선보인 '에이전틱 AI' 플랫폼 (노스)도 주력으로 내세우고 있다"고 소개했다. 그러면서 "(자사) 기업 중심의 AI 솔루션은 매우 정확하고 다국어를 지원하며 특정 비즈니스 요구사항에 맞게 맞춤화할 수 있다는 것이 장점"이라며 "특히 데이터 보안과 데이터 프라이버시를 최우선으로 생각하고 있고 클라우드부터 온프레미스에 이르기까지 매우 유연하게 배포할 수 있다는 것도 강점"이라고 덧붙였다. 코히어는 이날 첫 번째 비전언어모델(VLM)인 '아야 비전'도 오픈 소스로 출시해 주목 받았다. 이 모델은 다국어 텍스트 생성과 이미지 이해 관련 벤치마크에서 최상위 성능을 기록했으며 8B와 32B 두 가지 버전으로 제공된다. 지원 언어는 한국어를 포함해 총 23개로, 현재 출시된 오픈소스 멀티모달 AI 모델 중 가장 많다. 고메즈 CEO는 "AI 기술은 단순한 채팅 봇을 넘어 복잡한 작업을 실제로 자동화할 수 있는 시스템으로 발전하고 있다"며 "우리는 이러한 기술이 모든 중요한 데이터와 시스템에 안전하게 액세스해 업무의 품질과 속도를 개선할 수 있도록 하는 데 중점을 두고 있다"고 밝혔다. 이어 "'노스'를 포함해 고객들의 비즈니스 운영을 간소화하고 작업자의 생산성 높이는 데 도움이 되는 새로운 기능을 꾸준히 제공할 것"이라며 "보안, 개인정보 보호에 대한 해결책을 갖고 있는 자사의 솔루션을 통해 (한국 기업들도) 반복적인 업무를 자동화하는 맞춤형 AI 에이전트를 빠르게 구축할 수 있을 것"이라고 덧붙였다.

2025.03.06 15:34장유미 기자

Prev 1 Next