• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
AI페스타
배터리
양자컴퓨팅
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'비전 AI 모델'통합검색 결과 입니다. (6건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

[현장] 슈퍼브에이아이 "비전, 한국이 1등할 수 있다"…수출형 소버린 AI 선언

"기존에 우리가 알던 거대언어모델(LLM) 기반의 소버린 인공지능(AI) 전략이 주로 방어적 접근이라면 산업용 비전 AI는 오히려 세계 무대 수출의 무기가 될 수 있습니다. 제조업에 강점을 가진 한국이 산업 특화형 파운데이션 모델(VFM)로 글로벌 경쟁력을 확보할 수 있기 때문입니다." 김현수 슈퍼브에이아이 대표는 24일 서울 여의도 콘래드호텔에서 열린 기자간담회에서 이같이 말했다. 이날 행사는 산업용 비전 AI 파운데이션 모델 '제로(ZERO)' 공개를 위한 자리로, 질의응답에는 김 대표를 비롯해 최고기술책임자(CTO), 최고사업책임자(CBO) 등 주요 경영진이 직접 참석했다. 김 대표의 발언은 정부가 최근 '국가 파운데이션 모델' 프로젝트를 통해 다양한 형태의 모델 개발을 유도하겠다는 의지를 밝힌 데 따른 것이다. 특히 소버린 AI 전략을 주창해온 네이버클라우드 출신 하정우 수석이 국가 AI 정책의 총괄 책임자로 선임되면서 거대언어모델에 대한 보완 전략도 함께 주목받고 있다. 이날 김현수 대표는 정부의 소버린 AI 전략과 제로의 연결 지점을 묻는 기자의 질문에 "LLM은 외산 모델 리스크를 막기 위한 수비형 기술로 해석되나 비전 파운데이션 모델은 수출 전략 기술이 될 수 있다"고 강조했다. 이어 "한국은 제조·조선·반도체 등 고도화된 산업 인프라를 가진 몇 안 되는 국가로, 이 기반 위에서 한국형 비전 AI는 글로벌 1등 가능성이 있다"고 말했다. 슈퍼브에이아이는 파운데이션 모델 기술을 공개하는 데 그치지 않고 산업 현장의 AI 도입 장벽을 구조적으로 낮추는 생태계 전략도 함께 제시했다. 차문수 최고기술책임자(CTO)는 "8B, 7B 모델은 현장 적용이 어려워 제로는 경량화에 집중했다"며 "산업용 제어 컴퓨터(PLC), 신경망 처리장치(NPU) 등 다양한 산업 장비와 응용 프로그램 인터페이스(API)로 직접 연동이 가능해 손쉽게 시스템에 탑재할 수 있는 구조를 갖췄다"고 설명했다. 시장 전략으로는 '플랫폼 중심 생태계 공급'을 강조했다. 김진회 최고사업책임자(CBO)는 기자의 관련 질의에 "'제로'는 아마존 웹서비스(AWS) 같은 글로벌 플랫폼에서 쉽게 호출할 수 있도록 설계됐다"며 "사용자가 가장 익숙하고 신뢰하는 환경에서 AI를 바로 접할 수 있게 했다"고 말했다. 이어 "AWS에 등록된 제로는 시간당 약 10달러(한화 약 1만4천원) 수준으로, 초기에는 할인된 가격으로 제공될 예정"이라고 설명했다. 올해 매출에는 '제로' 관련 수익이 반영되지 않는다. 슈퍼브에이아이는 현 시점에서의 '제로'를 직접적인 매출원이 아닌 '시장 인지도 제고를 위한 마중물'로 규정했다. 김진회 CBO는 "'제로'를 통해 AI가 실제 어떤 문제를 푸는지 체험하게 되면 이후 머신러닝 기반운영 'MLOps 플랫폼'과 '버티컬 솔루션' 수요가 자연스럽게 확대될 것"이라고 말했다. 김현수 대표는 "20조원 규모의 기존 머신비전 시장을 넘어 스마트팩토리와 영상관제 등 200조 원 이상 시장에서 제로가 탐지·이해 등의 작업을 대체할 수 있다"며 "빠른 시일 안에 해당 시장을 본격적으로 공략할 것"이라고 강조했다.

2025.06.24 15:15조이환

[현장] "AI 도입 비용 0"…슈퍼브에이아이, 산업용 비전 파운데이션 모델 '제로' 공개

슈퍼브에이아이가 인공지능(AI) 도입 비용과 시간을 대폭 줄인 산업용 비전 파운데이션(VFM) 모델을 통해 전 산업의 디지털 전환 가속화에 나선다. 기술 부담 없이 누구나 AI를 쓸 수 있도록 만들겠다는 전략이다. 슈퍼브에이아이는 24일 서울 콘래드호텔에서 기자간담회를 열고 산업 특화형 비전 파운데이션 모델 '제로(ZERO)'를 공개했다. 이날 행사에는 김현수 최고경영자(CEO)를 비롯해 차문수 최고기술책임자(CTO), 김진회 최고사업책임자(CBO)가 참석해 슈퍼브에이아이의 기술 전략과 시장 계획을 상세히 밝혔다. 김현수 CEO는 "AI 도입 비용을 완전히 '0'으로 만들겠다"는 선언과 함께 슈퍼브에이아이가 개발한 '제로'를 소개했다. 회사에 따르면 '제로'는 학습 데이터 없이도 즉시 활용 가능한 영상 AI 모델로, 기존 AI 개발에 요구되던 데이터 구축과 모델 학습 과정 자체를 생략할 수 있는 것이 핵심이다. 영상 속 객체 탐지, 추적, 질의응답까지 다양한 작업을 단일 모델로 처리할 수 있어 산업 적용성도 강조됐다. 산업용 범용 기반 모델 '제로'…AI 도입 병목 해소한다 이날 행사를 시작하며 김 CEO는 슈퍼브에이아이가 AI 도입에 있어 ▲전문 인력 부족 ▲데이터 부족 ▲기술 인프라 부재라는 세 가지 병목을 확인했다고 설명했다. 이를 해결하기 위해 이미 개발한 것이 머신러닝 기반의 'MLOps 플랫폼'과 '버티컬 솔루션'이다. 데이터 라벨링 자동화와 AI 개발 전 과정을 하나의 플랫폼에서 처리할 수 있는 이 플랫폼은 AI 개발 기간을 6개월에서 2주로 줄이는 데 성공했다. '버티컬 솔루션'은 개발 역량이 부족한 산업 현장에서 AI를 즉시 활용할 수 있도록 만든 제품군이다. CCTV 기반 화재 감지, 안전 모니터링 솔루션은 실제로 발전소, 공항, 지자체 등에서 쓰이고 있다. 김 대표는 "이제는 더 높은 목표를 설정할 시점"이라며 "이에 '제로' 모델을 개발할 필요성을 느꼈다"고 강조했다. 슈퍼브에이아이에 따르면 '제로'는 마치 '챗GPT'처럼 프롬프트 입력만으로 다양한 작업을 실행하는 멀티모달 인터페이스를 갖췄다. 예시 이미지 하나로 생산 현장의 결함 탐지나 수량 계산이 가능하고 프롬프트를 통해 다양한 산업 과업을 정의할 수 있다. 기존 AI의 한계였던 '사전 정의된 카테고리만 인식 가능' 문제도 해결한다는 설명이다. 김 대표는 제로가 지닌 '제로샷' 능력을 핵심 경쟁력으로 꼽았다. 학습 없이도 기존 지식만으로 새로운 상황을 추론할 수 있는 점은 제조업 기반이 강한 한국이 비전 AI 분야에서 세계 시장을 주도할 수 있는 전략적 교두보가 될 수 있다는 의미이기도 하다. 산업용 비전 데이터는 대부분 기업 내부에 있고 공개되지 않는다. 텍스트 기반의 언어 모델과 달리 접근이 어렵다. 김 대표는 "바로 이 점이 우리가 경쟁력을 가질 수 있는 이유"라며 "한국의 제조·조선·방산 같은 고도화된 산업 인프라 위에서 비전 파운데이션 모델은 세계 1등을 노릴 수 있다"고 말했다. 김 대표는 "AI의 3대 축으로 거대언어모델(LLM), 비전 파운데이션 모델(VFM), 피지컬 AI(로보틱스 등)가 제시된다"며 "이 가운데 비전 AI가 산업 현장의 눈이 될 것"이라고 말했다. 이어 "산업용 비전 AI가 한국의 국가 경쟁력에 기여하도록 '제로'를 통해 AI 민주화와 함께 산업 혁신의 속도를 끌어올리겠다"고 밝혔다. 구글·MS·중국 모델 제쳤다…국산 비전 '제로'로 CVPR 2위 이어 차문수 CTO는 '제로'의 기술적 배경과 성능 성과를 설명했다. 그는 기존 비전 AI의 구조적 한계부터 짚으며 제로가 어떤 기술 혁신을 통해 이를 극복했는지를 순차적으로 소개했다. 차 CTO는 기존 비전 AI가 ▲새 객체 인식 불가 ▲환경 변화에 취약 ▲작업마다 별도 모델이 필요한 복잡성 등 세 가지 태생적 한계를 안고 있다고 설명했다. 산업 현장에서는 이 같은 제약이 반복적인 데이터 수집과 학습 비용으로 이어졌고 AI 도입 자체를 가로막아 왔다고 진단했다. 그는 슈퍼브에이아이가 이 같은 구조적 병목을 해결하기 위해 '제로'를 설계했다고 밝혔다. 제로가 가진 '제로샷'이란 대규모 언어 데이터와 이미지 데이터를 함께 학습해 학습되지 않은 객체도 추론 가능한 능력이다. 더불어 정해진 분류 없이도 작동하는 '오픈월드' 구조로 설계됐다. 이미지나 텍스트 등 다양한 형태의 프롬프트를 지원하는 멀티모달 인터페이스와 수십 개의 태스크를 하나의 모델로 처리할 수 있는 멀티태스크 구조를 채택했다. 무엇보다도 산업현장에서 필요로 하는 문제를 곧바로 다룰 수 있도록 퍼블릭 웹 데이터 외에 슈퍼브에이아이 자체 구축 데이터와 국내 AI허브 데이터 등 산업용 특화 데이터를 중심으로 학습시킨 점이 특징이다. 추가 학습 없이 바로 제조, 유통, 건설 등 다양한 분야에서 사용 가능한 형태로 만들었다는 점에서 기술적 실용성이 강조됐다. '제로'는 벤치마크에서도 뚜렷한 성과를 냈다. 산업용 영상 AI 벤치마크에서 경쟁 모델들을 제치고 1위를 기록했다. 글로벌 비전학회인 국제 컴퓨티 비전 및 패턴 인식 학회(CVPR)의 객체 탐지 및 퓨샷 챌린지에서도 각각 2위, 4위를 기록했다. 중국의 '티렉스-2(T-Rex2)', 마이크로소프트의 '플로센스-2(Florence-2)', 구글 '오더블유엘브이2(OWLv2)' 등과 비교해도 성능 격차를 크게 벌린 것으로 나타났다. 또 차 CTO는 '제로'가 적은 리소스로 고성능을 구현한 점을 강조했다. 'A100' 그래픽 처리장치(GPU) 8장만으로 학습했으며 수집한 1억 장 규모의 데이터에서 약 90만 장만을 선별 학습에 사용했다. 이를 가능하게 한 것은 슈퍼브가 보유한 MLOps 플랫폼의 데이터 선별 기술이었다는 설명이다. 모델 경량화도 특징이다. 10억 파라미터 미만으로 설계돼 연산량이 작아 엣지 디바이스나 클라우드 등 다양한 환경에서 가볍게 배포 가능하다. 응용 프로그램 인터페이스(API) 호출 방식뿐 아니라 엣지AI 형태로도 쉽게 연동 가능하며 실제 산업 환경에서의 AI 도입을 빠르고 간편하게 만든다는 것이 슈퍼브에이아이의 설명이다. 차 CTO는 "'제로'는 단일 모델에 그치지 않는다"며 "하드웨어-플랫폼-모델-버티컬 솔루션을 포괄하는 '제로 스택'으로 풀스택 생태계를 구성하겠다"고 밝혔다. '제로'로 200조 시장 노린다…"지능형 비전, 모든 산업의 표준 될 것" 이어 김진회 CBO는 '제로'가 실제 비즈니스 현장에 어떻게 가치를 창출하는지 설명하며 기술 중심 전략에서 '고객 중심 전환'으로의 구체적 비전을 제시했다. 그는 '제로'의 활용이 단순한 AI 도입을 넘어 산업 전체의 운영 구조를 바꾸는 촉매가 될 수 있다고 강조했다. 김 CBO는 "AI가 중요한 게 아니라 여러분의 자연지능이 중요하다"며 기존 AI 도입 방식의 비효율성과 제로의 실용적 전환 능력을 대비해 설명했다. 학습 없이도 객체 탐지, 결함 검출, 수량 카운팅이 가능한 '제로샷'의 현장 데모를 통해 복잡한 모델 설계와 라벨링 없이도 AI 도입이 가능함을 시연했다. 데모에서는 리테일 환경에서는 변화가 잦은 제품군을 사전 학습 없이도 인식하고 분류할 수 있는 능력도 선보였다. 영상 속 인물의 행동을 추론하고 사고 현장을 이해해 답변을 제공하는 지능형 에이전트 형태로 확장된 기능도 함께 시연됐다. 김 CBO는 '제로'가 기존 AI 도입에서 필연적으로 요구되던 '문제 정의→데이터 수집→라벨링→모델 학습→배포'의 전 과정을 무력화했다고 밝혔다. 그는 "이제는 아이디어만 있으면 AI를 바로 쓸 수 있게 된다"며 "기술검증(PoC)에 수천만 원을 쓰지 않아도 된고 전문가를 고용하는데 소요되는 시간도 필요 없게 하는 것이 우리의 궁극적 목적이었다"고 말했다. 시장 확장 전략으로는 '플랫폼 중심 생태계 공급' 구조를 제시했다. 아마존웹서비스(AWS) 같은 글로벌 플랫폼에서 손쉽게 제로를 호출할 수 있는 구조를 갖춰 사용자가 가장 익숙하고 신뢰하는 환경에서 AI를 접할 수 있도록 하겠다는 것이다. 실제로 제로는 이날 오후부터 AWS를 통해 공개될 예정이다. 그는 궁극적으로 '제로'가 모든 산업 장비·시스템에 탑재되는 표준이 되겠다는 포부를 밝혔다. 20조원 규모의 기존 컴퓨터 비전 시장을 넘어 200조원에 달하는 글로벌 영상 관제 시장, 290조원 규모의 스마트팩토리 시장 등으로 진출하겠다는 계획이다. 김진회 CBO는 "의사는 의료 AI, 농업 전문가는 농업 AI를 만드는 시대를 '제로'가 열 것"이라며 "지금까지의 AI가 기술을 위한 것이었다면 이제는 사람을 위한 AI로 전환해야 한다"고 말했다.

2025.06.24 14:21조이환

'문서 AI'가 더 똑똑해졌다…"서류 속 문맥·구조까지 파악"

문서 인공지능(AI) 기술이 단순 텍스트 인식을 넘어 문맥·구조까지 이해하는 방향으로 진화했다. 복잡한 문서에서도 주요 정보를 자동 식별하고 고도화된 자동화 처리까지 가능해졌다. 11일 IT 업계에 따르면 최근 문서 처리 시장에서는 비전언어모델(VLM) 기반 광학 문자 인식(OCR) 기술이 주목받고 있다. 이 기술은 계약서, 보고서 등 여러 형식과 맥락으로 이뤄진 문서 속 표, 조항, 제목, 본문을 AI로 식별해 구조화된 데이터로 변환할 수 있다. VLM은 이미지와 언어 정보를 동시에 이해하는 AI 모델이다. 일종의 '이미지 전문가'와 '언어 전문가'가 한 팀처럼 협업하는 방식으로 작동한다. 우선 이 모델은 문서에서 표, 문장, 도장, 손글씨 등 다양한 이미지 요소를 구분한다. 이후 각 영역의 텍스트를 분석해 의미를 파악하고, 이를 종합적으로 해석한다. 이 과정에서 시각 정보와 언어 정보가 실시간으로 상호작용하며 정답을 조율한다. 정보 하나가 잘못 인식되면 다른 정보가 이를 보완하고, 누락된 부분은 이미지 단서를 활용해 추론하는 식이다. 예를 들어, 사용자가 계약서에 VLM 기반 OCR을 적용하면 '계약 당사자'와 '계약 기간' '주요 조항' '서명란' 등을 자동으로 식별해 체계적으로 정리할 수 있다. 이를 통해 문서 처리 자동화 수준을 높이고 반복 작업과 인적 오류를 줄일 수 있다. 기존 OCR은 이미지 속 텍스트를 디지털 문자로 바꾸는 데만 초점 맞췄다. 문서 레이아웃이나 의미적 맥락은 이해하지 못해 데이터 활용에 한계가 있었다. 이에 추가 인력이 이를 수작업으로 정리해야만 했다. VLM OCR, 정확도·사업성 모두 잡아 한국딥러닝은 '딥 OCR 플러스' 출시로 VLM OCR 서비스를 이미 상용화했다. 이 솔루션은 별도 학습 없이 여러 형식 문서를 처리할 수 있다. 한국어·영어·숫자·특수문자가 섞인 복잡한 구조도 정확하게 인식할 수 있도록 설계됐다. 딥 OCR 플러스는 문서의 표나 문단을 자동 분석해 핵심 정보를 요약하고, 추출 데이터를 표준 포맷으로 제공해 업무 시스템과 연동된다. 한국딥러닝은 이 솔루션으로 문서 검토 시간을 최대 80% 줄이고, 일관된 데이터 품질을 유지할 수 있다고 강조했다. 앞서 업스테이지도 AI 기반 문서 구조화 솔루션 '다큐먼트 파스'를 출시해 보험, 금융, 의료 등 산업 현장에서 문서 자동화를 지원하고 있다. 고정밀 벤치마크에서 아마존·마이크로소프트 모델보다 높은 정확도를 기록한 것으로 전해졌다. 올해 6월 모델 '솔라'를 결합한 '솔라 다큐브엘엠'도 출시한다. 솔라 타큐브엘엠은 시각 정보와 언어 정보 통합 처리 역량을 강화해 문서 기반 요약, 질의응답, 자동 분류까지 수행할 수 있도록 구성됐다. 특히 비정형 문서나 복잡한 레이아웃 문서에서도 높은 인식률을 보일 것이란 평가를 받고 있다. 김지현 한국딥러닝 대표는 "비전 OCR은 돈 버는 AI"라며 "정확도와 사업성을 모두 잡을 수 있는 실용 기술"이라고 강조했다.

2025.05.11 14:40김미정

[기고] 텍스트만 읽는 AI는 한계…이미지까지 이해하는 'VLM 시대' 왔다

텍스트만 바라보던 인공지능(AI)이 이미지도 읽기 시작했다. 생성형 AI 열풍 정점에 서 있던 거대언어모델(LLM)이 세상을 바꾼 지 채 2년이 되기도 전에 산업계는 벌써 비전언어모델(VLM) 이라는 새로운 반열을 주목하고 있다. LLM은 인터넷 전체에 해당하는 방대한 문서, 코드, 게시글 등을 토큰 단위로 분해해 빈도와 순서를 학습하는 통계 기반 언어 모델이다. 이를 통해 문장 구조, 주제 흐름, 단어 간 연관도 등을 정교하게 파악할 수 있다. 그러나 LLM은 픽셀로 구성된 시각 정보를 직접 해석하지 못한다. 특히 스캔본 한 장 안에 담긴 표, 도장, 서명, 손글씨, 이미지 등 다양한 비정형 요소 앞에서는 입력 자체를 받지 못해 무력해진다. 이 때문에 반드시 광학문자인식(OCR)을 거쳐 텍스트로 전처리한 후에야 분석이 가능하다. 이 과정에서 발생하는 정보 손실이나 오인식이 전체 모델 성능에 결정적 영향을 미친다. 이 한계를 근본적으로 보완하는 방식이 VLM이다. VLM은 쉽게 말해 '사진 전문가'와 '언어 전문가'가 한 팀이 된 모델이다. 우선 이미지를 보고 표, 문장, 도장, 필기 영역을 구분한 후 텍스트 기반으로 의미를 해석한다. 이를 실시간으로 교차 어텐션(Cross-Attention) 층에서 주고 받으며 정답을 보정한다. 한 영역이 잘못 인식되면 다른 쪽이 보완하고, 누락된 정보는 이미지의 시각 단서 바탕으로 추론해 빈칸을 채운다. 언어와 시각 정보가 동일 공간에서 상호작용하듯 작동하는 식이다. 구조가 복잡하거나 손글씨가 섞인 문서도 훨씬 자연스럽게 이해할 수 있다. 예를 들어 물결 무늬 배경 때문에 일부 금액 텍스트가 흐릿해진 스캔 이미지에서도 VLM은 표 헤더와 숫자 패턴을 근거로 '이 칸은 청구 금액일 것'이라고 추론한다. 텍스트만 해석하던 기존 LLM 방식과 달리, VLM은 이미지와 문장이 함께 대화하는 구조로 작동하기 때문에 비정형 문서에 강력한 성능을 발휘한다. 실제 산업 현장에서 VLM 기반 OCR은 이미 도입 초기부터 기존 접근법보다 뚜렷한 개선 효과를 보이고 있다. 이미 업계에서는 VLM을 통한 생산성 향상 효과가 나오고 있다. 신생 물류기업 L사는 하루 평균 4만 장의 송장을 스캔하는데, 양식 종류가 600종을 넘어서면서 OCR 오류율이 18%까지 상승했다. VLM을 탑재한 OCR을 적용한 결과 첫 달에 오류율이 4%까지 떨어졌고, 급히 투입된 15명의 검수 인력을 4명으로 줄일 수 있었다. 금융·보험 분야에서도 VLM은 의미 있는 변화를 만들어냈다. 보험 손해 사정사 워크플로에 도입된 VLM 기반 OCR 엔진은 의료 영수증, 처방전, 수기 메모가 섞인 PDF 문서를 분석해 질병 코드와 치료 기간, 총 청구액 등 핵심 정보를 의미 단위로 자동 매핑했다. 결과적으로 도입 3개월 만에 평균 심사 시간이 건당 4.7분 단축됐다. 부실 청구 탐지율은 2.3배 향상됐다. 실질적인 VLM 구현을 위해선 세 가지 핵심 과제가 수반된다. 첫째는 중앙처리장치(GPU) 비용이다. 이미지 해상도가 높을수록 메모리 요구량은 기하급수적으로 증가한다. 둘째는 데이터 보안이다. 문서 이미지에는 신분증과 도장, 주소 등 민감한 개인정보가 포함된다. 저장 암호화와 접근 제어 등 보안 설계가 모델 설계 초기부터 명확히 반영돼야 한다. 마지막으로 운영 측면에서의 ML옵스 통합이다. VLM은 텍스트와 이미지 양쪽에서 오류가 누적될 수 있으므로, 라벨 재검수·재학습 주기를 기존보다 촘촘하게 설정해 지속적 품질을 수행해야 한다. 이런 기술 과제를 극복할 수 있다면 VLM은 단순 OCR을 넘어 멀티모달 로봇프로세스자동화(RPA)로 진화할 수 있다. VLM이 문서 의미를 이해하게 되면 수준 높은 복합 워크플로까지 자동화할 수 있을 것이다. 실제 모바일 스캐너나 드론 카메라처럼 네트워크 지연이 큰 현장에서는 경량화된 VLM을 엣지 디바이스에서 구동하는 방향으로 연구가 진행되고 있으며, 실제 적용 사례도 점차 증가하고 있다. 유럽연합(EU)의 AI법 등 주요 규제는 이미지 데이터의 편향성과 프라이버시를 명확히 규정하기 시작했다. 이로 인해 향후 VLM 개발자는 학습 데이터셋의 출처와 라벨링 과정을 투명하게 기록해야 하는 책임도 함께 지게 될 전망이다. 기업과 공공기관이 다양한 형식의 데이터를 한 눈에 이해하는 AI를 원한다면 VLM OCR 전략을 로드맵에 포함해야 한다. 문서 인식부터 업무 자동화까지 이어지는 다음 혁신의 축은 '텍스트‑이미지 융합형 AI'가 될 가능성이 크다. 현재 기술 기업들의 도전이 이 변화를 앞당기고 있으며, 실제 도입 성공 사례는 더 빠르게 쌓일 것이다. 텍스트 AI만으로 충분하다고 느끼는 지금 이 순간이, 어쩌면 VLM 전환을 준비할 마지막 골든타임일지 모른다.

2025.04.30 15:54김지현

"누구나 비전언어모델 사용"…구글, 신형AI '팔리젬마2' 오픈소스로 공개

구글이 사람처럼 보고, 이해하고, 상호작용할 수 있는 신형 비전언어모델(VLM)을 오픈소스로 공개했다. 이를 통해 의료, 제조 등 다양한 산업 분야에서 보다 효율적으로 AI를 활용할 수 있을 전망이다. 5일 구글 딥마인드는 오픈소스 VLM '팔리젬마2(PaliGemma2)'를 공식 블로그를 통해 공개했다. 비전언어모델은 사람처럼 이미지와 텍스트를 함께 학습하고 업무를 처리하는 AI 모델이다. 이를 통해 두 가지 데이터 유형이 독립적으로 처리되었을 때 놓칠 수 있는 정보 간 연관성을 이해하고 처리할 수 있는 것이 특징이다. 구글의 팔리젬마2는 젬마2 언어 모델 기반으로 개발돼 언어 처리 성능을 향상시켰다. 이를 통해 세부 사항을 요구하는 작업을 보다 정확하게 수행할 수 있으며 복잡한 작업의 완성도도 높일 수 있다. 특히 구글의 AI전용 프로세서 TPUv5를 활용해 학습 효율성을 극대화했으며 일반 PC 환경에서도 효과적으로 실행될 수 있도록 최적화 작업을 거쳤다. 기존 페일젬마는 224px 해상도만 지원한 반면 팔리젬마2는 448px와 896px등 고해상도 까지 지원해 실제 활용할 수 있는 업무 범위를 확대했다. 이 밖에도 세밀한 글씨를 정확히 감지하고 인식하기 위한 광학문자인식(OCR) 등의 기능을 개선했다. 고해상도도 이미지를 학습하고 구연할 수 있어 ICDAR 15와 토털텍스트 데이터셋 벤치마크에서 이전 최고 성능 모델을 능가하며 F1 점수 75.9를 기록하며 VLM 중 가장 우수한 성능을 달성했다. 구글 딥러잉 측은 페일젬마2를 활용해 더욱 복잡한 분자구조나 X레이 이미지를 분석하고 음악 파형 등을 인식해 디지털 변환하는 과정의 정확도를 높이는 등 다양한 분야에 활용할 수 있을 것으로 예측하고 있다. 구글의 다니엘 카이저스 연구 엔지니어는 "볼 수 있는 맞춤형 AI를 구축하는 것은 복잡하고 리소스 집약적인 노력이 요구됐다"며 "하지만 이제는 팔리젬마2를 통해 누구나 시각적 입력을 이해하고 상호작용할 수 있는 AI를 활용할 수 있게됐다"고 말했다.

2024.12.06 10:25남혁우

구글, 직접 학습하고 개선하는 로봇 훈련도구 공개

로봇이 주변 환경을 인식하고 스스로의 행동을 분석해 작업을 개선하는 대규모 인공지능(AI) 모델 기반 학습도구를 구글에서 공개했다. 5일 테크크런치 등 외신에 따르면 구글 딥마인드 로보틱스는 로봇 학습모델 '오토RT'와 'RT-트레젝토리' 등을 공개했다. 오토RT는 로봇에게 주어지는 다양한 환경과 목적에 따라 명령을 자연스럽게 수행할 수 있도록 개발된 기본 학습모델이다. 대규모 언어모델(LLM)과 비전 언어모델(VLM)과 로봇 제어 모델을 결합해 사전에 설정되지 않은 환경을 스스로 분석 후 주어진 목표를 적합하게 수행하기 위한 방안을 도출하고 수행한다. 예를 들어 '책상 위의 캔을 들어'라는 명령이 주어지면 언어모델이 주변 환경을 스캔한 후 모든 객체에 따른 정보를 텍스트 데이터화 한다. 이후 LLM이 책상과 캔과 관련된 데이터를 확인 후 명령을 수행하기 위한 작업 프로세스을 생성한다. 작업 프로세스는 환경을 고려해 다양하게 생성되며 부적절한 방식과 실제 업무에 필요한 작업 등을 분류하는 과정을 거친다. 실제 유효하다고 판단된 작업만이 업무 프로세스로 샘플링 된 후 로봇에 적용되어 수행된다. 또한, 수행 과정과 결과에 대한 데이터를 수집 후 분석해 이후 작업을 개선할 수 있는 기능도 갖췄다. 구글 측에 따르면 오토RT는 로봇이 얼마나 자율적으로 명령을 수행할 것인지 원하는 정도에 따라 설정할 수 있다. 또한 얼마나 안전하고, 자율적으로 업무를 수행하는지 판단하기 위해 테스트를 진행했다. 7개월에 걸쳐 한 번에 최대 20대의 로봇을 다양한 환경을 조성하며 테스트를 실시한 결과 6천650개의 고유한 언어 지침을 다루는 7만7천 개 이상의 사례를 수집할 수 있었다고 밝혔다. 구글은 로봇이 업무를 수행하는 과정에서 가장 적합한 물리적 동작을 수행하기 위한 RT-트레젝토리라는 학습모델도 도입했다. 로봇의 동작 궤도를 시각화해 반복 학습 과정에서 어떤 동작으로 업무를 수행했을 때 더 좋은 결과를 얻을 수 있는지 확인하고 개선할 수 있도록 지원한다. 훈련 데이터를 지원하지 않은 41개 작업으로 테스트한 결과 작업 성공률이 29%에서 63%로 2배 이상 향상됐다고 밝혔다. 또한 보다 안전한 로봇 활용을 위해 자체 필터링 기능 외에도 추가적인 안전조치 계층을 구성했다. 관절에 가해지는 힘이 주어진 임계값을 초과하면 자동으로 멈추도록 설정했다. 더불어 작동 중인 모든 로봇은 사람이 직접 중단한 수 있는 물리적 비활성화 스위치가 눈에 잘 띄는 곳에 위치하도록 구성할 것을 권했다. 구글 딥마인드 로보틱스 팀은 “우리는 여러 환경에서 다양한 명령을 자연스럽게 수행하기 위한 다목적 로봇개발을 목표로 하고 있다”며 “이번에 공개한 대규모 AI모델과 시스템 등을 통해 더욱 효율적인 로봇을 선보일 수 있을 것으로 기대한다”고 말했다.

2024.01.05 09:09남혁우

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

삼성전자, 'V9 QLC 낸드' 사업 고전…최첨단 제품 상용화 지연

오픈AI·퍼플렉시티 등 총 출동…'AI 페스타 2025' 30일 개막

[유미's 픽] 국가AI전략위원회, 분과 위원도 구성 완료…'AI 액션플랜' 완성도 높일까

美, 日産 자동차 관세 오늘부터 15%로…한국은 아직 25%

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.