트웰브랩스, 차세대 영상 이해 모델 '마렝고 3.0' 공개…"업계 최고 수준"
트웰브랩스가 영상 속 장면의 텍스트·음성·움직임·상황 맥락을 통합적으로 이해하는 인공지능(AI)을 선보인다. 트웰브랩스는 차세대 영상 AI 파운데이션 모델 '마렝고 3.0'을 공식 출시했다고 2일 밝혔다. 마렝고 3.0은 영상 속 대사와 몇 분 후에 등장하는 동작을 연결해 해석하고 사물·행동·감정·상황 변화를 시간의 흐름에 따라 추적하는 등 인간에 가까운 수준의 영상 이해 능력을 구현한다. 특히 이미지와 텍스트를 동시에 검색할 수 있는 '복합 이미지 검색' 기능과 사람이나 제품을 별도로 등록해 찾아볼 수 있는 '고유명사 검색' 기능도 도입됐다. 이번 모델은 36개 언어를 지원해 글로벌 기업 환경에서도 안정적으로 활용할 수 있다. 또 스토리지 비용 50% 절감, 인덱싱 속도 2배 향상 등의 효율성 개선도 확인했다는 게 트웰브랩스 측 설명이다. 마렝고 3.0은 기존 프레임 기반 분석이나 이미지·오디오 모델의 단순 조합 방식에서 벗어나 영상 이해를 위해 처음부터 설계된 네이티브 파운데이션 구조를 갖췄다. 영상 전체를 시간·공간적으로 해석하는 방식이다. 장면 간의 연속성과 맥락을 자연스럽게 파악하며 스포츠·미디어·엔터테인먼트·광고 등 고난도 콘텐츠에 대한 이해 능력이 대폭 강화된 것이다. 공공·보안 등의 영상 분석 환경에서도 높은 정확도를 보인다. 마렝고 3.0은 다양한 산업 현장에서 즉시 활용 가능하다. 프로 스포츠 리그에서는 특정 선수의 득점 장면이나 결정적 플레이만을 즉시 검색해서 찾아내 하이라이트를 빠르게 제작할 수 있으며 경기 분석 효율 향상을 지원한다. 방송·포스트 프로덕션 분야에서는 수십 년치 아카이브에서 특정 유명인의 얼굴을 '고유명사'로 등록해 원하는 행동을 하는 장면을 몇 초 만에 찾아낼 수 있다. 공공보안 쪽에서는 CCTV 영상 전체를 몇시간씩 볼 필요 없이 빠르게 원하는 장면만을 정확하게 찾아낼 수 있다. 이커머스 분야에서도 브랜드, 제품 혹은 호스트가 언제 등장하고 어떤 행동을 하고 있는지 원하는대로 즉시 검색해 볼 수 있다. 이재성 트웰브랩스 대표는 "전 세계 디지털 데이터의 90%가 영상인데 사람이 직접 분석하기에 너무 오래 걸리고 기존 기술로는 모든 것을 파악하기가 어려워 그동안 대부분 제대로 활용되지 못했다"며 "이 문제를 해결하는 것이 우리의 목표"라고 말했다. 이어 "마렝고 3.0은 그동안 영상 이해 기술이 가졌던 한계를 완전히 뛰어넘는 모델로, 기업과 개발자에게 기존과 다른 혁신적인 기준을 제시할 것"이라고 덧붙였다. AWS 니샨트 메타 AI 인프라 부문 부사장은 "트웰브랩스의 영상 이해 기술은 그동안 수작업 중심이었던 영상 분석 프로세스에 전례 없는 속도와 효율성을 제공하며 산업 전반의 혁신을 이끌고 있다"며 "마렝고와 페가수스 모델이 아마존 베드록에서 큰 성과를 거둔 데 이어, 마렝고 3.0은 세계 최고 수준의 영상 이해 능력을 필요로 하는 고객들에게 최적의 솔루션이 될 것으로 기대한다"고 강조했다.