• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
인공지능
스테이블코인
배터리
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'컴퓨터 비전'통합검색 결과 입니다. (9건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

콩가텍, NXP와 VDC리서치 신규 백서 공개

콩가텍은 NXP반도체와 협업해 시장조사기관인 VDC 리서치가 '산업용 비전 AI의 가능성' 백서를 발간했다고 17일 밝혔다. 이 백서에서는 빠르게 진화하는 산업용 에지 환경을 심층적으로 조망하며, AI와 머신러닝이 주도하는 비전 기반 기술의 채택이 급격히 확대될 것이라고 전망했다. AI와 머신러닝 적용 비중은 2025년 15.7%에서 향후 3년 내 51.2%로 급상승해 연평균 성장률(CAGR)이 48.3%를 기록할 것으로 예상된다. 이에 따라 비용 관리와 개발 속도를 높이는 유연하고 애플리케이션 준비성을 갖춘 하드웨어 플랫폼이 비즈니스 성공의 핵심 요소로 부상하고 있다. 이번 백서는 600명의 엔지니어가 참여했으며 이를 기반으로 임베디드 AI 보드 및 모듈의 글로벌 매출 현황을 분석하고, 에지 AI가 컴퓨터 비전 역량을 높여 운영 효율성 뿐만 아니라 보안과 안전까지 높일 수 있는 방안을 제시한다. 특히 하드웨어 비용이 에지 AI 워크로드의 경제성을 좌우하는 가장 큰 요인(43.7%)으로 꼽히면서 NXP i.MX 95 프로세서를 기반으로 한 표준 컴퓨터 온 모듈(COM)과 같은 유연하고 고성능의 설계 방식이 AI 가속 에지 솔루션의 도입을 가속화하고 있다. 콘라드 가르하머 콩가텍 COO겸 CTO는 "콩가텍은 NXP 반도체와의 파트너십을 통해 개발자들이 자사 SMARC 모듈과 NXP i.MX 95 애플리케이션 프로세서를 함께 사용해 더욱 기능을 강화한 미래 지향적인 산업용 비전 AI 솔루션을 효율적으로 구현할 수 있도록 지원할 것"이라고 말했다.

2025.09.17 10:19장경윤

트웰브랩스, 아마존 베드록에 '영상 AI' 공급…韓 AI, 글로벌 주류 '진입'

세계 주요 클라우드 플랫폼이 생성형 인공지능(AI) 확장에 나서는 가운데 트웰브랩스가 회사의 영상 AI 모델을 아마존에 공급하며 글로벌 시장 공략을 본격화했다. 트웰브랩스는 회사의 초거대 영상 AI 모델 '마렝고'와 '페가수스'를 아마존웹서비스(AWS)의 완전관리형 서비스 '아마존 베드록'을 통해 제공한다고 16일 밝혔다. 국내에서 개발된 파운데이션 모델이 글로벌 AI 플랫폼에 공식 편입된 건 이번이 처음이다. 아마존 베드록은 개발자가 단일 응용 프로그램 인터페이스(API)로 여러 AI 모델을 호출할 수 있는 플랫폼으로, 메타, 엔트로픽, 딥시크, 미스트랄AI 등 주요 AI 기업의 모델을 포함하고 있다. 트웰브랩스는 베드록 내에서 영상 이해 AI를 제공하는 유일한 서드파티 기업으로, 아마존 자체 모델인 '노바'를 제외하면 독점적 위치에 있다. 이번 공급을 통해 전 세계 AWS 고객들은 별도의 인프라 구축 없이 영상 내 객체, 행동, 배경음 등 다양한 요소를 자연어로 탐색할 수 있는 트웰브랩스의 모델을 활용할 수 있다. 영상 분석, 하이라이트 제작, 콘텐츠 태깅 등의 작업이 자동화돼 영상 기반 산업의 업무 생산성을 높일 수 있는 기반이 마련됐다. 트웰브랩스는 모델이 영상 분석 시간 단축 외에도 기업 내부의 아카이브 자산을 구조화하거나 마케팅과 서비스에 쓰이는 짧은 형식의 2차 콘텐츠를 제작하는데 쓰일 수 있다고 밝혔다. 활용 가능한 산업은 미디어, 스포츠, 엔터테인먼트 전반으로 확장된다. 실제로 북미 최대 스포츠 엔터테인먼트 기업인 메이플리프스포츠앤엔터테인먼트(MSLE)는 트웰브랩스 모델을 도입해 콘텐츠 제작 시간을 16시간에서 9분으로 줄였다. 트웰브랩스는 이를 통해 '데이터로서의 영상' 활용이 본격화될 것이라고 전망했다. 업계에서는 트웰브랩스의 아마존 베드록 진입을 '소버린 AI'의 실질적 구현 사례로 평가한다. 기존의 소버린 AI 개념이 국산 기술의 국내 활용에 머물렀다면 트웰브랩스는 글로벌 공급망 안에서 국산 AI가 주도권을 확보할 수 있음을 입증한 셈이다. 이재성 트웰브랩스 대표는 "이번 아마존 내 모델 공급 개시로 영상 데이터의 새로운 가치를 창출해 고객사의 비즈니스 성장에 기여할 것"이라며 "AWS와 지속 협력해 전 세계 기업들이 국산 영상 AI를 사용하는 진정한 소버린 AI를 실현하겠다"고 밝혔다.

2025.07.16 16:09조이환

텍스트 입력만으로 3차원 영상 분할·편집 가능해져

건국대학교 공과대학 김원준 교수(전기전자공학부) 연구팀이 개발한 '고성능 개방형 어휘 3차원 영상 분할 알고리즘'이 컴퓨터 비전·인공지능(AI) 분야 세계 최고 권위 학술대회 중 하나인 국제 컴퓨터 비전학회(ICCV 2025)에서 공개된다고 9일 밝혔다. 연구팀은 텍스트 입력만으로 3차원 영상 내에서 사용자가 원하는 객체를 정밀하게 분할하고 편집할 수 있는 개방형 어휘 기반 3차원 영상 분할 기술을 구현했다. 논문은 오는 10월 미국 하와이에서 열리는 'ICCV 2025'에서 소개될 예정이다. 이번 연구는 서로 다른 시점에 존재하는 객체에 대한 언어 임베딩의 일관성을 유지하면서, 새로운 시점의 이미지를 생성할 수 있도록 언어 임베딩과 가우시안 스플래팅 파라미터를 동시에 학습하는 전략을 새롭게 제안한 것이 핵심이다. 또 대조적 학습 기법을 접목해 새로운 시점 이미지 내 객체 검출 성능을 향상시켰다. 연구팀은 정밀한 3차원 장면 렌더링은 물론, 생성된 이미지 상에서 텍스트 명령어를 기반으로 사용자 지정 객체 분할과 편집이 가능해졌다고 전했다. 이 기술은 앞으로 3D 콘텐츠 생성, 3차원 장면 이해, 이머시브 서비스 분야 등에서 활용할 수 있다. 이번 논문 제1저자는 건국대학교 장성민 석사과정생이며, 교신저자는 김원준 교수다. 연구는 과학기술정보통신부의 연구비 지원을 받아 수행됐다. 논문 제목은 'Identity-aware language Gaussian splatting for open-vocabulary 3D semantic segmentation'이다.

2025.07.09 08:04주문정

[인터뷰] "텍스트 다음은 비디오"…팔란티어 출신 베테랑, 韓 스타트업 간 이유는?

"실리콘밸리에서 오랫동안 다양한 기술과 환경을 경험해 왔지만 영상 데이터를 '이해'하려는 시도는 다른 차원의 도전으로 느껴졌습니다. 단순히 기술이 뛰어나다는 걸 넘어서 제가 정말로 풀고 싶었던 문제를 정면으로 다루고 있었습니다. 자연스럽게 '이제 이곳에서 일해야겠다'는 생각이 들었습니다." 폴 조지 머신러닝 엔지니어는 최근 기자와의 인터뷰에서 트웰브랩스에 합류하게 된 계기를 두고 이같이 말했다. 실리콘밸리에서 지난 15년 동안 활동하며 팔란티어, 오픈도어, 퍼페추아 등 핵심 기술 기업을 거친 그는 지난해 퍼페추아의 엔지니어링 디렉터 자리를 내려놓고 트웰브랩스에 합류했다. 8일 업계에 따르면 파운데이션 모델의 개념이 거대언어모델(LLM)을 넘어 컴퓨터 비전과 멀티모달 영역으로 확장되는 추세다. 이 흐름 속에서 트웰브랩스는 영상 이해에 특화된 비전 파운데이션 모델을 구축하며 주목받고 있다. 지난 2021년 샌프란시스코에서 설립된 이 회사는 영상 속 시각, 음성, 언어 정보를 통합적으로 처리하는 멀티모달 AI 모델을 독자적으로 개발 중이다. 조지 엔지니어가 트웰브랩스를 선택한 배경에는 코넬대 박사과정 시절 직접 공동 창업한 교육용 영상 플랫폼 '비디오노트' 경험이 깔려 있다. 당시 그는 MIT 오픈코스웨어에서 착안해 강의를 촬영하고 메타데이터를 수작업으로 정리하는 과정을 거치며 이 작업을 자동화할 수 있으면 좋겠다는 문제의식을 품게 됐다. 이후 관련 분야에서 연구와 제품 개발을 이어가다 최근 트웰브랩스의 기술을 접했고 자신이 과거에 고민했던 문제를 실제로 해결하고 있는 회사라고 판단했다. 실제로 이 회사는 멀티모달 기반의 영상 이해 기술을 바탕으로 검색, 분석, 요약, 자동화를 수행하는 AI 플랫폼을 개발한다. 영상 내 음성, 자막, 시각 정보를 통합적으로 처리하는 자체 비디오-언어 모델 '페가수스'와 시공간 정보를 인코딩하는 인프라 모델 '마렝고'를 중심으로, 실시간 검색 및 대용량 인덱싱이 가능한 서비스까지 상용화했다. 텍스트 기반 모델에 비해 100배 이상 복잡한 영상 데이터를 처리하기 위한 구조다. 조지 엔지니어는 영상 AI의 기술적 깊이와 스케일 모두를 강조했다. 영상은 텍스트나 이미지보다 정보량이 훨씬 많고 다차원적이기 때문에 단순히 모델 정확도만으로는 대응할 수 없기 때문이다. 그는 "비디오 데이터셋은 그 자체로 대규모 연산 인프라, 고정밀 트레이닝, 신속한 응답 속도를 요구하는 영역"이라며 "우리는 이를 감당할 수 있는 구조를 갖추고 있으며 실제로 기업 고객에 적용해 실시간 영상 분석을 제공하고 있다"고 설명했다. 현재 트웰브랩스는 샌프란시스코와 서울을 중심으로 양측 오피스를 운영하고 있으며 약 100여 명의 구성원 중 서울 본사에는 연구 및 엔지니어링 팀이, 샌프란시스코 오피스에는 비즈니스 및 고객 대응 조직이 주로 배치돼 있다. 조지 엔지니어는 미국에 거주하면서도 한국 엔지니어들과 긴밀한 협업을 이어가고 있는 상황이다. 조지 엔지니어는 프랑스어로 '에스프리 드 코르(esprit de corps)'라는 표현을 인용하며, 물리적으로 떨어져 있어도 하나의 팀처럼 유기적으로 작동하는 분위기를 강조했다. 더불어 한국 엔지니어들과의 협업에 대해서는 단순히 똑똑한 것을 넘어서 문제를 깊이 있게 파고드는 성향이 인상적이었다고 평가했다. 그는 "특히 멀티모달 AI의 복잡한 구조를 함께 설계하고 운영할 수 있는 동료로서 높은 신뢰를 갖고 있다"며 "한국 오피스를 방문했을 때는 공간에 들어서는 순간 자연스럽게 연결된다는 느낌을 받았다"고 말했다. 트웰브랩스의 기술은 연구 수준에 머무르지 않고 다양한 산업 현장에서 검증되고 있다. 북미 스포츠 구단 운영사 MLSE는 트웰브랩스의 기술을 도입해 수천 시간의 경기 영상을 실시간으로 분석하고 장면 요약과 콘텐츠 자동화를 수행하고 있다. 이외에도 SK텔레콤, 아이콘, 미디어·엔터테인먼트 기업들과의 협업이 진행 중이다. 폴 조지 엔지니어는 "영상 AI는 단순히 유행을 따르는 영역이 아니라 본질적으로 인간과 가장 가까운 인지 데이터를 다루는 분야"라며 "우리가 만든 모델은 고객의 실시간 서비스에 적용되고 있으며 그 자체가 AI 스타트업이 진짜로 세상에 영향을 주는 방식"이라고 밝혔다.

2025.07.08 11:44조이환

[현장] "AI 도입 비용 0"…슈퍼브에이아이, 산업용 비전 파운데이션 모델 '제로' 공개

슈퍼브에이아이가 인공지능(AI) 도입 비용과 시간을 대폭 줄인 산업용 비전 파운데이션(VFM) 모델을 통해 전 산업의 디지털 전환 가속화에 나선다. 기술 부담 없이 누구나 AI를 쓸 수 있도록 만들겠다는 전략이다. 슈퍼브에이아이는 24일 서울 콘래드호텔에서 기자간담회를 열고 산업 특화형 비전 파운데이션 모델 '제로(ZERO)'를 공개했다. 이날 행사에는 김현수 최고경영자(CEO)를 비롯해 차문수 최고기술책임자(CTO), 김진회 최고사업책임자(CBO)가 참석해 슈퍼브에이아이의 기술 전략과 시장 계획을 상세히 밝혔다. 김현수 CEO는 "AI 도입 비용을 완전히 '0'으로 만들겠다"는 선언과 함께 슈퍼브에이아이가 개발한 '제로'를 소개했다. 회사에 따르면 '제로'는 학습 데이터 없이도 즉시 활용 가능한 영상 AI 모델로, 기존 AI 개발에 요구되던 데이터 구축과 모델 학습 과정 자체를 생략할 수 있는 것이 핵심이다. 영상 속 객체 탐지, 추적, 질의응답까지 다양한 작업을 단일 모델로 처리할 수 있어 산업 적용성도 강조됐다. 산업용 범용 기반 모델 '제로'…AI 도입 병목 해소한다 이날 행사를 시작하며 김 CEO는 슈퍼브에이아이가 AI 도입에 있어 ▲전문 인력 부족 ▲데이터 부족 ▲기술 인프라 부재라는 세 가지 병목을 확인했다고 설명했다. 이를 해결하기 위해 이미 개발한 것이 머신러닝 기반의 'MLOps 플랫폼'과 '버티컬 솔루션'이다. 데이터 라벨링 자동화와 AI 개발 전 과정을 하나의 플랫폼에서 처리할 수 있는 이 플랫폼은 AI 개발 기간을 6개월에서 2주로 줄이는 데 성공했다. '버티컬 솔루션'은 개발 역량이 부족한 산업 현장에서 AI를 즉시 활용할 수 있도록 만든 제품군이다. CCTV 기반 화재 감지, 안전 모니터링 솔루션은 실제로 발전소, 공항, 지자체 등에서 쓰이고 있다. 김 대표는 "이제는 더 높은 목표를 설정할 시점"이라며 "이에 '제로' 모델을 개발할 필요성을 느꼈다"고 강조했다. 슈퍼브에이아이에 따르면 '제로'는 마치 '챗GPT'처럼 프롬프트 입력만으로 다양한 작업을 실행하는 멀티모달 인터페이스를 갖췄다. 예시 이미지 하나로 생산 현장의 결함 탐지나 수량 계산이 가능하고 프롬프트를 통해 다양한 산업 과업을 정의할 수 있다. 기존 AI의 한계였던 '사전 정의된 카테고리만 인식 가능' 문제도 해결한다는 설명이다. 김 대표는 제로가 지닌 '제로샷' 능력을 핵심 경쟁력으로 꼽았다. 학습 없이도 기존 지식만으로 새로운 상황을 추론할 수 있는 점은 제조업 기반이 강한 한국이 비전 AI 분야에서 세계 시장을 주도할 수 있는 전략적 교두보가 될 수 있다는 의미이기도 하다. 산업용 비전 데이터는 대부분 기업 내부에 있고 공개되지 않는다. 텍스트 기반의 언어 모델과 달리 접근이 어렵다. 김 대표는 "바로 이 점이 우리가 경쟁력을 가질 수 있는 이유"라며 "한국의 제조·조선·방산 같은 고도화된 산업 인프라 위에서 비전 파운데이션 모델은 세계 1등을 노릴 수 있다"고 말했다. 김 대표는 "AI의 3대 축으로 거대언어모델(LLM), 비전 파운데이션 모델(VFM), 피지컬 AI(로보틱스 등)가 제시된다"며 "이 가운데 비전 AI가 산업 현장의 눈이 될 것"이라고 말했다. 이어 "산업용 비전 AI가 한국의 국가 경쟁력에 기여하도록 '제로'를 통해 AI 민주화와 함께 산업 혁신의 속도를 끌어올리겠다"고 밝혔다. 구글·MS·중국 모델 제쳤다…국산 비전 '제로'로 CVPR 2위 이어 차문수 CTO는 '제로'의 기술적 배경과 성능 성과를 설명했다. 그는 기존 비전 AI의 구조적 한계부터 짚으며 제로가 어떤 기술 혁신을 통해 이를 극복했는지를 순차적으로 소개했다. 차 CTO는 기존 비전 AI가 ▲새 객체 인식 불가 ▲환경 변화에 취약 ▲작업마다 별도 모델이 필요한 복잡성 등 세 가지 태생적 한계를 안고 있다고 설명했다. 산업 현장에서는 이 같은 제약이 반복적인 데이터 수집과 학습 비용으로 이어졌고 AI 도입 자체를 가로막아 왔다고 진단했다. 그는 슈퍼브에이아이가 이 같은 구조적 병목을 해결하기 위해 '제로'를 설계했다고 밝혔다. 제로가 가진 '제로샷'이란 대규모 언어 데이터와 이미지 데이터를 함께 학습해 학습되지 않은 객체도 추론 가능한 능력이다. 더불어 정해진 분류 없이도 작동하는 '오픈월드' 구조로 설계됐다. 이미지나 텍스트 등 다양한 형태의 프롬프트를 지원하는 멀티모달 인터페이스와 수십 개의 태스크를 하나의 모델로 처리할 수 있는 멀티태스크 구조를 채택했다. 무엇보다도 산업현장에서 필요로 하는 문제를 곧바로 다룰 수 있도록 퍼블릭 웹 데이터 외에 슈퍼브에이아이 자체 구축 데이터와 국내 AI허브 데이터 등 산업용 특화 데이터를 중심으로 학습시킨 점이 특징이다. 추가 학습 없이 바로 제조, 유통, 건설 등 다양한 분야에서 사용 가능한 형태로 만들었다는 점에서 기술적 실용성이 강조됐다. '제로'는 벤치마크에서도 뚜렷한 성과를 냈다. 산업용 영상 AI 벤치마크에서 경쟁 모델들을 제치고 1위를 기록했다. 글로벌 비전학회인 국제 컴퓨티 비전 및 패턴 인식 학회(CVPR)의 객체 탐지 및 퓨샷 챌린지에서도 각각 2위, 4위를 기록했다. 중국의 '티렉스-2(T-Rex2)', 마이크로소프트의 '플로센스-2(Florence-2)', 구글 '오더블유엘브이2(OWLv2)' 등과 비교해도 성능 격차를 크게 벌린 것으로 나타났다. 또 차 CTO는 '제로'가 적은 리소스로 고성능을 구현한 점을 강조했다. 'A100' 그래픽 처리장치(GPU) 8장만으로 학습했으며 수집한 1억 장 규모의 데이터에서 약 90만 장만을 선별 학습에 사용했다. 이를 가능하게 한 것은 슈퍼브가 보유한 MLOps 플랫폼의 데이터 선별 기술이었다는 설명이다. 모델 경량화도 특징이다. 10억 파라미터 미만으로 설계돼 연산량이 작아 엣지 디바이스나 클라우드 등 다양한 환경에서 가볍게 배포 가능하다. 응용 프로그램 인터페이스(API) 호출 방식뿐 아니라 엣지AI 형태로도 쉽게 연동 가능하며 실제 산업 환경에서의 AI 도입을 빠르고 간편하게 만든다는 것이 슈퍼브에이아이의 설명이다. 차 CTO는 "'제로'는 단일 모델에 그치지 않는다"며 "하드웨어-플랫폼-모델-버티컬 솔루션을 포괄하는 '제로 스택'으로 풀스택 생태계를 구성하겠다"고 밝혔다. '제로'로 200조 시장 노린다…"지능형 비전, 모든 산업의 표준 될 것" 이어 김진회 CBO는 '제로'가 실제 비즈니스 현장에 어떻게 가치를 창출하는지 설명하며 기술 중심 전략에서 '고객 중심 전환'으로의 구체적 비전을 제시했다. 그는 '제로'의 활용이 단순한 AI 도입을 넘어 산업 전체의 운영 구조를 바꾸는 촉매가 될 수 있다고 강조했다. 김 CBO는 "AI가 중요한 게 아니라 여러분의 자연지능이 중요하다"며 기존 AI 도입 방식의 비효율성과 제로의 실용적 전환 능력을 대비해 설명했다. 학습 없이도 객체 탐지, 결함 검출, 수량 카운팅이 가능한 '제로샷'의 현장 데모를 통해 복잡한 모델 설계와 라벨링 없이도 AI 도입이 가능함을 시연했다. 데모에서는 리테일 환경에서는 변화가 잦은 제품군을 사전 학습 없이도 인식하고 분류할 수 있는 능력도 선보였다. 영상 속 인물의 행동을 추론하고 사고 현장을 이해해 답변을 제공하는 지능형 에이전트 형태로 확장된 기능도 함께 시연됐다. 김 CBO는 '제로'가 기존 AI 도입에서 필연적으로 요구되던 '문제 정의→데이터 수집→라벨링→모델 학습→배포'의 전 과정을 무력화했다고 밝혔다. 그는 "이제는 아이디어만 있으면 AI를 바로 쓸 수 있게 된다"며 "기술검증(PoC)에 수천만 원을 쓰지 않아도 된고 전문가를 고용하는데 소요되는 시간도 필요 없게 하는 것이 우리의 궁극적 목적이었다"고 말했다. 시장 확장 전략으로는 '플랫폼 중심 생태계 공급' 구조를 제시했다. 아마존웹서비스(AWS) 같은 글로벌 플랫폼에서 손쉽게 제로를 호출할 수 있는 구조를 갖춰 사용자가 가장 익숙하고 신뢰하는 환경에서 AI를 접할 수 있도록 하겠다는 것이다. 실제로 제로는 이날 오후부터 AWS를 통해 공개될 예정이다. 그는 궁극적으로 '제로'가 모든 산업 장비·시스템에 탑재되는 표준이 되겠다는 포부를 밝혔다. 20조원 규모의 기존 컴퓨터 비전 시장을 넘어 200조원에 달하는 글로벌 영상 관제 시장, 290조원 규모의 스마트팩토리 시장 등으로 진출하겠다는 계획이다. 김진회 CBO는 "의사는 의료 AI, 농업 전문가는 농업 AI를 만드는 시대를 '제로'가 열 것"이라며 "지금까지의 AI가 기술을 위한 것이었다면 이제는 사람을 위한 AI로 전환해야 한다"고 말했다.

2025.06.24 14:21조이환

트웰브랩스, 아마존 '베드록' 입성…韓 최초로 영상 AI 모델 공급

트웰브랩스가 아마존의 대표 인공지능(AI) 플랫폼에 입성한다. 세계 주요 파운데이션 모델 기업들과 어깨를 나란히 하며 글로벌 영상 AI 시장 주도권 확보에 나서는 모양새다. 트웰브랩스는 아마존웹서비스(AWS)의 완전 관리형 AI 서비스 '아마존 베드록'에 자사 멀티모달 AI 모델인 '마렝고'와 '페가수스'를 제공하기로 했다고 7일 밝혔다. 국내 기반 영상 AI 모델이 '베드록'에 들어가는 것은 이번이 처음이다. 아마존 '베드록'은 메타, 앤트로픽, 미스트랄AI, 스태빌리티AI 등 세계 유수의 AI기업 모델을 단일 애플리케이션 프로그램 인터페이스(API)로 제공하는 플랫폼이다. 아마존 내부 모델인 '노바'를 제외하면 트웰브랩스는 베드록 내 유일한 영상이해 AI 제공사로 자리하게 됐다. 트웰브랩스의 영상 모델들은 객체, 행동, 배경음 등 영상 내 요소를 자연어로 검색하고 해석할 수 있다. 이를 통해 영상 콘텐츠의 검색, 분류, 요약, 인사이트 추출 등 전 과정을 자동화할 수 있는 것이 특징이다. 이에 고객은 '베드록'에서 인프라 관리 없이 트웰브랩스 모델을 활용해 생성형 AI 기반 영상 서비스를 구축할 수 있게 된다. 모델이 작은 영상 클립부터 대규모 콘텐츠 라이브러리까지 일관된 분석 성능을 제공하고 기업 수준의 보안 및 데이터 통제 기능도 갖췄기 때문이다. 업계 일각에서는 이번 협력이 스포츠, 미디어, 엔터테인먼트, 광고 등 영상 중심 산업 전반에 파급력을 미칠 것으로 전망한다. 방송사와 스튜디오는 촬영분 아카이빙을 자동화할 수 있고 스포츠 팀은 하이라이트를 자동 생성해 팬 맞춤형 콘텐츠를 제작할 수 있게 된다. 트웰브랩스는 AWS와의 전략적 협업 계약(SCA)을 바탕으로 아마존 '세이지메이커 하이퍼팟'도 활용 중이다. 이를 통해 모델 학습 속도는 최대 10% 빨라졌고 비용은 15% 이상 절감한 것으로 알려졌다. 글로벌 진출도 본격화하고 있다. 회사는 AWS 액티베이트 프로그램의 지원을 통해 해외 확장을 준비 중이며 AWS 마켓플레이스를 통해 전 세계 고객에게 자사 서비스를 제공할 계획이다. 사미라 파나 바크티아르 AWS 미디어·엔터테인먼트 총괄은 "트웰브랩스 모델 도입으로 영상 데이터의 활용이 쉬워졌다"며 "기업들이 인프라 없이도 AI 기술을 확장 가능하게 됐다"고 밝혔다. 이재성 트웰브랩스 대표는 "세계 영상 데이터의 80%가 사실상 미활용 상태"라며 "이번 베드록 공급은 우리 기술력이 세계 최고 수준임을 입증한 결과"라고 말했다.

2025.04.07 15:30조이환

팀네이버, CVPR 2025에 논문 14편 게재…공간지능·AI 글로벌 기술력 입증

네이버는 네이버랩스, 네이버랩스 유럽, 네이버클라우드 등 '팀네이버'의 다양한 기술 조직이 발표한 연구 논문 14편이 컴퓨터비전 분야 세계적 학회 중 하나인 'CVPR(컴퓨터비전 및 패턴 인식 컨퍼런스 학술대회) 2025'에 게재 승인됐다고 25일 밝혔다. 공간지능·비전 AI 기술 경쟁력을 입증한 결과다. 1983년 시작된 CVPR은 세계 최대 기술 전문 단체인 전기전자공학자협회(IEEE)와 컴퓨터비전협회(CVF)가 공동 주최하는 학술대회로, 비전 AI 분야의 대표적인 학회이자 컴퓨터 공학에서 가장 영향력 있는 학회로 알려져 있다. 이로써 네이버는 컴퓨터비전 분야 세계 3대 학회로 꼽히는 CVPR, ECCV(European Conference on Computer Vision, 유럽 컴퓨터비전 학회), ICCV(International Conference on Computer Vision, 국제 컴퓨터비전 학회)에 최근 5년여 동안(2020년~2025년 3월) 151건의 정규 논문을 등재하고, 이 기간 동안 이들 학회에 매년 총 두 자릿수의 논문을 게재하며 세계적 수준의 AI 기술 기업으로 자리잡았다. CVPR 2025에서 팀네이버는 먼저 네이버랩스 유럽이 지난해 공개해 글로벌 빅테크 기업들의 큰 관심을 받았던 3D 재구성 AI 도구 'DUSt3R(더스터)'의 후속 연구 결과들을 발표할 예정이다. 한두 장의 사진만으로 3차원 복원을 쉽게 할 수 있는 AI인 더스터를 기반으로, 여러 장의 이미지에서 보다 정확한 3차원 공간을 재구성할 수 있는 AI 모델 'MUSt3R(머스터)'와, 다양한 카메라 및 장면 정보를 통합해 추론 능력을 높인 AI 모델 'Pow3R(파워)' 등이 새로 등재됐다. 또한 사전에 학습되지 않은 물체의 위치와 방향을 신속하고 정확하게 찾아내는 기술을 제안한 네이버랩스의 논문(제목: Co-op: Correspondence-based Novel Object Pose Estimation) 등 다수의 공간지능 논문이 학회에 채택됐다. 또한 최근 멀티모달(Multimodal) AI 기술의 부상으로 주목받고 있는 이미지 학습 모델 관련 연구들이 채택되는 성과도 있었다. 네이버클라우드는 '마스킹(masking)' 기법을 활용해 AI가 이미지 학습을 할 때 발현되는 훈련 불안정성 문제를 해결한 효율적인 학습 방법론을 제안했으며(제목: Masking meets Supervision: A Strong Learning Alliance), 네이버랩스 유럽은 시각언어모델(Vision-and-Language Model)을 활용해 추가 학습 없이 이미지 속 새로운 사물을 정교하게 구분하는 기술을 선보였다(제목: LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation). 로봇 연구에서의 성과도 돋보였다. 시각 정보 입력부터 행동 출력까지 전체 과정을 학습하는 '엔드 투 엔드(End-to-End)' 방식으로 빠르게 이동하는 로봇이 효율적으로 경로를 찾는 자율주행 시스템에 관한 연구(제목: Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach)가 채택됐으며, 이 외에 이미지 생성 AI 모델의 창의성을 향상시키기 위한 방법을 제안한 연구(제목: Enhancing Creative Generation on Stable Diffusion-based Models) 등도 채택됐다. 팀네이버는 컴퓨터비전 뿐만 아니라 자연어처리, 음성, 머신러닝 등 분야별 탑티어(top-tier) AI 학회에서 우수한 선행 연구 성과를 내고 있다. 현재까지 총 450편 이상의 연구를 발표했으며, 연구의 영향력을 가늠할 수 있는 지표 중 하나인 피인용 수는 4만7천여 회에 달한다. 네이버는 적극적인 연구개발 투자를 지속하며 선행기술을 확보해나겠다고 밝혔다. 나아가 '온 서비스 AI(On-Service AI)' 전략 아래, 생성형 AI와 공간지능 등 성공적으로 내재화한 핵심 기술을 네이버 주요 서비스에 도입해 사용자에게 차별화된 서비스 경험을 제공할 계획이다.

2025.03.25 17:01안희정

구글-소프트뱅크, 양자컴퓨팅 리더십 확보 위해 3천300억 베팅

구글과 소프트뱅크가 양자컴퓨팅 경쟁력 확보를 위해 손을 맞잡았다. 두 기업은 양자컴퓨터의 오류를 줄이고 상용화 시기를 앞당기기 위한 전략적 협력에 나섰다. 네이처는 양자컴퓨팅 스타트업 큐에라(QuEra)에서 구글과 소프트뱅크가 포함된 투자그룹으로부터 총 2억3천만 달러(약 3천340억원)의 투자를 유치했다고 14일 밝혔다. 투자그룹에는 구글, 소프트뱅크를 비롯해 QVT패밀리오피스, 사파르파트너스, 밸러에쿼티파트너스 등이 참여했다. 이번 투자를 통해 큐에라의 기업가치는 10억 달러(약 1조4천500억원) 정도로 평가받고 있다. 큐에라는 하버드대학교와 매사추세츠공과대학교(MIT) 연구진이 공동 설립한 기업으로 중성원자를 활용한 양자컴퓨터 기술을 개발하고 있다. 중성원자 기반 양자컴퓨터 기술은 개별 원자를 광학 핀셋으로 잡아 배열하고 제어하는 방식으로 고온에서도 안정적으로 작동하며 확장성이 좋은 것으로 알려졌다. 기존 초전도체 방식보다 비용 효율적이며, 큐비트 간 결합을 유연하게 변경할 수 있어 복잡한 연산에 유리하다. 현재 큐에라는 256큐비트 양자컴퓨터를 개발 중이며 이번 투자를 통해 확보한 자금을 바탕으로 1천큐비트 이상 확장이 가능한 시스템을 구축하는 것을 목표로 하고 있다. 구글과 소프트뱅크의 이번 투자는 양자컴퓨팅 상용화를 앞당기기 위한 기술적 가능성과 이로 인한 파급력을 고려한 것으로 분석되고 있다. 구글은 큐비트 수가 증가할수록 오류가 감소하는 '임계값 이하'를 달성한 양자프로세서 '윌로우'을 비롯해 인공지능(AI)을 활용해 양자컴퓨터 정확성을 높이는 기술을 선보인 바 있다. 관련 업계에선 큐에라의 기술력이 더해진다면 상용화를 위한 기간을 보다 단축시킬 수 있을 것으로 전망하고 있다. 소프트뱅크는 AI와 차세대 컴퓨팅 기술에 대한 지속적인 투자 전략의 일환으로 큐에라의 성장 가능성에 주목했다. 소프트뱅크의 켄타로 마츠이 매니징 파트너는 "양자 컴퓨팅의 혁신적 잠재력은 엄청나며 큐에라는 접근 가능하고 영향력 있게 만드는 데 독보적인 위치에 있다"며 "우리는 큐에라가 내결함성 양자 컴퓨팅 분야에서 기술적, 상업적 리더십을 확대할 수 있을 것이라고 믿는다"고 말했다. 큐에라의 타쿠야 키타가와 사장은 "기존 투자자들의 지속적인 신뢰에 깊이 감사하며, 우리 팀을 믿고 장기적 비전을 공유하는 새로운 전략적 파트너를 환영하게 되어 기쁘다"며 "그들의 지원은 확장 가능하고 유용하며 내결함성이 있는 양자 컴퓨터를 구축해 혁신을 가속화한다는 사명을 크게 발전시킬 것"이라고 밝혔다.

2025.02.14 18:07남혁우

"영상 AI의 챗GPT 순간 열까"…트웰브랩스, '페가수스-1.2' 공개

트웰브랩스가 차세대 영상언어 생성 모델을 공개해 산업 현장에서의 인공지능(AI) 활용성을 극대화한다. 트웰브랩스는 자사가 최근 개발한 '페가수스-1.2'가 다양한 길이의 영상을 분석할 수 있다고 12일 밝혔다. 이 모델은 성능이 대폭 향상돼 텍스트 요약·질의응답·하이라이트 생성 등 고도화된 영상 처리가 가능하다. 트웰브랩스는 이번 모델에 고급 비전 인코딩 전략과 토큰 감소 기술을 적용해 모델의 효율성과 이해도를 높였다. 이를 통해 기존 초거대 모델 대비 가벼운 크기로도 높은 성능을 구현했다. 특히 'GPT-4o'·'제미니 1.5 프로' 등 경쟁 모델보다 응답 속도가 빠르고 비용 효율성이 뛰어난 점이 강점으로 꼽힌다. '페가수스-1.2'는 트웰브랩스의 자체 멀티모달 임베딩 모델인 '마렝고'와 결합돼 보다 정교한 영상 이해 능력을 갖췄다. 이를 통해 엔터테인먼트·교육·보안 등 다양한 산업에서 활용될 전망이다. 일례로 방송·미디어 업계에서는 영상 콘텐츠 자동 분류, 하이라이트 추출, 교육 분야에서는 강의 요약 및 핵심 내용 정리에 활용될 것으로 기대되며 보안 산업에서는 CCTV 영상 분석과 이상 징후 탐지 등에 적용될 것으로 보인다. 트웰브랩스는 지난 2021년 설립 이후 멀티모달 신경망 기술을 기반으로 빠르게 성장했다. 글로벌 리서치 기업 CB 인사이트가 선정한 'AI 100'에 3년 연속 이름을 올렸으며 '세계 50대 생성형 AI 스타트업'에도 포함됐다. 지난해 12월에는 이승준 CTO가 포브스 '30세 미만 30인' AI 리더로 선정되며 기술력을 인정받았다. 이승준 트웰브랩스 최고기술책임자(CTO)는 "영상 속 객체의 공간적 관계와 시간적 변화를 정확히 분석하는 AI 모델이 필요하다"며 "'페가수스-1.2'는 혁신적인 시공간 정보 이해 방식을 도입해 다양한 산업 요구를 충족할 것"이라고 말했다.

2025.02.12 15:12조이환

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

"OO 엄마세요?"...학부모 필독 '보이스피싱' 피하는 법

SK하이닉스, AI 추론 병목 줄이는 '커스텀 HBM' 정조준

김광수 대표, 해태아이스크림 품고 '빙그레' 할까

5곳 중 단 2곳 생존…국가대표 AI 최종 결과, 연말에 나온다

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.