검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'메타 멀티모달'통합검색 결과 입니다. (2건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

[AI는 지금] '샘 3.1' 꺼낸 메타, 멀티모달 승부수…비전 AI '속도·비용' 장벽 낮췄다

메타가 차세대 비전 인공지능(AI) 모델 '샘(SAM) 3.1'을 공개하며 멀티모달 경쟁에서 기술 주도권 확보에 속도를 내고 있다. 영상 처리 속도와 효율성을 동시에 개선하며 그동안 높은 비용과 지연 문제로 제한됐던 비전 AI의 상용화 가능성을 한층 끌어올린 모습이다. 31일 업계에 따르면 메타 AI는 지난 27일 공식 블로그를 통해 이미지·영상 이해 모델 '샘 3(SAM 3, Segment Anything Model 3)'의 업그레이드 버전인 '샘 3.1'을 발표했다. 이번 모델은 객체를 동시에 처리하는 '멀티플렉싱(object multiplexing)' 구조를 도입해 기존 대비 연산 효율을 크게 개선한 것이 특징이다. 기존 모델이 객체별로 개별 연산을 수행했던 것과 달리 샘 3.1은 최대 16개 객체를 한 번의 연산으로 처리할 수 있다. 이를 통해 중복 계산을 제거하고 메모리 사용을 최적화하면서 영상 처리 속도를 기존 대비 두 배 수준으로 끌어올렸다. 단일 H100 그래픽처리장치(GPU) 기준 초당 32프레임 처리 성능을 구현하며 복잡한 장면에서도 실시간 객체 추적이 가능해졌다. 연산 구조 개선은 비용 측면에서도 의미가 크다. 동일한 작업을 더 적은 자원으로 수행할 수 있어 GPU 인프라 부담을 낮출 수 있기 때문이다. 업계에선 이를 두고 비전 AI가 연구·실험 단계에서 실제 서비스 적용 단계로 넘어가는 전환점으로 보고 있다. 샘 3 계열은 텍스트, 이미지, 시각적 프롬프트를 결합해 객체 탐지와 세분화, 추적을 동시에 수행하는 통합형 모델이다. 특히 사전 정의된 범주에 제한되지 않는 '오픈 보캐뷸러리' 방식으로 다양한 개념을 인식할 수 있어 활용 범위가 넓다. 메타는 해당 기술을 자사 서비스에 빠르게 적용하고 있다. 인스타그램 영상 편집 기능에선 특정 인물이나 객체에 효과를 적용하는 기능이 도입될 예정이다. 메타 AI 플랫폼과 웹 서비스에서도 영상 생성 및 편집 기능이 확대되고 있다. 페이스북 마켓플레이스에서는 샘 3 기반 기술과 3D 복원 모델인 샘 3D를 활용해 가구를 가상 공간에 배치해보는 기능도 제공 중이다. 이번 발표는 멀티모달 AI 경쟁이 본격화되는 흐름과 맞물린다. 최근 AI 산업은 텍스트 중심에서 이미지와 영상, 음성까지 확장되며 복합 데이터를 동시에 이해하고 처리하는 능력이 핵심 경쟁력으로 부상하고 있다. 메타는 이미지 생성 중심 경쟁과 달리 시각 정보를 분석하고 추적하는 '이해 영역'에서 차별화 전략을 강화하는 모습이다. 다만 과제도 남아 있다. 의료·과학 등 전문 영역의 세밀한 개념 인식에는 추가 학습이 필요하며 복잡한 문장 기반 요청 처리 역시 제한적인 수준이다. 영상 처리 과정에서 객체 수 증가에 따라 연산 비용이 함께 늘어나는 구조 역시 향후 개선이 요구되는 부분으로 지적된다. 업계에선 이번 샘 3.1 공개를 비전 AI 상용화의 분기점으로 보고 있다. 성능과 비용이라는 핵심 제약 요인을 동시에 완화하면서 영상 분석·콘텐츠 제작·자율주행 등 다양한 산업 영역으로의 확산 가능성을 높였다는 평가다. 업계 관계자는 "샘 3.1은 비전 AI를 실험 단계에서 실제 서비스 단계로 끌어올린 모델"이라며 "향후 경쟁은 기술 자체보다 이를 얼마나 빠르게 산업과 플랫폼에 적용하느냐에 달려 있다"고 말했다.

2026.03.31 17:43장유미 기자

카카오, 'APEC 2025 KOREA 글로벌'서 AI 기술력 뽐낸다

카카오가 글로벌 행사를 통해 AI 기술을 소개한다. 카카오(대표 정신아)는 5일 개최되는 '아시아태평양경제협력체(이하 APEC) 2025 코리아 글로벌 디지털·AI 포럼 및 기업 전시'에 참여한다고 밝혔다. APEC 디지털·AI 장관회의의 부대행사로 개최되는 이번 포럼은 인천 송도 쉐라톤 그랜드호텔에서 열린다. 포럼장 외부에서 진행되는 기업 전시에는 카카오를 비롯해 국내외 IT 기업 총 10여 곳이 참가한다. 카카오는 행사장에 마련된 기업 전시 부스에서 자체 개발한 ▲경량 멀티모달 언어모델 'Kanana-1.5-v-3b'과 ▲AI 가드레일 모델 'Kanana Safeguard(카나나 세이프가드) 2종을 소개한다. 시연 공간을 통해 모델의 기능과 특징을 체험해 볼 수 있다. 지난달 24일 오픈소스로 공개한 'Kanana-1.5-v-3b'은 텍스트 뿐 아니라 이미지 정보도 처리할 수 있는 경량 멀티모달 언어모델이다. 질문 의도를 정확히 이해하는 높은 지시 이행 성능과 뛰어난 한국어·영어 이미지 이해 능력을 보유하고 있다. 이용자가 장소에 대한 사진을 첨부하며 "이 사진이 촬영된 장소를 간단히 설명해줘"라고 질문 시 "이 사진은 서울 광화문 일대를 배경으로 하고 있습니다"와 같이 국내 지역 정보 등 한국 문화 대한 높은 인식력을 토대로 정확한 답변을 제공한다. 카카오는 여러 종류의 멀티모달 언어모델을 통해 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI의 연구·개발에 집중하고 있다. AI 서비스의 안전성과 신뢰성을 검증할 수 있는 AI 가드레일 모델 '카나나 세이프가드'는 카카오가 자체 개발한 언어모델을 기반 기술로 사용했다. 한국어 및 한국 문화를 반영한 자체 구축 데이터셋을 활용해 한국어에 특화된 성능을 보유하고 있다. 총 세 가지의 모델로 구성되며, 리스크의 유형에 따라 유해성 및 위험성에 대한 효과적 탐지가 가능하다. 카나나 세이프가드는 다양한 생성형 AI 서비스의 확산 속에 유해 콘텐츠 등 위험 요소들을 방어할 수 있는 기술적·제도적 장치다. 지난 5월 생태계에 기여를 위해 오픈소스로 공개한 바 있다. 이날 포럼의 별도 이벤트로 글로벌 빅테크 기업 메타가 개최한 세션에는 카카오 김경훈 AI Safety 리더가 패널토론의 연사로 참여해 오픈소스 AI의 가치에 대한 주제로 논의를 진행했다. 세션에는 메타, 오픈소스 비영리 단체 리눅스 재단, KISTI도 참석했다. 카카오 관계자는 "전시 공간을 통해 카카오가 구축한 AI 기술 개발 현황을 직접 경험해 볼 수 있는 계기를 마련하고자 했다"며 "앞으로도 AI 기술 개발을 토대로 국내 AI 생태계 활성화와 경쟁력 확보를 위해 노력해 갈 것"이라고 말했다.

2025.08.05 11:30백봉삼 기자