검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'영상 모델'통합검색 결과 입니다. (6건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

국방 AX 힘 싣는 네이버클라우드…"2030년 전군 AI 에이전트 확산"

네이버클라우드가 국방 환경에 최적화된 경량 옴니모달 인공지능(AI) 모델을 공개하며 국방 AI 시장 공략에 박차를 가한다. 드론·전술차량·무인체계 등 제한된 컴퓨팅 환경에서도 실시간으로 영상·음성·문서를 분석할 수 있는 AI 모델을 앞세워 국방 AI 풀스택 전략을 강화하고 2030년까지 국방 전 영역 AI 전환(AX)을 추진한다는 목표다. 네이버클라우드는 지난 10~12일 제주에서 열린 '2026 한국군사과학기술학회 종합학술대회'에서 자체 개발한 경량 옴니모달 모델 '하이퍼클로바X 시드 4B'를 공개했다고 15일 밝혔다. 최근 국방 분야에선 드론 영상과 위성사진, 무전 음성, 작전 문서 등 다양한 정보를 실시간으로 분석해 의사결정에 활용하는 수요가 늘고 있다. 이에 텍스트뿐 아니라 이미지·영상·음성까지 동시에 이해할 수 있는 옴니모달 AI가 차세대 국방 핵심 기술로 주목받고 있다. 네이버클라우드가 공개한 하이퍼클로바X 시드 4B는 국방 환경에 최적화된 경량 옴니모달 모델이다. 자체 개발한 비전 인코더 '하이퍼클로바X 클립'과 오디오 인코더를 적용해 다양한 형태의 데이터를 동시에 처리할 수 있도록 설계됐다. 또 한글 문서를 포함한 한국어 중심 데이터를 학습해 국내 국방 환경에 적합한 이해 능력을 확보했다는 게 회사 측 설명이다. 특히 이번 모델은 드론·무인체계·전술차량 등 엣지 환경에서 활용할 수 있도록 경량화에 중점을 뒀다. 기존 8B급 대규모언어모델(LLM) 백본을 '프루닝'과 '지식 증류' 기술로 최적화해 모델 크기를 절반 수준으로 줄이는 동시에 성능은 향상시켰다. 제한된 연산 환경에서도 저지연 추론이 가능하도록 구현한 것으로 평가된다. 하이퍼클로바X 시드 4B는 드론 및 해안 감시 영상 기반 객체 탐지와 위성사진 변화 분석, 사격장·생활관 위험요소 식별, 군용 장비 자동 인식, 전장 지도 분석 등에도 활용할 수 있다. 네이버클라우드는 향후 정보·감시·정찰(ISR) 자동화와 설명 가능한 무인체계, 통합 상황 인식 체계 등 다양한 국방 분야에 적용한다는 방침이다. 회사는 이번 행사에서 국방 AI 풀스택 전략도 함께 소개했다. 국방 분야 특성상 데이터 보안과 통제권 확보가 중요한 만큼 인프라와 머신러닝 운영(MLOps), LLM, AI 에이전트를 폐쇄망 환경에서 직접 운영할 수 있는 소버린 AI 체계를 핵심 비전으로 제시했다. 네이버클라우드는 올해 국방 AX 기반을 구축하고 관련 사업 참여를 확대하는 한편, 장기적으로 국방 전 영역에 AI 에이전트를 적용해 자율형 작전 지원 체계를 고도화한다는 계획이다. 국방 AI 경쟁이 개별 모델 개발을 넘어 데이터·인프라·플랫폼, 보안을 아우르는 AI 풀스택 구축 경쟁으로 확대되는 가운데, 자체 AI 모델과 클라우드 인프라를 기반으로 국방 시장 공략을 강화하는 모습이다. 네이버클라우드 측은 "올해 국방 AX를 위한 기반을 구축하고 국방 관련 다양한 사업에 참여한 후 2030년까지 국방 전 영역에 AI 에이전트를 확산할 것"이라며 "자율형 작전 지원 체계 고도화를 통해 국방 전 영역의 AX를 단계적으로 완성할 계획"이라고 밝혔다.

2026.06.15 09:58한정호 기자

트웰브랩스, 차세대 영상 이해 모델 '마렝고 3.0' 공개…"업계 최고 수준"

트웰브랩스가 영상 속 장면의 텍스트·음성·움직임·상황 맥락을 통합적으로 이해하는 인공지능(AI)을 선보인다. 트웰브랩스는 차세대 영상 AI 파운데이션 모델 '마렝고 3.0'을 공식 출시했다고 2일 밝혔다. 마렝고 3.0은 영상 속 대사와 몇 분 후에 등장하는 동작을 연결해 해석하고 사물·행동·감정·상황 변화를 시간의 흐름에 따라 추적하는 등 인간에 가까운 수준의 영상 이해 능력을 구현한다. 특히 이미지와 텍스트를 동시에 검색할 수 있는 '복합 이미지 검색' 기능과 사람이나 제품을 별도로 등록해 찾아볼 수 있는 '고유명사 검색' 기능도 도입됐다. 이번 모델은 36개 언어를 지원해 글로벌 기업 환경에서도 안정적으로 활용할 수 있다. 또 스토리지 비용 50% 절감, 인덱싱 속도 2배 향상 등의 효율성 개선도 확인했다는 게 트웰브랩스 측 설명이다. 마렝고 3.0은 기존 프레임 기반 분석이나 이미지·오디오 모델의 단순 조합 방식에서 벗어나 영상 이해를 위해 처음부터 설계된 네이티브 파운데이션 구조를 갖췄다. 영상 전체를 시간·공간적으로 해석하는 방식이다. 장면 간의 연속성과 맥락을 자연스럽게 파악하며 스포츠·미디어·엔터테인먼트·광고 등 고난도 콘텐츠에 대한 이해 능력이 대폭 강화된 것이다. 공공·보안 등의 영상 분석 환경에서도 높은 정확도를 보인다. 마렝고 3.0은 다양한 산업 현장에서 즉시 활용 가능하다. 프로 스포츠 리그에서는 특정 선수의 득점 장면이나 결정적 플레이만을 즉시 검색해서 찾아내 하이라이트를 빠르게 제작할 수 있으며 경기 분석 효율 향상을 지원한다. 방송·포스트 프로덕션 분야에서는 수십 년치 아카이브에서 특정 유명인의 얼굴을 '고유명사'로 등록해 원하는 행동을 하는 장면을 몇 초 만에 찾아낼 수 있다. 공공보안 쪽에서는 CCTV 영상 전체를 몇시간씩 볼 필요 없이 빠르게 원하는 장면만을 정확하게 찾아낼 수 있다. 이커머스 분야에서도 브랜드, 제품 혹은 호스트가 언제 등장하고 어떤 행동을 하고 있는지 원하는대로 즉시 검색해 볼 수 있다. 이재성 트웰브랩스 대표는 "전 세계 디지털 데이터의 90%가 영상인데 사람이 직접 분석하기에 너무 오래 걸리고 기존 기술로는 모든 것을 파악하기가 어려워 그동안 대부분 제대로 활용되지 못했다"며 "이 문제를 해결하는 것이 우리의 목표"라고 말했다. 이어 "마렝고 3.0은 그동안 영상 이해 기술이 가졌던 한계를 완전히 뛰어넘는 모델로, 기업과 개발자에게 기존과 다른 혁신적인 기준을 제시할 것"이라고 덧붙였다. AWS 니샨트 메타 AI 인프라 부문 부사장은 "트웰브랩스의 영상 이해 기술은 그동안 수작업 중심이었던 영상 분석 프로세스에 전례 없는 속도와 효율성을 제공하며 산업 전반의 혁신을 이끌고 있다"며 "마렝고와 페가수스 모델이 아마존 베드록에서 큰 성과를 거둔 데 이어, 마렝고 3.0은 세계 최고 수준의 영상 이해 능력을 필요로 하는 고객들에게 최적의 솔루션이 될 것으로 기대한다"고 강조했다.

2025.12.02 17:51한정호 기자

노타, KISA 지능형 CCTV 성능 인증 획득…AI 영상 관제 상용화 '가속'

노타가 인공지능(AI) 영상 분석 기술의 신뢰성과 완성도를 공식적으로 입증했다. 노타는 한국인터넷진흥원(KISA)이 주관한 지능형 CCTV 성능시험·인증 4개 부문(배회·침입·쓰러짐·유기)을 통과했다고 6일 밝혔다. KISA 지능형 CCTV 성능시험·인증 제도는 AI 영상 분석 기술의 객체 탐지 정확도, 행위 인식 성능, 환경 적응성 등을 종합적으로 검증하는 공신력 있는 평가 제도다. 노타는 4개 부문 평가에서 평균 95점의 높은 성적을 기록하며 자사 영상 분석 기술이 산업·공공·교통 등 다양한 실제 환경에서 안정적이고 신뢰성 있게 작동할 수 있음을 공식적으로 확인받았다. 인증을 획득한 노타의 '노타 비전 에이전트(NVA)'는 비전언어모델(VLM)을 기반으로 영상 속 객체 간의 관계와 상황의 맥락을 이해해 위험을 정밀하게 감지하고 대응할 수 있는 영상 관제 솔루션이다. 특히 노타의 독자적인 AI 모델 경량화·최적화 기술을 적용해 대규모 인프라나 네트워크 제약이 있는 현장에서도 실시간으로 정밀한 분석이 가능한 것이 특징이다. 노타는 지난 8월 코오롱인더스트리 김천2공장에 NVA를 도입하며 국내 최초로 VLM 기반 영상 관제 솔루션의 상용화를 실현했다. 이후 제조·건설·교통·공공안전 등 다양한 산업 분야로 적용 영역을 확대하고 있다. 두바이 도로교통국(RTA)과도 협력해 교통사고를 자동 인식·보고하고 상황별 대응을 제안하는 에이전트형 교통 관리 시스템을 선보일 예정이다. 또 교통·제조·안전 등 NVA 수요가 높은 동남아 시장 진출에도 속도를 내며 글로벌 시장 다각화를 추진하고 있다. 채명수 노타 대표는 "이번 KISA 인증은 노타의 AI 영상 관제 기술이 공인된 수준의 신뢰성과 완성도를 갖췄음을 입증한 결과"라며 "앞으로도 산업·교통·공공안전 등 다양한 분야에서 영상 AI 기술의 표준을 제시하고 실질적인 사고 예방과 인명 보호를 통해 사회 안전망 구축에 기여하겠다"고 말했다. 이어 "AI가 현실 공간의 상황을 인식하고 대응하는 피지컬 AI 시대가 빠르게 다가오고 있는 만큼, 생성형 AI 영상 관제 기술을 중심으로 이러한 산업적 변화 속에서 새로운 가치를 만들어가며 혁신을 선도해 나가겠다"고 덧붙였다.

2025.11.06 17:09한정호 기자

"텍스트만으로 뮤직비디오 완성"…구글 클라우드, '비오 3'로 영상 제작 혁신

구글 클라우드가 텍스트 명령만으로 고품질 영상을 생성하는 차세대 인공지능(AI) 동영상 생성 모델 '비오 3'를 앞세워 콘텐츠 제작 혁신을 주도한다. 구글 클라우드는 비오 3를 도입한 국내 기업들의 성공 사례를 29일 공개했다. 비오 3는 구글 딥마인드의 기술을 기반으로 세밀한 스타일 제어와 고해상도 영상 생성이 가능한 AI 모델이다. 기존 영상 제작에 수개월이 걸리던 작업을 단 며칠 내로 단축할 수 있어 국내 미디어·엔터테인먼트 업계에서 창작 효율의 게임체인저로 평가받고 있다. 타이거 JK가 이끄는 힙합 레이블 필굿뮤직은 구글 클라우드, GS네오텍과 협력해 드렁큰 타이거의 곡 '끄덕이는 노래' 뮤직비디오를 비오 3로 제작했다. 복잡한 시각효과와 3D 연출을 텍스트 프롬프트로 구현하며 기존 수개월 걸리던 프로세스를 단 2주 만에 완성했다. 필굿뮤직 한상범 감독은 "비오 3는 아티스트의 음악적 비전을 효율적으로 시각화하는 강력한 도구"라며 "AI의 시각화 능력과 인간의 창의적 디렉팅을 결합해 새로운 예술적 가능성을 실현하고 있다"고 말했다. SM엔터테인먼트 자회사 스튜디오리얼라이브는 비오 3 기술을 활용한 AI 영화 제작 도구 '플로우'로 신곡 '리치 맨' 뮤직비디오를 공개했다. 해당 영상은 현실과 상상을 넘나드는 몰입형 비주얼을 구현해 글로벌 팬덤의 호평을 받았다. 스튜디오리얼라이브는 비오 2 베타 버전부터 구글 클라우드 및 구글 딥마인드와 협업을 이어왔으며 자체 AI 에이전트를 구축해 기획부터 영상 제작까지 전 과정에 AI를 접목하고 있다. 이승우 스튜디오리얼라이브 대표는 "케이팝 IP와 팬들이 더 깊이 연결될 수 있도록 생성형 AI를 적극 도입 중"이라며 "구글 클라우드와 협력해 차세대 콘텐츠 혁신을 주도하겠다"고 밝혔다. 패러닷의 생성형 AI 서비스 캐럿은 구글 클라우드의 '버텍스 AI' 플랫폼 기반으로 제미나이 언어 모델과 비오 3를 결합해 영상 기획부터 제작까지 자동화했다. 사용자가 영상 목적을 입력하면 제미나이가 이를 분석해 비오 3에 최적의 프롬프트를 생성하고 결과물은 즉시 렌더링된다. 장진욱 패러닷 대표는 "캐럿은 비오 3를 통해 누구나 전문적인 영상 제작 경험 없이도 고품질 콘텐츠를 손쉽게 만들 수 있도록 돕는다"며 "향후 새 AI 모델을 빠르게 도입해 누구에게나 쉽고 편리한 창작 환경을 제공할 것"이라고 말했다. 지기성 구글 클라우드 코리아 사장은 "비오 3는 콘텐츠 제작 전반에서 영상 제작의 장벽을 혁신적으로 낮추며 전문적인 수준의 영상을 빠르게 제작할 수 있는 강력한 도구로, 제작 프로세스의 효율성을 향상하고 창작자에게 더 많은 상상력과 가능성을 현실화할 수 있는 기회를 제공한다"고 강조했다. 이어 "비오 3를 통해 국내 미디어 및 엔터테인먼트 기업들이 차세대 콘텐츠 혁신을 주도하고 크리에이티브 경쟁력을 강화할 수 있도록 적극 협력할 것"이라고 덧붙였다.

2025.10.29 16:48한정호 기자

머스크 xAI, '월드 모델' 개발 착수…AI가 직접 게임 만든다

일론 머스크가 이끄는 xAI가 물리적 공간을 인지하고 설계할 수 있는 차세대 인공지능(AI) '월드 모델' 개발에 나선다. 13일 파이낸셜타임스(FT)에 따르면 xAI는 텍스트 기반 언어모델을 넘어 영상·로봇 데이터를 학습한 AI 기술을 활용해 직접 만든 게임을 내년 공개할 계획이다. 월드 모델은 메타와 구글 등 주요 빅테크가 집중하는 차세대 AI 기술로, 물리적 공간을 이해하고 시뮬레이션하는 능력을 구현하는 것이 목표다. 앞서 xAI는 엔비디아 출신 전문가들을 다수 영입해 영상과 로봇 데이터를 기반으로 실제 환경을 학습하는 AI 모델 개발을 진행 중이다. 특히 이 기술을 활용해 상호작용 가능한 3D 게임 환경을 자동 생성하는 등 게임 산업 적용을 목표로 하고 있으며 향후 로봇 제어 시스템에도 응용할 계획이다. 일론 머스크 xAI 대표는 자사 SNS 플랫폼 X를 통해 "내년 말까지 AI가 직접 생성한 게임을 선보일 것"이라고 밝혔으며 최근 대규모 업그레이드를 거친 이미지·영상 생성 모델을 무료로 공개하기도 했다. 현재 오픈AI의 '소라'와 같은 영상 생성 AI는 학습 데이터를 기반으로 연속된 이미지 프레임을 예측하는 수준이다. 이에 반해 월드 모델은 물리 법칙과 사물 간 상호작용을 실시간으로 이해해 훨씬 높은 수준의 현실 시뮬레이션을 가능케 하는 것으로 알려졌다. xAI는 이미지·비디오 생성 엔지니어를 포함해 다양한 멀티모달 콘텐츠 제작 인력을 모집 중이다. 특히 자사 AI 챗봇 '그록'에게 게임 제작을 학습시키는 업무 담당자도 채용하고 있다. xAI를 비롯한 구글·메타 등이 월드 모델 개발에 집중하는 가운데, 업계에서는 실제 세계를 묘사할 데이터 확보와 막대한 비용 문제 해결을 주요 과제로 꼽고 있다. 라리안 스튜디오의 마이클 다우스 퍼블리싱 총괄은 "AI가 게임 산업의 가장 큰 문제인 리더십과 비전을 해결해 주진 못한다"며 "수학적으로 계산된 게임 루프보다 사람들이 진심으로 몰입하고 싶어 하는 세계를 표현하는 것이 더 중요하다"고 말했다.

2025.10.13 14:43한정호 기자

구글, 생성형 AI 영상툴 '비오 3' 세계 출시…오디오까지 붙는 영상 제작

구글이 생성형 인공지능(AI) 영상 모델 '비오 3(Veo3)'를 전세계에 출시하면서 영상 제작의 진입장벽을 대폭 낮추는 기술 확장을 본격화했다. 4일 테크크런치에 따르면 구글은 '비오 3'를 이달부터 159개국 이상에서 제미나이 사용자에게 순차적으로 적용 중이다. 이 모델은 최대 8초 길이의 동영상을 생성할 수 있으며 텍스트 입력만으로 영상과 소리를 동시에 만들어준다. '비오 3'는 지난 5월 공개 당시에도 영상 품질과 프레임 전환 자연도에서 높은 평가를 받았지만 이번 세계 출시를 통해 음성까지 생성하는 '네이티브 오디오' 기능이 정식 반영됐다. 동영상 한 편 안에 장면, 움직임, 사운드를 모두 구현하는 생성형 AI는 시장 내에서도 제한된 기술로 꼽힌다. 사용자는 단순한 글을 입력하거나 캐릭터, 사물, 상황 등을 설명하는 방식만으로 애니메이션, 밈, 스토리보드 등을 즉시 생성할 수 있다. 콘텐츠 제작 초기 단계인 콘셉트 시안, 브레인스토밍, 프로토타입 영상 제작에도 유용하다. 생성 과정은 전부 '제미나이' 플랫폼 안에서 이뤄진다. 요금제에 따라 기능과 품질도 차등화된다. 'AI 프로'는 신속한 속도와 기본 품질에 중점을 두며 'AI 울트라'는 고화질 영상과 더 정교한 오디오까지 포함하는 최상위 옵션이다. 두 요금제 모두 인터넷 연결과 일정 기준의 사용자 조건을 충족해야 이용 가능하다. 또 구글은 '비오 3'에 이미지 기반 입력 기능도 곧 도입할 예정이다. 텍스트뿐 아니라 이미지를 활용해 영상으로 전환하는 기능은 현재 개발 중이며 향후 제미나이 업데이트를 통해 반영될 계획이다. 영상 제작을 위한 입력 방식 다변화를 통해 더 직관적인 창작 흐름을 노리는 것으로 풀이된다. 현재 '제미나이'에는 '비오 3 패스트'라는 경량 모델도 함께 제공되고 있다. 이는 상대적으로 짧은 시간 안에 빠르게 결과물을 확인할 수 있도록 최적화된 버전으로, 복잡한 품질 조정이나 고해상도 출력은 '울트라' 요금제 전용 기능으로 분리돼 있다. 조쉬 우드워드 구글 제미나이 담당은 "현재 이미지 기반 비디오 생성 기능도 '제미나이'에 추가하는 작업을 진행 중"이라고 밝혔다.

2025.07.04 09:23조이환 기자