검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'멀티모달'통합검색 결과 입니다. (31건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

멀티모달 AI가 더 정확한 이유, 수학적으로 풀어보니…

당연한 얘기 같지만, 멀티모달 인공지능(AI)은 한 종류 데이터만 학습한 AI보다 더 정확하다. 그러나 이게 왜 그런지, 수학적으로 설명하는 연구결과는 없었다. UNIST는 윤성환 인공지능대학원 교수팀이 이를 '손실 지형' 평탄화 관점으로 규명했다고 28일 밝혔다. 멀티모달 학습은 이미지, 음성, 텍스트처럼 서로 다른 '모달리티' 데이터를 함께 활용하기 때문에 보통의 AI보다 대상이나 상황 인식이 더 뛰어난 학습 방식이다. 연구팀에 따르면, 음성이나 이미지와 같은 여러 모달리티 데이터를 함께 학습하는 경우 '손실 지형'이 더 평탄해져 학습 과정에서 배우지 못한 상황에 대응하는 능력인 '강건성'이 향상된다. '손실 지형'은 AI 모델 학습 오차가 모델 파라미터에 따라 어떻게 변하는지를 지형처럼 나타내는 것을 말한다. 손실지형이 날카로우면, 성능이 크게 흔들릴 수 있다. 반면 넓고 평탄하게 나타나면, 데이터나 잡음에 상대적으로 안정적인 성능을 유지한다. 연구팀은 멀티모달 학습이 '손실지형'을 평탄화하는 이유를 '합성곱 스무딩 효과' 발생으로 설명했다. 서로 다른 모달리티 정보가 학습 과정에서 다양한 변화를 제공하면서 '손실지형'의 급격한 굴곡을 완화하는 이론으로 설명한 것. 윤성환 교수는 "멀티모달 학습 손실함수가 단일 모달리티 손실 함수에 다른 모달리티 데이터 분포를 합성곱한 형태로 표현될 수 있음을 이론적으로 밝힌 것"이라고 설명했다. 연구팀은 또 멀티모달 손실 지형의 최대 곡률이 단일 모달리티보다 커지지 않으며, 주파수 관점에서도 불규칙한 고주파 성분이 감소한다는 사실도 증명했다. 이는 멀티모달 학습이 별도의 평탄화 기법 없이도 모델을 더 완만하고 안정적인 손실 지형으로 유도할 수 있음을 의미한다. 연구팀은 이같은 연구를 바탕으로 분포적 멀티모달 학습(DML) 방법을 제안했다. 기존 방식이 정확하게 대응하는 이미지와 문장, 영상과 음성만을 고정된 쌍으로 사용했다면, DML은 동일한 정답이나 의미를 공유하는 샘플들 사이에서 서로 다른 모달리티를 확률적으로 다시 조합한다. 제1저자인 이재준 연구원은 DML 성능개선에 대한 질문에, 메일로 "4개 데이터 셋(Kinetic-Sounds, AVMNIST, CREMA-D, UPMCFood101) 정확도가 0.58~2.94% 개선됐다"며 "외부 변화에 안정적인 특성을 측정하는 정량적 방법으로 최대 헤시안 고유값과 저주파 통과 필터 손실함수로 측정했다"고 설명했다. 윤성환 교수는 “향후 데이터를 보다 효율적으로 활용하면서도, 외부 노이즈나 교란에도 흔들림 없이 안정적으로 작동하는 강건한 AI를 설계하는 중요한 기반 기술이 될 것”이라고 말했다.

2026.06.28 12:15박희범 기자

와이즈넛, 멀티모달 '와이즈 로아 울트라' 공개…산업 현장 AI 공략

와이즈넛이 인공지능(AI) 에이전트 사업 확대를 위해 멀티모달 기반 제품군을 추가했다. 와이즈넛은 멀티모달 기능을 강화한 '와이즈 로아 울트라'를 새롭게 선보이고 기존 '와이즈 로아' 라인업을 4단계로 확대했다고 4일 밝혔다. 이는 지난해 모델 출시에 이어 올해 멀티모달 형태로 출시된 첫 제품군이다. 와이즈 로아 울트라는 이미지·영상 데이터 분석과 시각 객체 인식, 동적 맥락 추론을 지원하는 최상위 모델이다. 산업 현장에서 발생하는 문서와 이미지, 영상, 설비 화면 등 다양한 비정형 데이터를 함께 이해하도록 설계됐다. 와이즈넛은 기존 와이즈 로아를 업무 복잡도와 데이터 규모, 운영 환경에 따라 선택할 수 있는 구조로 운영해 왔다. 기본형 AI 응답 중심 '코어', 업무 자동화와 고도화 응답 중심의 '프로', 심층 추론과 대용량 데이터 분석 중심의 '맥스'가 기존 라인업이다. 이번 울트라 추가로 와이즈넛은 와이즈 로아 라인업을 4단계로 완비했다. 이를 기반으로 단순 질의응답형 AI를 넘어 실제 업무 수행에 활용되는 AI 에이전트 공급 체계를 넓힐 계획이다. 와이즈넛은 와이즈 로아를 자사 AI 에이전트 플랫폼과 검색증강생성(RAG) 솔루션에 연계할 방침이다. 실제 업무 환경에서 안정적으로 운영 가능한 도메인 특화 AI 에이전트를 공공·산업안전·제조·금융 분야에 공급하는 데 속도를 낸다는 구상이다. 강용성 와이즈넛 대표는 "기업 AI 시장은 단순히 더 똑똑한 모델 경쟁을 넘어, 실제 업무 환경에서 얼마나 안정적으로 운영되고 다양한 데이터를 이해할 수 있는지가 핵심"이라며 "와이즈 로아 울트라는 텍스트를 넘어 산업 현장의 다각적인 데이터를 이해하고 실행하는 AI 에이전트로 도약하기 위한 중요한 단계"라고 강조했다.

2026.06.04 17:04김미정 기자

인디제이, 로봇에 '눈치' 가르치는 'CORE 엔진' 아키텍처 업데이트

글로벌 감성 AI 스타트업 인디제이는 피지컬 AI 시대를 겨냥한 멀티모달 감성지능 아키텍처 'CORE(Contextual Omni-modal Reasoning Engine) 엔진'의 전체 설계 업데이트를 완료했다고 8일 밝혔다. 인디제이의 CORE 엔진은 음성·텍스트·표정·생체신호 등 총 7개 모달리티를 통합적으로 반영할 수 있도록 설계된 멀티모달 아키텍처다. 전체 구조는 다층 레이어로 구성된다. 센서 계층에서 원시 데이터를 수집한 뒤 모달별 전문 인코더가 감정 관련 특징을 추출하고 감정 변화 흐름을 추적하도록 설계됐다. 인디제이는 CORE 엔진에 '불일치 보존(Dissonance Preservation)' 개념을 반영했다. 인디제이 관계자는 “멀티모달 신호를 단순 평균하거나 하나의 결과로 환원하는 대신, 예를 들어 '괜찮다'고 말하지만 목소리 떨림이나 표정의 긴장이 감지되는 상황처럼 감정 표현이 불일치하는 것 자체를 중요한 해석 단서로 다루는 접근”이라고 설명했다. 이 관계자는 “불일치 보존 개념을 통해 인간이 상대의 미세한 분위기와 숨은 맥락을 읽어 내는 이른바 '눈치'에 가까운 AI 상호작용 구현 가능성을 높인다”고 덧붙였다. CORE 엔진은 또 인간의 기억 구조를 모사한 '눈치-RAG 메모리 스택'을 포함한다. 인간 기억의 다층 메모리 구조와 스키마리스 지식그래프(SKG)를 결합해, 반복 상호작용 과정에서 사용자 성향과 반응 패턴을 맥락적으로 반영할 수 있도록 설계했다. 이를 통해 향후 개인화된 상호작용, 상황 적응형 응답, 장기 맥락 기반 서비스 고도화를 추진할 계획이다. 인디제이는 특히 CORE 엔진이 차량용 AI 인포테인먼트·헬스케어·제조 현장·로보틱스 등 피지컬 AI가 실제 사람과 접점에서 작동하는 산업 전반에 적용될 수 있다고 보고 있다. 센서 계층 단계에서부터 촉각·근접 기반 입력까지 고려한 구조를 반영해, 향후 로봇과 디바이스가 사람 상태를 더욱 정교하게 이해하고 반응하는 기반 기술로 확장성을 확보한다는 전략이다. 정우주 인디제이 대표는 “피지컬 AI 시대에는 단순히 움직이는 기계가 아니라, 사람 감정과 상황을 이해하고 이에 맞춰 반응하는 지능이 중요해질 것”이라며 “CORE 엔진은 인디제이가 강점을 가져온 감성인지·맥락 이해·기억 기반 개인화를 피지컬 AI 환경으로 확장하기 위한 핵심 아키텍처”라고 말했다. 정 대표는 이어 “2026년 하반기 협력사와의 검증을 목표로 업데이트를 진행하고 있으며, 차량용 AI 인포테인먼트를 시작으로 의료·제조·로보틱스 분야까지 단계적으로 확장해 나갈 계획”이라고 밝혔다. 한편, 인디제이는 다수의 글로벌 자동차 회사와 SDV 회사, 차량용 AI 에이전트 PoC를 진행 중이며, 감성지능 기반 AI 기술의 상용화와 고도화를 추진하고 있다. 또 정부의 에이전틱 AI 및 산업 AI 관련 연구개발 과제 참여도 준비하며, 기술 신뢰도와 시장성을 함께 강화해 나간다는 방침이다.

2026.04.08 22:03주문정 기자

[AI는 지금] '샘 3.1' 꺼낸 메타, 멀티모달 승부수…비전 AI '속도·비용' 장벽 낮췄다

메타가 차세대 비전 인공지능(AI) 모델 '샘(SAM) 3.1'을 공개하며 멀티모달 경쟁에서 기술 주도권 확보에 속도를 내고 있다. 영상 처리 속도와 효율성을 동시에 개선하며 그동안 높은 비용과 지연 문제로 제한됐던 비전 AI의 상용화 가능성을 한층 끌어올린 모습이다. 31일 업계에 따르면 메타 AI는 지난 27일 공식 블로그를 통해 이미지·영상 이해 모델 '샘 3(SAM 3, Segment Anything Model 3)'의 업그레이드 버전인 '샘 3.1'을 발표했다. 이번 모델은 객체를 동시에 처리하는 '멀티플렉싱(object multiplexing)' 구조를 도입해 기존 대비 연산 효율을 크게 개선한 것이 특징이다. 기존 모델이 객체별로 개별 연산을 수행했던 것과 달리 샘 3.1은 최대 16개 객체를 한 번의 연산으로 처리할 수 있다. 이를 통해 중복 계산을 제거하고 메모리 사용을 최적화하면서 영상 처리 속도를 기존 대비 두 배 수준으로 끌어올렸다. 단일 H100 그래픽처리장치(GPU) 기준 초당 32프레임 처리 성능을 구현하며 복잡한 장면에서도 실시간 객체 추적이 가능해졌다. 연산 구조 개선은 비용 측면에서도 의미가 크다. 동일한 작업을 더 적은 자원으로 수행할 수 있어 GPU 인프라 부담을 낮출 수 있기 때문이다. 업계에선 이를 두고 비전 AI가 연구·실험 단계에서 실제 서비스 적용 단계로 넘어가는 전환점으로 보고 있다. 샘 3 계열은 텍스트, 이미지, 시각적 프롬프트를 결합해 객체 탐지와 세분화, 추적을 동시에 수행하는 통합형 모델이다. 특히 사전 정의된 범주에 제한되지 않는 '오픈 보캐뷸러리' 방식으로 다양한 개념을 인식할 수 있어 활용 범위가 넓다. 메타는 해당 기술을 자사 서비스에 빠르게 적용하고 있다. 인스타그램 영상 편집 기능에선 특정 인물이나 객체에 효과를 적용하는 기능이 도입될 예정이다. 메타 AI 플랫폼과 웹 서비스에서도 영상 생성 및 편집 기능이 확대되고 있다. 페이스북 마켓플레이스에서는 샘 3 기반 기술과 3D 복원 모델인 샘 3D를 활용해 가구를 가상 공간에 배치해보는 기능도 제공 중이다. 이번 발표는 멀티모달 AI 경쟁이 본격화되는 흐름과 맞물린다. 최근 AI 산업은 텍스트 중심에서 이미지와 영상, 음성까지 확장되며 복합 데이터를 동시에 이해하고 처리하는 능력이 핵심 경쟁력으로 부상하고 있다. 메타는 이미지 생성 중심 경쟁과 달리 시각 정보를 분석하고 추적하는 '이해 영역'에서 차별화 전략을 강화하는 모습이다. 다만 과제도 남아 있다. 의료·과학 등 전문 영역의 세밀한 개념 인식에는 추가 학습이 필요하며 복잡한 문장 기반 요청 처리 역시 제한적인 수준이다. 영상 처리 과정에서 객체 수 증가에 따라 연산 비용이 함께 늘어나는 구조 역시 향후 개선이 요구되는 부분으로 지적된다. 업계에선 이번 샘 3.1 공개를 비전 AI 상용화의 분기점으로 보고 있다. 성능과 비용이라는 핵심 제약 요인을 동시에 완화하면서 영상 분석·콘텐츠 제작·자율주행 등 다양한 산업 영역으로의 확산 가능성을 높였다는 평가다. 업계 관계자는 "샘 3.1은 비전 AI를 실험 단계에서 실제 서비스 단계로 끌어올린 모델"이라며 "향후 경쟁은 기술 자체보다 이를 얼마나 빠르게 산업과 플랫폼에 적용하느냐에 달려 있다"고 말했다.

2026.03.31 17:43장유미 기자

알리바바 AI '큐원' 프로젝트 리더 하차…AI 경쟁 속 리더 공백 우려

알리바바의 오픈소스 AI 프로젝트 '큐원(Qwen)'을 이끌던 핵심 기술 리더가 차세대 모델인 큐원 3.5 공개 직후 프로젝트에서 물러난다고 밝혔다. 4일(현지시간) 린쥔양 알리바바 수석 알고리즘 엔지니어 겸 큐원 기술총괄은 소셜플랫폼 엑스(X)를 통해 프로젝트에서 물러난다고 밝혔다. 다만 알리바바 퇴사 여부나 보직 변경 여부는 공식적으로 확인되지 않았다. 린쥔양 기술총괄은 2019년 알리바바에 합류해 자연어처리와 멀티모달 연구를 담당했다. 이후 수석 알고리즘 엔지니어를 거쳐 2023년부터 큐원팀의 공식 기술총괄을 맡았다. 그는 대규모 혼합전문가(MoE) 모델 'M6', ICML 2022에서 발표된 멀티모달 사전학습 모델 'OFA', 중국어 비전-언어 모델 '차이니즈 클립(Chinese-CLIP)' 등 주요 프로젝트의 핵심 개발자다. 차이니즈 클립은 깃허브에서 별 2천 개 이상을 기록하며 중국어 멀티모달 모델의 대표 사례로 자리 잡았다. 연구 영향력도 두드러진다. 구글 스칼라 기준 린의 논문 인용 수는 4만2000 회를 넘어섰다. 이 가운데 큐원3 기술 보고서만 약 9천 회 인용됐다. 모델 기술 보고서로는 이례적으로 높은 수치다. 큐원 프로젝트가 단순 상용 모델을 넘어 학술·연구 생태계와 긴밀히 연결돼 있음을 보여준다. 큐원은 2023년 4월 베타 공개 이후 같은 해 9월 정식 공개됐다. 초기 70억 개 매개변수 언어모델에서 출발해, 비전-언어 모델(Qwen-VL), 오디오 모델, 수학 특화 모델, 코드 생성 모델, 추론 특화 모델(QwQ 시리즈) 등으로 빠르게 확장됐다. 지난해 4월 공개된 큐원3 기준 누적 다운로드는 6억 회를 넘겼고 허깅페이스 등록 파생 모델은 17만 개 이상을 기록했다. 이는 동일 기준에서 메타의 '라마(Llama)'를 상회하는 수치로 평가된다. 포춘은 이러한 오픈소스 성과를 근거로 2025년 '세상을 바꾸는 기업(Change the World)' 리스트에 알리바바를 선정했다. 린쥔양 기술총괄은 중국 AI 연구 환경의 한계를 공개적으로 언급해온 인물이기도 하다. 2026년 1월 칭화대 AI 서밋에서 그는 "미국의 컴퓨팅 인프라는 중국보다 1~2자릿수 이상 많을 가능성이 크다"고 말했다. 더불어 미국 연구소들이 차세대 모델 연구에 대규모 연산 자원을 투입하는 반면 자신의 팀은 상용 서비스 요구를 충족하는 데 상당한 컴퓨팅을 사용해야 한다고 밝혔다. 다만 그는 이러한 제약이 알고리즘-하드웨어 공동 설계와 같은 효율 중심 혁신을 촉진했다고 강조했다. 자원 열세 속에서도 모델 성능과 효율을 동시에 끌어올리는 전략을 택했다는 설명이다. 린쥔양 기술총괄테크리드가 이번 프로젝트에서 물러나는 것이 자발적 결정인지 여부는 확인되지 않았다. 알리바바도 이탈 배경, 향후 리더십 구조에 대해 공식 입장을 내놓지 않고 있다. 큐원 3.5가 예정대로 공개된 점을 고려하면 개발 파이프라인 자체는 유지되고 있는 것으로 보인다. 큐원 프로젝트 기여자인 첸청은 "떠나는 것이 당신의 선택이 아니었음을 안다"는 내용의 글을 엑스에 게시해 내부 사정에 대한 추측을 낳았다. 동료 연구원 자오원팅은 이를 '한 시대의 끝'이라고 표현했고 허깅페이스 아태지역 생태계 총괄 왕톄전(Tiezhen Wang)은 "큐원 프로젝트에 큰 손실"이라고 밝혔다.

2026.03.04 10:28남혁우 기자

렛서, 유니세프 한국위원회 'AI 아카이브 솔루션' 구축

비즈니스 AI 전환 파트너 렛서(대표 심규현)가 유니세프 한국위원회에 'AI 아카이브 솔루션' 구축을 완료했다고 26일 밝혔다. 유니세프 한국위원회는 기금 모금 및 옹호 활동 과정에서 축적된 약 8TB(테라바이트) 규모의 사진·영상·문서 데이터를 보유하고 있다. 콘텐츠가 지속적으로 증가하는 환경에서 이를 효율적으로 탐색·활용할 수 있는 체계를 마련하는 것이 주요 과제였다. 이번 프로젝트에서 렛서는 해당 비정형 데이터를 AI 기반으로 재구성하고, 이를 자연어로 탐색 가능한 검색 환경으로 전환했다. 단순 저장 중심의 아카이브를 실무에서 바로 활용할 수 있는 구조로 재설계한 것이 핵심이다. 상황이나 장면을 설명하는 문장 입력만으로 관련 콘텐츠를 확인할 수 있도록 구현했다. 솔루션은 렛서가 보유한 AI 모델 운영 및 관리 역량을 바탕으로 설계됐다. 영상과 이미지를 텍스트 맥락과 연결해 이해하는 멀티모달 기반 기술을 적용해 콘텐츠를 의미 단위로 분석했으며, 이를 통해 개별 파일 단위가 아닌 맥락 단위 검색이 가능하도록 구현했다. 영상 이해 모델 구현 과정에서는 글로벌 영상 AI 기업 트웰브랩스와 협업해 기술 완성도를 높였다. 유니세프 한국위원회는 해당 솔루션 도입 이후 콘텐츠 탐색 시간을 기존 대비 95% 이상 단축했다. 자료 확인과 정리에 소요되던 반복 업무 부담이 줄어들면서 후원자 커뮤니케이션과 캠페인 기획 등 핵심 활동에 더욱 집중할 수 있게 됐다. 과거 캠페인 자료의 재활용과 스토리텔링 구성 또한 한층 수월해졌으며, 매년 증가하는 데이터 역시 별도의 수작업 분류 없이 지속적으로 반영되는 구조로 운영된다. 심규현 렛서 대표는 “이번 프로젝트는 방대한 비정형 데이터를 실무에서 바로 활용할 수 있는 구조로 전환한 사례”라며 “트웰브랩스와의 협업을 통해 강화한 멀티모달 기반 분석 역량을 바탕으로 향후 방송사와 콘텐츠 플랫폼 등 대규모 아카이브를 보유한 산업 분야와의 협업도 적극 확대해 나갈 계획”이라고 밝혔다.

2026.02.26 11:01백봉삼 기자

모빌린트, ISSCC서 엔비디아 등과 AI칩 연구논문 발표

AI 반도체 전문기업 모빌린트가 세계 최고 권위의 반도체 학회인 ISSCC(국제고체회로학회)에서 AI 반도체 '애리스(ARIES)'와 '레귤러스(REGULUS)' 관련 연구 논문을 발표했다고 19일 밝혔다. ISSCC는 삼성전자와 SK하이닉스를 비롯해 인텔, 퀄컴, AMD 등 글로벌 반도체 기업들이 차세대 기술을 발표하는 무대로 업계에서는 '반도체 올림픽'으로 불리는 세계 최고 권위의 학술대회다. 이번 ISSCC에서는 애플, 미디어텍, 케이던스가 기조연설을 진행했으며, 모빌린트는 엔비디아, 마이크로소프트, ST마이크로와 함께 단 4편의 논문만 발표된 '하이라이티드 칩 릴리스 포 AI(Highlighted Chip Releases for AI)' 세션에서 발표를 진행했다. 모빌린트는 이번 ISSCC에서 '애리스 및 레귤러스: 온디바이스 및 온프레미스 멀티모달 추론을 위한 통합 및 확장 가능한 하드웨어-소프트웨어 공동 설계 NPU SoC 제품군'을 주제로 발표를 진행했다. 발표에서는 멀티모달 AI 추론을 위한 하드웨어·소프트웨어 공동 설계 기반 NPU 아키텍처와 단일 개발 흐름으로 온디바이스부터 온프레미스 환경까지 확장 가능한 플랫폼 구조를 소개했다. 특히 혼합 정밀 연산과 메모리 효율 최적화를 통해 다양한 AI 모델에서 안정적인 성능과 전력 효율을 확보한 점을 강조했으며, 비전 모델과 대규모 언어모델(LLM)을 포함한 멀티모달 워크로드 대응 방향을 제시했다. 모빌린트는 발표와 함께 멀티모달 모델 기반 AI 반도체 라이브 데모를 공개해 온디바이스 환경에서도 고성능 AI 추론이 가능함을 시연하며 현장 참가자들의 큰 호응을 얻었다. 신동주 모빌린트 대표는 “ISSCC 하이라이트 세션에서 글로벌 기업들과 함께 AI 칩 기술을 발표한 것은 모빌린트 AI 반도체 아키텍처 경쟁력을 보여주는 의미 있는 성과”라며 “멀티모달 AI 시대에 온디바이스부터 온프레미스까지 확장 가능한 AI 반도체 플랫폼을 통해 글로벌 시장 공략을 본격화하겠다”고 말했다.

2026.02.19 16:48전화평 기자

NC AI, '바르코 사운드' 출시..."멀티모달 생태계 확장"

NC AI가 오디오 편집 기능을 갖춘 인공지능(AI) 솔루션을 선보이며 멀티모달 생태계를 확장했다. NC AI는 생성형 AI 기반 사운드 제작 솔루션 '바르코 사운드' 베타 서비스를 공개했다고 29일 밝혔다. 해당 솔루션은 텍스트나 이미지, 비디오 프롬프트를 입력하면 장면 속 소리를 개별 멀티트랙으로 생성할 수 있다. 이를 통해 자연스러운 편집이 가능하도록 지원한다. NC AI는 이번 서비스가 기존 사운드 라이브러리 방식의 한계를 넘어섰다고 강조했다. 창작자의 세밀한 의도를 즉각적인 고품질 소리로 변환할 수 있다는 이유에서다. 특히 소리 질감은 유지하면서 다양한 버전을 생성하는 '베리에이션' 기능을 탑재해 프로토타이핑에 걸리는 시간을 대폭 줄였다고 설명했다. 해당 서비스는 별도 설치 없이 홈페이지에서 인증·가입 후 이용할 수 있다. 3D 생성 AI '바르코 3D'와 결합된 '바르코 게임 패키지' 요금제로 운영된다. 사용자는 한 번의 크레딧 결제만으로 3D 에셋 제작부터 사운드 디자인까지 콘텐츠 제작의 핵심 과정을 통합 해결할 수 있다. 요금제는 월 2만2천원에 1만 크레딧을 제공하는 플러스 플랜과 월 11만원에 5만 크레딧을 제공하는 프리미엄 플랜으로 이뤄졌다. 신규 가입자에게는 사운드 생성과 편집이 가능한 2천 크레딧을 무료로 지급한다. 이연수 NC AI 대표는 "바르코 3D와 보이스를 잇는 멀티모달 구성을 완성해 오디오 영역까지 브랜드 확장을 가속하겠다"며 "정형화된 제작 방식에서 벗어나 누구나 고품질 사운드를 실시간으로 창조하는 새로운 패러다임을 제시할 것"이라고 밝혔다.

2026.01.29 09:17김미정 기자

SKT 정예팀 "A.X K1, 이미지 시작으로 음성·영상 데이터도 처리"

독자 AI 파운데이션 모델 1단계를 통과한 SK텔레콤 정예팀이 이미지 데이터를 시작으로 멀티모달을 순차 적용할 예정이다. 논문이나 업무 문서 이미지를 인식하고, 이를 텍스트로 요약하는 작업을 처리하겠다는 뜻이다. 나아가 올해 하반기 이후부터는 음성 데이터와 영상 데이터도 처리할 수 있도록 멀티모달을 고도화할 예정이다. 텍스트만 이해하는 한계를 넘어 이미지, 음성, 영상 등 다양한 데이터를 이해하고 처리할 수 있게 되는 것이다. 아울러 정예팀은 AI 모델 성능을 높이기 위해 학습 데이터 규모를 1단계 대비 확대하고, 학습 언어도 한국어, 영어, 중국어, 일어, 스페인어 등 5개 국어로 확대한다. 16일 SK텔레콤 뉴스룸에 따르면, 정예팀이 선보인 국내 최초 500B급 초거대 모델 A.X K1이 프로젝트 1단계 평가를 통과하면서 AI 기술력을 인정받았다. A.X K1은 고난도 수학과 코딩 영역에 강한 모습을 보였다. 수학(AIME25 벤치마크)과 코딩 활용도(LiveCodeBench) 영역에서 매개변수 규모가 비슷한 딥시크-V3.1등 글로벌 오픈소스 모델과 비교해 대등하거나 우수한 성능을 보였다. 특히 정예팀은 1단계 NIA 벤치마크 평가에서 10점 만점 중 9.2점을 기록해 5개 정예팀 중 LG AI 연구원과 함께 공동 1위에 올랐다. NIA 벤치마크 평가는 ▲수학 ▲지식 ▲장문이해 ▲신뢰성 ▲안전성 등 다양한 영역을 종합적으로 평가한다. 또한 A.X K1은 '아파치 2.0' 라이선스로 공개돼 높은 개방성도 특징으로 꼽힌다. 이 방식으로 개발된 모델은 라이선스 규정상 상업적 이용이 가능하고, 모델을 수정해 재배포할 수 있다. 정예팀 차원의 협력과 선행 연구도 더욱 활발해지고 있다. SK텔레콤, 크래프톤, 포티투닷(42dot), 리벨리온, 라이너, 셀렉트스타, 서울대학교, KAIST 등 8개 기관으로 구성된 정예팀은 최근 KAIST 인공지능대학원 서민준 교수 연구실, 서울대학교 수리과학부 서인석 교수 연구실의 합류로 연구의 폭을 넓혔다. SK하이닉스와 SK이노베이션, SK AX, SK브로드밴드 등 SK그룹 멤버사를 비롯해 한국고등교육재단, 최종현학술원 등 20여개 기관들도 단계적으로 정예팀의 모델을 활용하며 국내 인공지능 생태계의 혁신을 주도할 예정이다.

2026.01.16 09:04박수형 기자

삼성전자 '더 퍼스트룩' 개막…AI 시대 위한 신기술·제품 집대성

[라스베이거스(미국)=장경윤 기자] 삼성전자는 미국 라스베이거스에서 열리는 세계 최대 전자 전시회 'CES 2026'에 단독 전시관을 마련하고 4일부터 7일(현지시간)까지 나흘간 '더 퍼스트룩(The First Look)'을 개최한다고 5일 밝혔다. 더 퍼스트룩은 삼성전자가 CES에 맞춰 진행하는 전시와 프레스 콘퍼런스 등 모든 프로그램을 통합한 명칭으로 삼성전자의 신제품과 신기술을 처음으로 선보인다는 의미를 담고있다. 삼성전자는 현지 윈 호텔에 업계 최대인 4천628㎡(약 1,400평)규모의 단독 전시관을 조성하고, '당신의 AI 일상 동반자(Your Companion to AI Living)'를 주제로 전시와 프레스 콘퍼런스, 삼성 기술 포럼 등 다양한 프로그램을 진행한다. 전시관은 이번 행사 주제인 '당신의 AI 일상 동반자'에 맞춰, 엔터테인먼트 컴패니언·홈 컴패니언·케어 컴패니언의 3개의 전시존으로 구성됐다. '엔터테인먼트 컴패니언' 존에서는 마이크로 RGB 등 차세대 TV부터 사운드 기기와 게이밍 모니터 신제품, 한층 진화된 삼성 TV만의 통합 AI 플랫폼 '비전 AI 컴패니언'까지 만나볼 수 있다. '홈 컴패니언' 존에는 카메라·스크린·보이스 기능을 통해 사용자와 원활히 상호작용하며 더 고도화된 집안일 경험을 제공하는 다양한 삼성전자 AI 가전이 대거 전시된다. '케어 컴패니언' 존에서는 삼성 헬스와 갤럭시 웨어러블 기기, 스마트싱스와 나우 브리프(Now Brief) 등을 기반으로 보다 진화한 케어 솔루션을 만나볼 수 있다. 최신 디스플레이·AI 기술 적용된 '엔터테인먼트 컴패니언' 삼성전자 최신 디스플레이 기술이 총망라된 '엔터테인먼트 컴패니언' 존에서는 가장 먼저 삼성전자가 세계 최초로 선보인 '130형 마이크로 RGB TV' 신제품을 만나볼 수 있다. 지난 8월 삼성전자가 세계 최초로 출시한 '삼성 마이크로 RGB TV'는 100㎛ 이하 크기의 RGB LED 소자와 고성능 AI 엔진을 탑재해 독보적인 색상과 명암비를 구현한다. 이어서 사용자와 상호 작용 하며 요구를 이해하고 도움을 제공하는 삼성전자 TV만의 통합 AI 플랫폼 '비전 AI 컴패니언(Vision AI Companion)'도 직접 체험할 수 있다. '비전 AI 컴패니언'은 영화 시청 중 촬영지나 배경음악에 대해 질문하면 답을 제공하고, 요리 영상 속 레시피를 요청하면 실시간으로 해당 영상의 레시피를 작성해준다. 뿐만 아니라 사용자의 취향과 환경에 맞춰 시청 품질도 자동으로 최적화 한다. ▲스포츠 경기 시청 시 AI를 통해 실시간으로 장면을 분석해 화질과 음질을 자동으로 최적화하는 'AI 사커 모드(AI Soccer Mode)' ▲해설자 음성과 관중의 함성 같은 배경음을 분리해 선택적으로 조절하거나 음소거할 수 있는 'AI 사운드 컨트롤러 프로' 기능도 전시에서 생생하게 만나볼 수 있다. 집안일 부담 줄여 더 나은 일상을 선사하는 '홈 컴패니언' '홈 컴패니언(Home Companion)' 존에서는 집안일을 덜어주고 더 나은 삶을 선사하는 다양한 가전들이 대거 전시됐다. 전시 하이라이트 존에서는 보고 듣고 말하며 사용자와 교감하는 '홈 컴패니언'으로 진화한 AI 가전 신제품을 만나볼 수 있다. 2026년형 ▲'비스포크 AI 패밀리허브' 냉장고 ▲'비스포크 AI 콤보' 세탁건조기 ▲'비스포크 AI 스팀' 로봇청소기는 카메라∙스크린∙보이스 기능이 탑재돼 사용자 일상의 편의를 크게 높인다. 이어지는 주방 가전 전시에서는 구글의 최신 AI 모델 '제미나이(Gemini)'를 탑재한 '비스포크 AI 패밀리허브' 냉장고와 '인피니트 AI 와인 냉장고'를 만나볼 수 있다. '비스포크 AI 패밀리허브'는 내부 카메라를 통해 식재료를 인식하는 'AI 비전(AI Vision)' 기능에 제미나이가 결합돼 식품 인식 성능이 크게 향상됐다. 가공식품을 비롯해 식품 인식 범위가 대폭 확대되고 반찬통에 직접 라벨링한 내용까지 인식한다. 여기에 냉장고가 알아서 요리를 추천하고 레시피를 생성하는 등의 AI 기반 편의 기능을 갖춰 차별화된 식생활 경험을 제공한다. '인피니트 AI 와인 냉장고' 신제품은 카메라가 와인 라벨을 인식해, 스마트싱스 와인리스트에 와인 품종, 빈티지 등 와인의 세부 정보와 보관 위치 등을 자동으로 기록해준다. 가족 건강 돌보는 '케어 컴패니언' '케어 컴패니언' 존에서는 나와 가족, 반려동물의 건강과 안전을 선제적으로 돌봐주는 새로운 솔루션을 만나볼 수 있다. 이 곳에서 '멀티모달 디지털 바이오마커(Multimodal Digital Biomarker)' 기술이 적용된 모바일과 웨어러블 기기를 기반으로 사용자의 수면상태나 걸음걸이, 말투 등 행동 패턴을 분석해 인지 기능 저하를 사전에 감지해주는 솔루션을 만나볼 수 있다. '멀티모달 디지털 바이오 마커'는 모바일과 웨어러블 기기로 측정된 다양한 정보를 분석해 사용자의 인지 상태 변화를 간접적으로 추적할 수 있는 기술이다. 삼성전자는 향후 인지 장애 관련 질환의 조기 발견에 기여하는 것을 목표로 임상 검증을 진행 중이다. 삼성전자는 반려 동물 진단 서비스 브랜드 '라이펫(Lifet)'과 협업한 스마트싱스 기반의 새로운 펫 케어 서비스도 선보인다. 사용자가 반려동물의 병변이 의심되는 곳을 스마트폰으로 촬영하면 AI가 사진을 분석해 치아질환, 슬개골 탈구, 백내장 등의 질환을 진단한다. 이 기능으로 반려동물의 질환을 조기에 확인하고 적절한 진료를 받을 수 있다. 삼성전자는 사용자와 주거 공간의 안전까지 케어하는 스마트싱스 기반의 시나리오도 선보였다. 스마트싱스에 카메라와 집안의 각종 기기를 연동해 부재 중 집안과 주변 상황, 반려 동물의 활동 등을 모니터링하고 중요한 내용은 '나우 브리프'로 간편하게 요약 받을 수 있다.

2026.01.05 10:00장경윤 기자

[고삼석 칼럼] 방송산업의 미래 경쟁력, 왜 버티컬 AI인가

최근 세계 최대 콘텐츠기업인 월트 디즈니(Walt Disney)와 오픈AI가 라이선스 계약을 체결하고 앞으로 3년 동안 디즈니의 200여 개 캐릭터를 오픈AI 플랫폼에서 인공지능(AI) 동영상 및 이미지 제작에 이용할 수 있게 됐다고 발표했다. 이번 계약으로 오픈AI의 동영상 생성 플랫폼인 '소라(Sora)'와 챗GPT에서 디즈니, 마블, 픽사 스튜디오 작품과 스타워즈 시리즈 등의 캐릭터를 활용한 AI 콘텐츠 제작과 플랫폼에서 공유 등이 가능하게 됐다. 이와 관련해 밥 아이거 디즈니 최고경영자(CEO)는 “(오픈AI의) 샘 올트먼과 그의 팀이 만들어내는 것에 참여하고 싶다. 우리는 이것이 디즈니에 좋은 투자라고 생각한다”라고 밝혔다. 또한 그는 “우리는 기존 사업모델의 파괴를 포함해 어떤 변화가 결국 일어날 것이라면, (그 기술에 의해 파괴당하기보다) 그 흐름에 올라타야 한다고 생각했다”라고 결단의 배경을 설명했다. 디즈니와 오픈AI의 전격적인 협력 발표에서 보듯이 생성형 AI가 콘텐츠 산업 구조를 근본적으로 재편하고 있다. 방송사들에게 중요한 질문은 더 이상 “AI를 쓸 것인가, 말 것인가”가 아니다. 이제 관건은 “AI 시대에도 방송사가 콘텐츠 산업의 주도권을 유지할 수 있을 것인가”, “주도권을 유지할 수 있는 구조를 어떻게 만들 수 있는가”이다. 디즈니와 오픈AI 간 전략적 제휴는 이 질문을 정면으로 제기하고 있다. 양사의 협업은 단순한 기술 도입 혹은 적용이 아니라 콘텐츠 IP를 갖고 있는 기업과 범용 AI 플랫폼 간 시장의 권력구조를 재편하기 위한 일종의 공동 실험이라고 할 수 있다. 잘 알려져 있듯이 디즈니는 세계 최대 규모의 스토리 IP와 캐릭터 자산을 보유한 콘텐츠 자이언트다. 오픈AI는 범용 생성형 AI 기술을 선도하고 있는 플랫폼 기업이다. 두 기업의 접점은 분명하다. 디즈니는 AI를 통해 제작·후반·유통 전 과정의 효율을 극대화하려고 하고, 오픈AI는 고품질 IP와 안전한 학습 데이터 및 엔터테인먼트 영역에서의 신뢰성 확보를 목적으로 하고 있다. 그러나 이번 협업이 던지는 진짜 메시지는 따로 있다. 즉 콘텐츠 기업이 범용 AI를 수동적으로 받아들이는 순간 주도권은 AI 플랫폼으로 이동할 것이라는 경고다. 여기서 방송산업, 특히 국내 지상파방송사들이 주목해야 할 개념이 바로 버티컬 AI(vertical AI)다. 버티컬 AI란 범용 생성형 AI를 가져다 쓰는 것이 아니라 방송산업의 고유한 업무 구조, 콘텐츠 형식, 공적 책임, 권리 체계를 전제로 설계된 '미디어 특화 AI 모델'을 의미한다. 디즈니와 오픈AI의 전략적 제휴가 '플랫폼 중심 AI 확장'의 전형이라면, 방송사에게 필요한 해법은 그 반대편, 즉 방송 또는 콘텐츠 중심의 'AI 내재화 전략'이다. 먼저 방송 분야 버티컬 AI의 출발점은 영상 데이터의 자산화다. 수십년 간 축적된 방송 아카이브 영상과 원고, 편집본 등은 그 자체로 세계 최고 수준의 멀티모달 데이터다. 이를 스토리, 장면과 인물, 맥락과 권리 단위로 구조화하고, 자산화하지 못한다면 방송사는 결국 AI 플랫폼 기업에 데이터를 공급하는 존재로 전락할 수밖에 없다. 디즈니가 IP 관리와 통제, 가입자 정보보호 등을 협업의 전제 조건으로 못 박은 이유도 여기에 있다. 둘째, 멀티모달(multimodal) AI 모델의 구축이다. 방송에 특화된 AI는 텍스트 중심 LLM으로 대체될 수 없다. 성격이 전혀 다르다. 음성(STT/TTS), 영상 이해, 실시간 처리, 장르별 문법을 이해하는 AI가 결합돼야 한다. 이는 범용 AI 플랫폼보다 방송사들이 훨씬 잘 설계하고 구축할 수 있는 영역이다. 다시 말해 AI 시대에도 방송과 콘텐츠를 가장 잘 이해하는 주체는 여전히 방송사들 자신이다. 셋째, 제작과 보도 워크플로(workflow) 통합이다. 디즈니가 AI를 활용하는 핵심 목적은 '창작자 대체'가 아니라 '창작 효율 극대화'에 있다. 오픈AI와 협업을 발표하는 과정에서 디즈니는 '창작자 보호'를 특별히 강조했다. 지상파방송 역시 AI가 기획, 편집, 자막, 클립, 검수 과정에 자연스럽게 녹아들어야 한다. 별도의 실험실이 아니라 실제 제작과 보도 현장에서 쓰이는 AI 모델을 만들지 않으면 의미가 없다. 마지막으로 AI 모델에서 신뢰와 책임 그리고 윤리 레이어의 구축이다. 디즈니가 오픈AI와 전략적 제휴에서 가장 신중을 기했던 부분은 브랜드 훼손과 오용을 둘러싼 리스크관리였다. 여전히 '공공재'로 인식되는 국내 지상파방송사들은 이보다 훨씬 더 엄격해야 한다. 뉴스와 시사 영역에서 AI는 반드시 '사람'의 최종 승인 구조 아래 작동해야 하며, 출처 확인이나 검증이 불가능한 AI 데이터의 활용이나 결과물의 활용은 대단히 신중해야 한다. 한 가지 더 지적하자면, AI 시대 지상파방송과 같은 콘텐츠 기업의 협상력은 기술이 아니라 IP와 권리 관리 능력이다. 방송사가 자체 버티컬 AI를 구축하지 못한다면, 향후 AI의 학습이나 2차 활용 그리고 글로벌 유통 과정에서 정당한 권리 보장과 대가 보상을 기대하기는 어려울 것이다. 디즈니와 오픈AI의 전략적 제휴가 우리 방송 산업에 던지는 메시지는 분명하다. 이제 핵심은 AI를 제작 현장에 '도입'하는 것이 아니라, 방송사들이 AI라는 첨단 기술 그리고 AI 플랫폼 기업들과 어떤 '관계'를 맺을 것인가이다. AI 시대에도 지상파방송사들이 공공재로서 역할을 하기 위해서는 단순히 범용 AI 플랫폼을 이용하는 것이 아니라 '방송에 최적화된 AI 시스템을 구축할 수 있느냐' 여부라는 사실을 잊어서는 안 된다.

2025.12.15 16:38고삼석 컬럼니스트

"3개월 만에 기업가치 3배"…멀티모달 AI 열풍 주역 美 스타트업, 투자자도 반했다

최근 생성형 인공지능(AI)이 텍스트 기반 거대언어모델(LLM)을 넘어 이미지·영상·오디오·3D까지 아우르는 멀티모달로 빠르게 확장되면서 미국 AI 스타트업 팔(Fal)에 대한 투자자들의 관심이 급증하고 있다. 멀티모달 활용 시 기업들의 복잡한 운영 부담을 덜어준다는 점에서 향후 성장성이 높다고 평가 받고 있어서다. 10일 블룸버그통신에 따르면 팔은 최근 세쿼이아캐피털이 주도한 시리즈D 투자를 통해 1억4천만 달러(약 2천16억원) 규모의 신규 투자 유치에 성공했다. 올 들어 세 번째 시리즈 투자로, 이번 투자에는 안데르센 호로위츠, 엔비디아, 세일즈포스, 쇼피파이 등 기존 투자자들도 참여했다. 이번 투자로 팔의 기업가치는 45억 달러로 평가됐다. 올해 7월 1억2천500만 달러 규모의 시리즈C 투자를 받을 당시 평가액의 약 3배에 달한다. 이곳은 올해 10월에도 세콰이아캐피털 등을 통해 시리즈D 투자 전 '브릿지격'으로 약 2억5천만 달러의 자금을 조달 받는데 성공했다. 이는 회사가 조달한 1억4천만 달러와 기존 투자자들의 지분 매각을 합산한 금액이다. 2021년 설립된 팔은 이미지, 비디오, 오디오, 3D 등에 쓰이는 여러 AI 모델들을 개발자가 쉽게 쓰도록 '호스팅과 API(application Programming Interface), 추론 인프라'를 제공하는 기업이다. 코인베이스 머신러닝 리더 출신 버르카이 구르와 AWS 개발자였던 고르켐 유르트세벤이 세운 곳으로, 어도비, 쇼피파이, 캔바 등 굵직한 기업들을 고객으로 확보하는 데 성공하며 빠른 속도로 덩치를 키우고 있다. 실제 이곳의 올해 매출은 지난 10월 기준 2억 달러를 이미 돌파한 상태다. 팔의 클라우드 플랫폼은 600개 이상의 이미지, 오디오, 영상 생성 AI 모델을 제공한다는 점이 강점이다. 오픈AI의 소라2, 구글이 최근 출시한 나노 바나나 프로와 같은 대표 모델뿐 아니라 다수의 오픈소스 알고리즘도 포함돼 있다. 이 모든 기능은 단일 API를 통해 접근 가능하다는 점에서 개발자들의 진입 장벽을 확 낮췄다는 평가를 받는다. 또 팔은 사용자 정의 모델을 실시간으로 구동할 수 있는 팔 서버리스(fal Serverless) 서비스도 운영 중이다. 이는 수천 개의 그래픽처리장치(GPU) 클러스터를 거의 즉시 가동할 수 있는 확장성을 지원하며, 엔비디아 H200, H100과 같은 최신 GPU에 대한 고속 접근성과 모니터링 도구도 제공한다. 보다 전문적인 요구사항을 가진 기업을 위해서는 전용 GPU 자원을 제공하는 팔 컴퓨트(fal Compute)도 마련돼 있다.자체 모델 개발에도 적극 나서고 있다는 점도 매력 요소다. 팔은 최근 이미지 생성 모델 오라플로우 v0.3을 공개했는데, 속도 중심의 '플로우 매칭' 구조를 적용해 보다 빠른 추론 성능을 실현했다는 평가를 받았다. 이는 기존 확산 모델 기반 생성 AI보다 효율성을 높였다는 점에서 개발자와 연구자 모두의 관심을 받고 있다. 이 같은 분위기 속에 팔은 투자자들로부터 유례없는 관심을 받고 있다. 멀티모달 AI 모델을 실제 서비스에서 운영하려는 수요가 폭발적으로 늘어나면서 이를 안정적으로 처리할 수 있는 인프라 시장의 가치가 급격히 커지고 있기 때문이다. 이에 텍스트 생성에서 이미지·영상·오디오로 확장되는 AI 경쟁이 본격화되자, 자체 인프라 구축 대신 즉시 적용 가능한 플랫폼을 찾기 시작한 기업들이 팔을 대안으로 선택하고 있다는 분석이 나온다. 업계 관계자는 "생성형 AI를 실시간 서비스 수준으로 끌어올리기 위해서는 대규모 GPU 자원과 높은 수준의 최적화가 필요하다"며 "팔은 이를 전적으로 맡아 처리함으로써 기업이 겪는 기술적 장벽을 크게 낮췄다"고 설명했다. 이어 "그 결과 사용자는 다양한 AI 모델을 단순 API 호출만으로 활용할 수 있게 됐다"며 "고비용 인프라 투자 없이도 빠르게 AI 기반 서비스를 추가할 수 있게 됐다"고 덧붙였다. 이 같은 확장성과 효율성은 팔의 기업가치를 단기간에 끌어올린 요인으로 평가된다. 멀티모달 AI가 산업 전반에서 필수 기술로 자리잡는 가운데 더 많은 기업이 팔의 AI 생성 기능을 기본 요소로 채택할 것으로 평가되는 것도 한 몫 했다. 업계 관계자는 "팔에 대한 투자는 멀티모달 AI 전환을 둘러싼 '인프라 전쟁'의 전선을 보여주는 사례"라며 "투자자들이 텍스트 중심 LLM 이후의 시대를 준비하는 상황에서 팔이 앞으로 빅테크와 경쟁 스타트업들 사이에서 얼마나 경쟁력을 보여줄 수 있을지가 관건이 될 것"이라고 분석했다.

2025.12.10 18:03장유미 기자

텐센트, 텍스트·이미지·스케치 등 상업용 3D 에셋 몇 분 만에 생성

텐센트가 크리에이터와 개발자를 겨냥한 차세대 인공지능(AI)기반 제작 툴을 선보인다. 텐센트는 AI기반 3D 모델링 툴 '훈위안(Hunyuan) 3D 생성 엔진'을 글로벌 출시했다고 26일 밝혔다. 이를 통해 사용자는 텍스트 설명, 이미지, 스케치 등 멀티모달 입력만으로 고품질 3D 에셋을 즉시 생성할 수 있다. 텐센트 측은 기존에 수일에서 수주까지 걸리던 제작 기간을 몇 분 단위로 단축하고 복잡한 전통적 3D 제작 워크플로우를 크게 단순화할 수 있을 것으로 기대하고 있다. 텐센트의 클라우드 사업 부문인 텐센트 클라우드는 기업 고객을 대상으로 '훈위안 3D 모델 API'를 제공한다. 이 API를 활용해 게임 개발, 이커머스 프로모션, 영상 특수효과(VFX), 광고 제작, 소셜미디어 콘텐츠, 3D 프린팅 등 다양한 워크플로우에 고급 3D 생성 기능을 통합할 수 있다. 글로벌 버전 일반 사용자는 매일 20회까지 무료로 3D 에셋을 생성할 수 있으며, 텐센트 클라우드를 통해 API를 연동한 기업 고객에게는 3D 에셋 생성에 활용 가능한 200 크레딧이 무료로 제공된다. '훈위안 3D' 대형 모델은 텐센트가 자체 개발한 생성형 AI 대형 모델 시리즈 가운데서도 가장 발전된 모델로 평가된다. 2024년 11월 오픈소스 3D 모델로 공개된 이후 현재까지 허깅페이스(Hugging Face)에서 누적 3백만건이 넘는 커뮤니티 다운로드를 기록했다. 글로벌 개발자와 크리에이터, 오픈소스 커뮤니티에서 가장 인기 있는 3D 생성 모델 중 하나로 자리잡았다는 설명이다. 텐센트는 이후 지속적인 업데이트를 통해 생성 품질과 모델링 정확도를 높여왔다. 현재 '훈위안 3D 3.0'은 개별 오브젝트 중심의 고품질 3D 에셋 제작에 특화돼 있다. 또 '훈위안 3D 월드(Hunyuan3D World)' 모델은 대규모 인터랙티브 3D 환경 생성에 초점을 맞춘 버전으로, 게임, 가상현실(VR), 디지털 콘텐츠 제작 분야에서 새로운 형태의 월드 빌딩(world building)과 몰입형 경험 구현을 지원한다. 중국 본토에서는 이미 다양한 산업군에서 '훈위안 3D' 기반 활용 사례가 나오고 있다. 글로벌 실시간 3D 엔진 기업 유니티 차이나(Unity China), 소비자용 3D 프린팅 선도 기업 뱀부랩(Bambu Lab), 중국 최대 AI 콘텐츠 제작 플랫폼 립립(Liblib) 등을 포함해 1백50개가 넘는 기업이 텐센트 클라우드를 통해 훈위안 3D 모델을 도입했다. 게임·엔터테인먼트뿐 아니라 제조, 교육, 마케팅 등으로 적용 범위가 확대되는 추세다. 텐센트는 오픈소스 커뮤니티와 기업 고객 생태계를 동시에 겨냥한 전략을 통해 글로벌 3D 생성형 AI 시장에서 영향력을 더욱 확대한다는 계획이다.

2025.11.26 16:23남혁우 기자

뇌분야 AI파운데이션 모델 첫 개발…"당장 실용화 가능"

딥러닝 기반 뇌신호 분석에서 한계로 꼽혀 온 '레이블 데이터 부족' 문제를 국내 연구진이 새로운 AI 파운데이션 모델로 해결했다. 기술성숙도(TRL)로는 실용화 수준인 5단계 정도로, 상용화 바로 전단계라는 것이 연구진 설명이다. DGIST는 지능형로봇연구부 안진웅 박사 연구팀이 뇌신호를 스스로 학습하도록 설계, 극도로 적은 양의 레이블만으로도 기존 대비 높은 정확도(최저8~최고20% 향상)를 구현할 수 있는 AI파운데이션 모델을 개발했다고 26일 밝혔다. 이번 연구는 안진웅 박사(지능형로봇연구부 책임연구원, 융합전공 겸무교수)와 정의진 박사후연수연구원(로봇및기계전자공학연구소, 바이오체화형피지컬AI연구단)이 공동 수행했다. 연구팀은 "EEG(뇌파)와 fNIRS(기능적 뇌혈류) 신호를 모두 이해하고 분석할 수 있는 '뇌파–기능뇌혈류 멀티모달 파운데이션 모델'을 세계 최초로 구현했다"고 말했다. 이들은 총 918명으로부터 약 1천250시간에 걸친 초대형 뇌신호 데이터를 확보해, 레이블 없이 비지도 방식으로 모델을 학습시켰다. 이를 통해 EEG와 fNIRS 각각의 고유한 특징뿐 아니라 두 신호가 공유하는 잠재적인 표현까지 동시에 파악할 수 있도록 설계했다. 기존에는 EEG와 fNIRS를 동시에 측정한 데이터 확보가 거의 불가능해 멀티모달 AI 구축에 큰 제약이 있었지만, 이번 연구에서 개발된 모델은 동시계측 데이터 없이도 학습이 가능하도록 설계했다. 소량의 레이블만으로도 높은 정확도를 구현하며 EEG 단독 분석, fNIRS 단독 분석, 두 신호를 결합한 멀티모달 분석까지 하나의 모델로 모두 수행할 수 있어 기존 기술의 구조적 한계를 완전히 넘어섰다. 안진웅 박사는 “멀티모달 뇌신호 분석이 가진 구조적 제약을 뛰어넘은 최초의 프레임워크"라며 "뇌신호 AI 분야에서 근본적인 혁신을 이뤄냈다”고 설명했다. 안 박사는 또 “특히 두 신호 간 공유 정보를 정렬하는 대조 학습 전략이 모델의 표현력을 대폭 확장했고, 이는 뇌창발인공지능(Brain-Inspired AI)과 뇌–컴퓨터 인터페이스(BCI) 등 미래 뇌공학 기술 발전에 중요한 전환점이 될 것”이라고 말했다. 공동 연구자인 정의진 박사후연수연구원은 "실용화가 바로 가능한 수준이다. 안진웅 박사가 대표로 있는 포피엠엑스를 통해 상용화를 추진 중"이라고 덧붙였다. 이 연구는 과학기술정보통신부와 한국연구재단의 지원을 받아 수행됐더. 연구결과는 계산생물학 및 의료정보학 분야 국제 학술지(Computers in Biology and Medicine)에 게재됐다.

2025.11.26 10:20박희범 기자

트웰브랩스, LIG넥스원과 국방·우주 분야 멀티모달 AI 기술 적용 '맞손'

트웰브랩스가 LIG넥스원과 손잡고 방산·우주·위성 분야 멀티모달 인공지능(AI) 도입에 나선다. 트웰브랩스는 LIG넥스원과 전략적 업무협약(MOU)을 체결했다고 11일 밝혔다. 이번 협약으로 양사는 영상 이해 기반 멀티모달 AI 기술을 방위 산업 및 우주·위성 분야에 적용하기 위한 기술 협력과 공동 연구 기반을 마련했다. 양사는 트웰브랩스의 비디오 이해 기반 멀티모달 AI 모델 기술을 LIG넥스원의 국방·우주·위성 시스템 및 기술 개발 영역에 접목한다. 각 사가 보유한 기술력과 자원을 활용해 지능형 방위체계 및 영상 분석, 의사결정 지원 솔루션 개발을 공동으로 추진할 예정이다. 향후에는 공동 연구개발(R&D), 시범사업(PoC), 기술 검증 및 적용 모델 개발 등으로 협력을 확대해 나갈 계획이다. 이번 협력으로 트웰브랩스는 국방·공공 부문에서 기술 확장 기회를 마련하게 됐으며 LIG넥스원은 AI 기반 미래형 방위 솔루션 개발 역량을 강화한다는 목표다. 트웰브랩스 관계자는 "글로벌 무대에서 활약하고 있는 한국인들이 개발한 첨단 멀티모달 AI 기술과 국방·우주·위성 분야의 기술력이 결합된 상징적인 파트너십"이라며 "방대한 영상 데이터를 이해하고 분석하는 우리의 기술이 국방 분야의 영상 감시·정찰·지휘통제 등에 효율적으로 응용될 것"이라고 말했다. 이어 "AI 모델 경쟁 속에서 영상 이해 분야를 이끌어가는 우리의 기술력과 AI, 자율화, 지능형 방산 시스템을 향한 LIG넥스트원의 디지털 전환 로드맵이 만나 최상의 시너지를 낼 것으로 기대한다"며 "앞으로도 공동 연구개발, 시범사업 추진 등으로 협력을 확장해 나가겠다"고 덧붙였다.

2025.11.11 16:23한정호 기자

ETRI 100B급 파운데이션 모델 개발 "가속 페달"

한국전자통신연구원(ETRI)이 엔씨(NC) AI 컨소시엄에 참여해 추진 중인 과학기술정보통신부 독자 AI 파운데이션 모델 개발 사업의 밑그림을 처음 공개했다. 이 사업은 지난 8월부터 시작됐다. 과제는 '산업 AI 전환을 위한 확장 가능한 멀티모달 생성형 파운데이션 모델 개발'이다. 산업 현장에서 활용 가능한 대규모 인공지능 모델을 자체 기술로 구현하기 위한 핵심 프로젝트로, 대규모 언어모델(LLM)과 멀티모달 AI 기술을 독자적으로 확보해 산업·공공·학술 등 전 분야에 걸쳐 활용할 수 있는 기반 기술을 육성하는 것이 목표다. ETRI측은 "산업 현장 중심의 적용성을 확보함으로써 향후 제조·의료·교육·문화 등 주요 산업 전반의 AI 혁신을 가속화할 것"이라며 "독자 기술 기반 초거대 AI 모델 개발의 국내 기술 자립화를 견인할 것"으로 기대했다. 현재 ETRI는 한국지능정보사회진흥원(NIA) 데이터 지원과 정보통신산업진흥원(NIPA) GPU 자원 지원을 기반으로 대규모 모델 개발에 필요한 안정적 연구 인프라를 구축했다. ETRI 지능정보연구본부는 이번 연구에 그간 수행해 온 자체 국책과제의 핵심 기술을 적극 접목하고 있다. 현재 총 3개 연구실이 모여 100B(1,000억 매개변수)급 모델 사전학습을 진행 중이다. 언어지능연구실은 그동안 '복합인공지능 원천기술 연구'를 통해 개발한 언어모델 'Eagle(이글)'의 개념적 이해 및 추론 능력, '생성형 언어모델의 최신성 학습 기술'의 희소 어댑터(sparse adapter) 기반 지속학습 기술을 대규모 모델에 적용해 모델의 최신성과 효율성을 확보할 계획이다. 체화복합지능연구실은 '퇴행성 뇌기능 저하 평가 기술'과 '다화자 대화 모델링 기술'등 기존 연구성과를 토대로 음성·영상 중심의 멀티모달 AI 모델을 개발 중이다. 궁극적으로 이를 범용 파운데이션 모델로 확장할 계획이다. 시각지능연구실 또한 텍스트 기반 이미지 생성 모델 'KOALA(코알라)', 시각언어 질의응답 모델 'Ko-LLaVA(코라바)'등을 통해 축적한 기술을 바탕으로 비전-언어 융합 생성 성능과 AI 안전성을 동시에 강화하는 연구를 진행 중이다. ETRI는 현재 기술개발–대규모 사전학습–산업 실증으로 이어지는 로드맵을 단계적으로 추진 중이다. 과제책임자인 권오욱 지능정보연구본부장은 “ETRI가 정부출연연구원 중 유일하게 국가대표 연구팀으로 선정된 이후, 초기의 자원 확보 난관을 극복하고 100B급 모델 사전학습을 안정적으로 수행하고 있다"고 말했다. 권 본부장은 또 "NC AI 컨소시엄과의 긴밀한 협력을 통해 산업 AI 전환을 이끄는 확장 가능하고 신뢰성 높은 멀티모달 파운데이션 모델을 개발해 글로벌 최고 수준의 기술력 확보에 기여할 것"이라고 덧붙였다.

2025.11.09 11:28박희범 기자

카카오, 자체 언어모델 카나나 2.0으로 '에이전틱 AI' 이끈다

카카오가 차세대 언어모델 카나나 2.0을 앞세워 AI 경쟁의 무게중심을 성능과 효율, 멀티모달 확장에 두고 있다는 점을 분명히 했다. 단순히 더 큰 모델을 쌓는 것이 아니라, 추론 효율과 체감 속도를 높이고 한국어·한국 문화에 특화된 역량을 강화해 '에이전틱 AI' 시대를 선도하겠다는 전략이다. 24일 경기 용인시 카카오 AI 캠퍼스에서 열린 '이프 카카오(if kakao)25' 둘째 날 카카오 김병학 성과리더는 자체 개발 카나나 모델이 에이전틱 AI를 향해 어떻게 진화하고 있는지와 향후 계획에 대해 발표했다. 카나나 모델은 롱컨텍스트 처리와 멀티모달 이해, 추론 능력, 외부 도구를 활용하는 능력을 집중적으로 강화하고 있다. 이러한 카나나 모델 진화의 근간에는 강력한 언어모델이 존재한다는 설명이다. 카카오는 올해 2월 언어모델의 라인업을 완성했으며, 불과 3개월 만에 수학, 코딩 등의 고난이도 문제 해결 능력을 향상시킨 카나나-1.5를 공개했다. 이후 인퍼런스(Inference) 효율성을 높인 카나나-1.5를 기반으로 MoE 구조의 모델을 개발했으며, 추론(Reasoning) 모델에 대한 연구를 진행해왔다. 현재 카나나-1.5를 통해 축적한 기술을 확장해 고성능과 효율성, 그리고 실제 서비스에서 가장 편리한 AI를 목표로 카나나-2를 개발중이다. 특히, 추론 효율성의 강화와 체감 속도의 개선, Agentic AI의 핵심 역량 강화에 집중하고 있다고 말했다. ▲복잡하고 여러 단계로 이루어진 지시를 정확히 따르는 능력(Instruction Following) ▲외부 도구를 능숙하게 연결하고 사용하는 툴 사용(Tool Use) ▲다국어 확장 ▲환각 없이 사실에 기반하여 답변하는 능력(Grounding)을 글로벌 최고 수준으로 끌어올리는 것이 목표다. 김 성과리더는 장기적으로 지시를 따르는 'Instruct' 모델과 깊게 생각하는 'Resoning' 모델을 통합해 카카오 서비스에 최적화된 하이브리드 언어모델을 완성할 계획이라고 밝혔다. 카나나-2의 구조적 특징에 대해서도 설명했다. 모든 크기의 모델에 공통적으로 적용한 'MLA(Multi-Head Latent Attention)' 기법은 압축을 거쳐 긴 인풋을 효율적으로 처리하는 방식이다. 가장 큰 크기의 모델에 적용한 'MoE(Mixture of Experts)'는 추론 시 일부 파라미터만 활성화돼 높은 효율성을 보이는 구조다. 현재 두 구조를 이용한 '카나나-2-30b-a3b' 모델을 개발중이며, 획기적인 추론 처리량과 빠른 응답 속도에 대해 소개했다. 경량 모델의 고도화에도 집중하고 있다. 기존 버전의 모델에 비해 뛰어난 성능을 보이고 있으며, 향후 최적화 기법을 거쳐 다양한 규모의 고성능 경량 모델을 구축하는 핵심 기반이 될 것이라고 설명했다. 고성능 언어모델을 기반으로 다양한 형태의 정보를 자유자재로 이해하고 생성하는 'Any-to-Any' 구조의 옴니모달 모델에 대한 방향성도 언급했다. 김 성과리더는 실제로 사람 간의 대화처럼 자연스럽고 몰입감있는 대화 역량 확보하는 것을 목표로 수립하고, ▲음성 기반의 멀티턴 대화 처리 능력 ▲사람처럼 끊김없이 소통하는 Full-duplex 음성 대화 지원 ▲인간의 가치에 부합하는 답변을 위한 학습과 안전성 강화를 위해 집중할 계획이라고 말했다. 김 성과리더는 “국내 최초로 방언과 한국 문화를 인식할 수 있는 모델이다. 감정을 담은 자연스러운 음성 인터페이스를 제공하며, 복잡한 수학 문제 풀이나 다자간 팟캐스트 음성 생성도 가능하다. 실제 서비스 적용을 고려해 한국어·한국 문화에 특화된 데이터셋을 자체 구축해 한국어 성능을 글로벌 모델보다 높게 끌어올린 것이다”라고 강조했다. 카카오는 멀티모달 이해를 넘어 생성하는 능력까지 고도화하기 위해 현재 이미지 생성 모델 'Kanana-kollage(콜라주)'를 개발해 서비스에 적용하고 있으며, 동영상 생성 모델인 'Kanana-kinema(키네마)'로 확장하고 있다. 인물의 포즈를 정교하게 제어하는 모듈을 추가해 자연스러운 인물 영상을 만들어내며, 생성 속도 단축을 위해 최적화 작업을 진행중이다. 김 성과리더는 “키네마는 단순히 이미지를 움직이는 수준을 넘어 인물 포즈를 정교하게 제어하고 자연스러운 형상을 구현하는 모델이다. 연내에는 한국어·영어 외에도 일본어, 중국어, 베트남어까지 음성 지원을 확장할 것이다”라고 밝혔다. 마지막으로 김 성과리더는 “카나나 모델을 바탕으로 이용자의 마음을 먼저 읽고, 알아서 도와주는 에이전틱 AI를 현실로 만들어 나갈 것” 이라며 “개발자들의 아이디어와 전문성이 더해져 국내 AI 생태계가 한 단계 도약하기를 기대한다”고 말했다.

2025.09.24 11:39안희정 기자

구글, 차세대 AI 검색 기능 'AI 모드' 한국어 공식 지원 개시

구글은 지난 5월 구글 I/O 2025에서 공개힌 차세대 AI 검색 기능 'AI 모드'가 오늘부터 한국어로 정식 제공한다고 9일 일밝혔다. 이번 업데이트로 국내 이용자들은 별도의 구글 랩스 계정 가입이나 사전 신청 없이 구글 검색과 구글 앱의 'AI 모드' 탭에서 새로운 검색 경험을 바로 체험할 수 있다. AI 모드는 구글의 최신 AI 모델인 제미나이 2.5 맞춤형 버전을 기반으로, 기존 검색보다 훨씬 정교하게 질문을 이해하고 답변한다. 복잡하고 긴 질문이나 제품 비교, 여행 계획, 생활 속 복잡한 사용법 설명처럼 기존에는 여러 번 검색해야 했던 질문도 한 번에 해결할 수 있도록 설계됐다. 특히 질문을 세부 주제로 나누어 동시에 여러 검색 쿼리를 실행하는 '쿼리 팬아웃(query fan-out)' 기술을 적용해 더 깊고 폭넓은 결과를 제공한다. 후속 질문에도 자연스럽게 이어진다. 또 유용한 링크까지 함께 제시해 검색 결과 내에서 직접 필요한 정보를 탐색할 수 있도록 돕는다. 이번 업데이트는 텍스트 입력을 넘어 음성과 이미지까지 지원하는 멀티모달 검색 경험을 제공한다는 점에서도 의미가 크다. 이용자는 마이크 버튼을 눌러 긴 질문을 직접 말하거나 이동 중에도 편리하게 검색할 수 있으며, 구글 렌즈와 연동해 통해 사진 촬영이나 이미지 업로드만으로도 복잡한 질문을 할 수 있다. 이를 통해 보다 직관적이고 자연스러운 방식으로 정보를 탐색할 수 있다. 헤마 부다라주 구글 검색 제품 부문 부사장은 “이번 AI 모드의 한국어 지원으로 한국 이용자들이 검색을 더욱 쉽고 직관적으로 활용할 수 있게 됐다”며 “복잡한 질문에 최적화된 고급 추론 능력과 멀티모달 기능을 통해 AI 모드는 검색의 새로운 시대를 여는 중요한 이정표가 될 것"이라고 말했다. 이어 "이번 한국어 지원은 엔드투엔드 AI 검색 경험을 한국 이용자들에게 소개하는 의미 있는 발걸음이다. 더 깊은 탐색과 더 나은 세상 이해에 큰 도움이 될 것으로 기대된다"고 덧붙였다. 구글은 앞으로도 AI 모드를 비롯한 다양한 AI 기능을 지속적으로 발전시켜 한국 이용자들이 웹 탐색과 정보 발견에서 더 많은 기회를 얻을 수 있도록 혁신을 이어간다는 계획이다.

2025.09.09 08:50백봉삼 기자

크라우드웍스, 한국피지컬AI협회 데이터 분과 위원 참여

크라우드웍스는 10월 공식 출범하는 한국피지컬AI협회의 데이터 분과 위원으로 합류한다고 1일 밝혔다. 회사는 협회 내에서 피지컬AI 데이터 과제 기획과 표준화 논의를 주도하며 산업 발전을 이끌어갈 계획이다. 크라우드웍스는 자율주행 로봇, 스마트 토이, 반려동물 로봇, 조리 보조 로봇 등 다양한 로봇 데이터와 제조·화학 등 산업 AI 데이터 구축 자산을 바탕으로 협회 활동을 적극 지원할 예정이다. 특히 다국어 언어·영상·음성·시각 등 멀티모달 AI 데이터 구축 역량을 확장해 VLA(Vision-Language-Action) 데이터 수집·가공을 신속히 지원하고, 이를 통해 피지컬AI 산업의 핵심 경쟁력인 고품질 멀티모달 데이터 확보를 뒷받침할 계획이다. 한국피지컬AI협회는 과학기술정보통신부 승인을 받아 민간 주도로 발족했으며, 10월 초 공식 출범을 앞두고 있다. 협회는 ▲정책 제안 및 예산 반영 활동 ▲VLA 시뮬레이터 플랫폼 및 실증사업 지원 ▲회원사 정보 교류 및 네트워킹 등 다양한 활동을 추진할 예정이다. 피지컬AI는 현실 공간에서 스스로 판단하고 조작하는 인공지능으로, 자율주행차·물류 로봇·휴머노이드·스마트 기기 등 폭넓은 산업 분야에 적용되고 있다. 제조업에서는 공정 최적화와 불량률 감소, 물류에서는 자동 경로 설정과 배송 효율 개선에 활용된다. 최근 산업 현장의 로봇 자동화 수요 확대에 따라 피지컬AI 적용이 빠르게 확산되는 추세다. 정부와 정책기관도 피지컬AI 확산을 적극 지원하고 있다. 기획재정부는 지난달 29일 발표에서 로봇, 자동차, 조선, 가전반도체, 팩토리 등 주요 산업분야의 AI 대전환을 목표로 2조6천억원을 내년에 투입하기로 했으며, 제조업 데이터를 활용한 피지컬AI 기반의 'AI 팩토리' 사업에 가장 많은 2조원을 투입할 예정이라고 밝혔다. 김우승 크라우드웍스 대표는 "피지컬AI는 단순 연산 기술을 넘어 실제 현장을 이해하고 반응하는 데이터 기반 기술"이라며 "데이터 분과 위원으로서 협회 및 회원사와 협력해 과제 기획을 주도하고, 국내 기업들이 피지컬AI 시장에서 경쟁력을 확보할 수 있도록 적극 지원하겠다"고 말했다.

2025.09.01 11:49백봉삼 기자

과학 논문 매일 한 편씩 쓰는 AI모델 만든다

오는 2030년이면 과학분야 논문을 매일 한 편씩 쓰는 인공지능(AI) 멀티모달 파운데이션 모델이 실용화 수준으로 개발된다. 13일 한국전자통신연구원(ETRI)에서 열린 '국가공공분야 소버린 AI 토론회'에서 첫 강연자로 나선 권오욱 인공지능창의연구소 지능정보연구본부장은 "정부 출연연구기관 주요 분야에 특화 적용이 가능한 '소버린 멀티모달 파운데이션 모델'을 개발할 계획"이라며 이 같은 목표를 제시했다. 당초 이 행사 참석자는 출연연구기관에서 80명 정도로 예상했으나, 대략 150 명이 빈자리를 모두 채워, 연구원들의 뜨거운 관심을 드러냈다. 권 본부장은 '공공분야 소버린 AI 특화모델 추진 방안'발표에서 "공개 파운데이션 모델은 고품질 성능 확보와 확장에 어려움이 있다"며 과학기술에 특화한 모델 필요성을 강조했다. 기존 모델은 신규 추가 학습이 많을수록 기존 지식 손상이 더 커지고, 지속적 학습이 불가능하다는 것. 이에 따라 강 본부장은 1,2단계로 나눠 정부 출연연구기관 주요 분야에 특화 적용이 가능한 '소버린 멀티모달 파운데이션 모델'을 개발할 계획이라고 밝혔다. 1단계 사업으로는 오는 2026년부터 2028년까지 세계 수준의 작고 강한 과학자 사고 멀티모달 파운데이션 독자 모델 개발을 목표로 제시했다. 1단계에서 ETRI AI 조직 및 융합 R&D 역량을 전략적으로 활용해 초기 모델을 개발하고, 이를 실적용하는 실증 단계까지 마무리할 계획이다. 출연연 우선 협력 분야로는 바이오 의료와 에너지, 로봇(기계/제조) 중심으로 초기 허브 구축에 집중한다. 특히, 멀티모달 데이터 분야 로봇은 데이터 확보 등 첫 단계부터 모두 '프럼 스크래치 방식'으로 ETRI가 진행할 계획이다. 2단계는 2029~2030년 모델 고도화 단계로 소버린 과학자 사고 멀티모달 파운데이션 모델 확산에 집중할 계획이다. 출연연 주요 분야별 소버린 공공 AI 특화 모델 개발과 국내 산업 연구에 AI과학자 특화 모델 공급 및 기술 사업화, 다학제(집단지성) 과학자 AI협력으로 글로벌 톱 수준 AI기술 경쟁력 확보가 목표다. 2단계에서 ETRI는 출연연 컴퓨팅 자원, 데이터, 인재양성 프로그램 적극 지원 협력하는 출연연 소버린 AI 허브 역할을 수행할 계획이다.' 권 본부장은 다학제 과학자 AI모델이 완성되면, 다학제 과학적 가설 수립, 절차 계획, 논문생성이 가능할 것으로 보고 있다. 예시로 제시한 3개 분야별 2단계 목표는 바이오에서는 바이오 출연연 AI협업형 연구 지능화 모델을 개발한다. 자율적으로 신약 후보물질 탐객이 가능한 적응형 바이오 에이전트 sLLM을 개발할 계획이다. 에너지 분야에서는 에너지 특화 AI 플랜테이션 모델 개발 및 탄소중립 공공에너지 가디언 AI 모델 개발/서비스에 들어갈 계획이다. 로봇(기계/제조)분야에서는 로봇 파운데이션(K-LAM) 허브로 산업/안보/과학 혁신을 주도하도록 할 계획이다. 이에 앞서 축사에 나선 강성원 ETRI 부원장은 "출연연 관심이 이렇게 뜨거울 줄 몰랐다. AI가 모든 R&D에 깊숙히 들어왔고, AI 중심으로 일어나는 미래세계에 대응하기 위해 오늘 이 자리가 마련됐다"며 오늘 행사의 중요성을 강조했다. 권 본부장 강연에 이어 이날 행사에서는 국가과학기술연구회(NST) 산하 15개 정부출연연구기관의 소버린 AI 특화모델 전략도 차례대로 공개됐다. 이어 권 본부장을 좌장으로 출연연 전문가 15명이 참여하는 패널 토론이 진행됐다.

2025.08.13 15:13박희범 기자

Prev 1 2 Next