검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'멀티모달'통합검색 결과 입니다. (31건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

카카오, 'APEC 2025 KOREA 글로벌'서 AI 기술력 뽐낸다

카카오가 글로벌 행사를 통해 AI 기술을 소개한다. 카카오(대표 정신아)는 5일 개최되는 '아시아태평양경제협력체(이하 APEC) 2025 코리아 글로벌 디지털·AI 포럼 및 기업 전시'에 참여한다고 밝혔다. APEC 디지털·AI 장관회의의 부대행사로 개최되는 이번 포럼은 인천 송도 쉐라톤 그랜드호텔에서 열린다. 포럼장 외부에서 진행되는 기업 전시에는 카카오를 비롯해 국내외 IT 기업 총 10여 곳이 참가한다. 카카오는 행사장에 마련된 기업 전시 부스에서 자체 개발한 ▲경량 멀티모달 언어모델 'Kanana-1.5-v-3b'과 ▲AI 가드레일 모델 'Kanana Safeguard(카나나 세이프가드) 2종을 소개한다. 시연 공간을 통해 모델의 기능과 특징을 체험해 볼 수 있다. 지난달 24일 오픈소스로 공개한 'Kanana-1.5-v-3b'은 텍스트 뿐 아니라 이미지 정보도 처리할 수 있는 경량 멀티모달 언어모델이다. 질문 의도를 정확히 이해하는 높은 지시 이행 성능과 뛰어난 한국어·영어 이미지 이해 능력을 보유하고 있다. 이용자가 장소에 대한 사진을 첨부하며 "이 사진이 촬영된 장소를 간단히 설명해줘"라고 질문 시 "이 사진은 서울 광화문 일대를 배경으로 하고 있습니다"와 같이 국내 지역 정보 등 한국 문화 대한 높은 인식력을 토대로 정확한 답변을 제공한다. 카카오는 여러 종류의 멀티모달 언어모델을 통해 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI의 연구·개발에 집중하고 있다. AI 서비스의 안전성과 신뢰성을 검증할 수 있는 AI 가드레일 모델 '카나나 세이프가드'는 카카오가 자체 개발한 언어모델을 기반 기술로 사용했다. 한국어 및 한국 문화를 반영한 자체 구축 데이터셋을 활용해 한국어에 특화된 성능을 보유하고 있다. 총 세 가지의 모델로 구성되며, 리스크의 유형에 따라 유해성 및 위험성에 대한 효과적 탐지가 가능하다. 카나나 세이프가드는 다양한 생성형 AI 서비스의 확산 속에 유해 콘텐츠 등 위험 요소들을 방어할 수 있는 기술적·제도적 장치다. 지난 5월 생태계에 기여를 위해 오픈소스로 공개한 바 있다. 이날 포럼의 별도 이벤트로 글로벌 빅테크 기업 메타가 개최한 세션에는 카카오 김경훈 AI Safety 리더가 패널토론의 연사로 참여해 오픈소스 AI의 가치에 대한 주제로 논의를 진행했다. 세션에는 메타, 오픈소스 비영리 단체 리눅스 재단, KISTI도 참석했다. 카카오 관계자는 "전시 공간을 통해 카카오가 구축한 AI 기술 개발 현황을 직접 경험해 볼 수 있는 계기를 마련하고자 했다"며 "앞으로도 AI 기술 개발을 토대로 국내 AI 생태계 활성화와 경쟁력 확보를 위해 노력해 갈 것"이라고 말했다.

2025.08.05 11:30백봉삼 기자

슈퍼브에이아이, LG AI연구원 컨소시엄서 '피지컬 AI' 설계 맡아

슈퍼브에이아이가 정부 초거대 인공지능(AI) 전략 사업에서 '피지컬 AI' 구현을 위한 핵심 역할을 맡았다. 슈퍼브에이아이는 과학기술정보통신부의 '독자 AI 파운데이션 모델' 프로그램에서 LG AI연구원 컨소시엄에 참여한다고 5일 밝혔다. 해당 컨소시엄은 최종 선정됐으며, 슈퍼브에이아이는 LG 계열사를 제외한 유일한 모델 개발 파트너로 활동하게 된다. 슈퍼브에이아이는 시각, 언어, 행동 등 복합 데이터를 수집하고 선별해 합성하는 전 과정을 주도한다. 이를 통해 멀티모달·피지컬 AI 구현을 위한 데이터 파운데이션을 설계하고 구축하는 핵심 개발자로 나선다. 정부 사업은 무빙 타겟 전략을 기반으로 6개월~1년 단위로 목표 성능을 갱신하며 운영된다. 향후 3년간 글로벌 최고 수준의 AI 모델 성능을 따라잡는 것을 목표로 하며, 각 단계에서 성능 기준은 지속적으로 상향된다. LG AI연구원 컨소시엄은 기존의 거대언어모델(LLM) 중심 전략과 달리 비전-언어 융합, 멀티모달, 피지컬 AI라는 독자 노선을 택했다. 슈퍼브에이아이는 해당 전략 내에서 비전 모델 구현과 데이터 기술 고도화에 집중한다. 피지컬 AI는 AI가 현실 세계와 직접 상호작용할 수 있는 차세대 기술을 의미한다. 센서로 환경을 인식하고 데이터를 분석해 판단을 내린 뒤 로봇 등의 장치를 통해 실제 행동으로 연결되는 구조다. 이 기술은 제조, 물류, 의료, 서비스 등 다양한 산업에 적용될 수 있다. 특히 제조 강국인 한국은 산업용 데이터와 인프라가 풍부해 피지컬 AI 경쟁력이 높다. 슈퍼브에이아이는 해당 분야의 AI 두뇌에 해당하는 핵심 모델 개발을 담당한다. 이번 사업에서는 멀티모달 데이터를 오픈소스로 공개하는 방식도 추진된다. 상업적 활용이 가능한 데이터를 개방함으로써 피지컬 AI의 진입 장벽을 낮추고, 생태계 전반의 확산을 유도한다. 슈퍼브에이아이는 이미 산업용 파운데이션 모델 '제로'를 자체 개발한 경험이 있다. 제로는 소량 데이터로도 고성능을 발휘하며, 글로벌 벤치마크에서 주요 모델들을 제치고 우수한 성과를 거둔 바 있다. 특히 CVPR 2025 챌린지에서 2위를 기록하며 글로벌 비전 AI 기술 경쟁력을 입증했다. 슈퍼브에이아이는 이 같은 기술력을 바탕으로 이번 국가사업에서도 중심 역할을 수행하게 됐다. 2018년 설립된 슈퍼브에이아이는 삼성, LG전자, 퀄컴 등 100개 이상의 기업에 솔루션을 공급하고 있다. 현재 한국, 미국, 일본에 진출했으며 31건의 특허를 보유 중이다. 김현수 슈퍼브에이아이 대표는 "제조업 강국인 한국이 피지컬 AI 시대에서 기술 주도권을 확보하는 전환점을 만들어 나가겠다"고 밝혔다.

2025.08.05 11:23김미정 기자

카카오, 경량 멀티모달·MOE 오픈소스 공개

카카오(대표 정신아)는 국내 공개 모델 중 최고 성능의 경량 멀티모달 언어모델과 혼합 전문가(MoE) 모델을 국내 최초 오픈소스로 공개한다고 24일 밝혔다 카카오는 허깅페이스를 통해 이미지 정보 이해 및 지시 이행 능력을 갖춘 경량 멀티모달 언어모델 '카나나(Kanana)-1.5-v-3b'와 MoE 언어모델 '카나나-1.5-15.7b-a3b'를 오픈소스로 선보였다. 지난 5월 공개한 언어모델 카나나-1.5 4종에 이어 두 달 만에 추가 모델을 오픈소스로 공개한 것이다. 정부가 추진하는 '독자 인공지능(AI) 파운데이션 모델 프로젝트'에 참여한 카카오는 이러한 자체 모델 개발 역량 및 카카오톡 등의 대규모 서비스 운영 경험 등을 토대로 전 국민의 AI 접근성을 높이고 국가 AI 경쟁력을 강화하는데 기여한다는 방침이다. 이날 공개된 '카나나-1.5-v-3b'는 텍스트 뿐만 아니라 이미지 정보도 처리할 수 있는 멀티모달 언어모델로, 지난 5월 말 오픈소스로 공개한 카나나 1.5 모델을 기반으로 하고 있다. 카나나 1.5는 모델 개발의 처음부터 마지막 단계까지 카카오의 자체 기술을 바탕으로 구축하는 '프롬 스크래치' 방식으로 개발됐다. 멀티모달 언어모델인 '카나나-1.5-v-3b'는 이용자의 질문 의도를 정확히 이해하는 높은 지시 이행 성능과 뛰어난 한국어·영어 이미지 이해 능력을 보유했다고 회사 측은 설명했다. 또한, 한국어 벤치마크에서 유사 사이즈의 국내외 공개 모델과 비교한 결과 최고 점수를 기록했고 다양한 영어 벤치마크에서 해외 오픈소스 공개모델과 비교했을 때도 유사한 수준의 성능을 보인 것으로 알려졌다. 지시 이행 능력 벤치마크에서는 국내 공개된 유사한 규모의 멀티모달 언어모델 대비 128% 수준의 성능을 기록했다. 카카오는 인간 선호 반영 학습과 지식 증류를 통해 '카나나-1.5-v-3b'의 성능을 극대화했다. 지식 증류는 고성능의 대형 모델로부터 비교적 작은 모델을 학습하는 방식이다. 단순한 정답 뿐 아니라 대형 모델의 예측 확률 분포까지 학습에 반영함으로써 작은 모델이 더 정교하고 일반화된 예측 능력을 갖추도록 돕는 기술이다. 이를 통해 상대적으로 경량화된 모델 구조임에도 정확도나 언어 이해 등의 능력에서 대형 모델의 높은 성능에 근접하거나 이를 뛰어 넘을 수 있는 능력을 발휘하도록 돕는다. '카나나-1.5-v-3b'는 경량 멀티모달 언어모델의 강점을 토대로 ▲이미지 및 글자 인식 ▲동화 및 시 창작 ▲국내 문화유산 및 관광지 인식 ▲도표 이해 ▲수학 문제풀이 등 여러 분야에서 활용할 수 있다. 예를 들어, 장소 사진과 함께 이 사진이 촬영된 장소에 대해 간단히 설명해줘라고 질문하면 “이 사진은 서울 청계천을 배경으로 하고 있습니다”와 같이 국내 지역에 대한 인식력을 바탕으로 정확한 답변을 제공한다. 카카오는 모델의 성능에 집중하는 단계를 넘어 AI가 사람처럼 생각하고 행동할 수 있는 ▲멀티모달 이해 능력 ▲사용자 지시 수행 능력 ▲추론능력을 갖추도록 발전시키는 데 주력하고 있다. 하반기 중에는 에이전트형 AI 구현에 필수적인 추론 모델의 성과도 공개할 예정이다. 카카오는 일반적인 '밀집' 모델과 차별화되는 MoE 구조의 언어모델도 오픈소스로 함께 공개했다. 'MoE'는 입력 데이터 처리 시 모든 파라미터가 연산에 참여하는 기존 모델과 달리 특정 작업에 최적화된 일부 전문가 모델만 활성화되는 방식으로 효율적인 컴퓨팅 자원 활용과 비용 절감이 특징이다. MoE 아키텍처를 적용한 '카나나-1.5-15.7b-a3b'는 전체 15.7B의 파라미터 중 추론 시 약 3B 파라미터만 활성화돼 동작한다. 카카오는 모델의 학습 시간과 비용을 절약하기 위해 자사의 3B 규모의 모델 '카나나-Nano-1.5-3B'에 '업사이클링' 방식을 적용해 개발했다. 업사이클링은 기존 다층 신경망(MLP) 레이어를 복제해 여러 전문가 레이어로 변환하는 방식으로 모델을 처음부터 개발하는 방식에 비해 효율적이다. 활성화되는 파라미터가 3B에 불과하지만 성능은 '카나나-1.5-8B'와 동등하거나 상회하는 수준을 기록했다. 카카오의 MoE 모델은 고성능 AI 인프라를 저비용으로 구축하고자 하는 기업이나 연구 개발자들에게 실용적인 도움을 제공할 수 있다는 설명이다. 특히 추론 과정에서 제한된 파라미터만 사용하는 구조적 특성 덕분에 저비용, 고효율 서비스 구현에 유리하다. 카카오는 이번 경량 멀티모달 언어모델과 MoE 모델의 오픈소스 공개를 통해 AI 모델 생태계에 새로운 기준을 제시하고 더 많은 연구자와 개발자가 강력한 AI 기술을 자유롭게 활용할 수 있는 기반을 마련해 갈 계획이다. 뿐만 아니라 자체 기술 기반의 모델을 지속적으로 고도화하고 모델 스케일업을 통해 글로벌 플래그십 수준의 초거대 모델 개발에 도전함으로써 국내 AI 생태계의 자립성과 기술 경쟁력 강화에 기여할 계획이다. 김병학 카카오 카나나 성과리더는 “이번 오픈소스 공개는 비용 효율성과 성능이라는 유의미한 기술 개발의 성과를 거둔 것으로 단순한 모델 아키텍처의 진보를 넘어 서비스 적용과 기술 자립이라는 두 가지 측면의 목표에 부합하는 결과물”이라고 말했다.

2025.07.24 10:57박서린 기자

"글로벌 수준"...카카오, 멀티모달 언어모델 'Kanana-o' 성능 공개

카카오가 새로운 인공지능 모델을 통해 기술 경쟁력 강화를 이어간다. 카카오(대표 정신아)는 공식 테크블로그를 통해 통합 멀티모달 언어모델 'Kanana-o'와 오디오 언어모델 'Kanana-a'의 성능과 개발 후기를 1일 공개했다. 통합 멀티모달 언어모델인 Kanana-o는 텍스트와 음성, 이미지까지 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 모델이다. 텍스트, 음성, 이미지 중 어떠한 조합으로 질문을 입력하더라도 처리 가능하며, 상황에 맞는 텍스트나 자연스러운 음성으로 응답 가능한 구조로 설계됐다. 카카오는 '모델 병합' 기술을 기반으로 이미지 처리에 특화된 모델 'Kanana-v'와 오디오 이해 및 생성에 특화된 'Kanana-a' 모델을 통합, 단기간 내 효율적으로 Kanana-o를 개발했다. 통합 후에는 이미지, 오디오, 텍스트 데이터를 동시에 학습하는 '병합 학습'을 통해 시각과 청각 정보를 동시에 이해하고, 텍스트와 연결 지을 수 있도록 통합 훈련을 거쳤다. 이런 과정을 통해 기존 LLM 구조에서 이미지 이해 능력과 음성 인식과 합성, 감정 이해 등 고도화된 오디오 능력을 확장시킨 통합 멀티모달 언어모델이 구현됐다. Kanana-o는 음성 감정 인식 기술을 통해 사용자의 의도를 올바르게 해석하고, 상황에 맞는 적절한 반응과 답변을 제공해준다. 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석하고, 대화 맥락에 맞는 감정적이고 자연스러운 음성의 응답을 생성하는 것이 특징이다. 대규모 한국어 데이터셋을 활용해 한국어의 특수한 발화 구조, 억양, 어미 변화 등을 정밀하게 반영하기도 했다. 특히 제주도, 경상도 등 지역 방언을 인식하고 이를 표준어로 변환해 자연스러운 음성을 생성할 수 있다. 지속적인 성능의 고도화를 위해 카카오는 현재 독자적인 한국어 음성 토크나이저(오디오 신호를 일정 단위로 작게 분해하는 도구) 개발을 진행 중이다. 스트리밍 방식의 음성합성 기술을 적용해 사용자가 긴 대기 시간 없이 응답을 제공하는 강점도 보유했다. 예를 들어, 이미지와 함께 "이 그림에 어울리는 동화를 만들어 줘"라고 입력하면, Kanana-o는 해당 음성을 이해하고 사용자의 억양과 감정 등을 분석해 자연스럽고 창의적인 이야기를 실시간으로 생성해 들려준다. Kanana-o는 한국어 및 영어 벤치마크에서 글로벌 최고 모델들과 유사 수준을 기록했으며, 한국어 벤치마크에서는 높은 우위를 보였다. 특히, 감정인식 능력에서는 한국어와 영어 모두에서 큰 격차를 기록하며, 감정까지 이해하고 소통할 수 있는 AI 모델의 가능성을 입증했다. 이미지와 음성을 통합적으로 이해해야 하는 '이미지-음성 QA(질의응답)' 태스크에서도 강력한 성능을 달성하며, 통합 멀티모달 언어모델로서의 글로벌 경쟁력을 확인했다. 카카오는 향후 Kanana-o를 통해 ▲다중 턴 대화 처리 ▲양방향 데이터 동시 송수신 기술 대응 능력 강화 ▲부적절한 응답 방지를 위한 안전성 확보 등을 목표로 연구 개발을 지속해 갈 계획이다. 이를 통해 다중 음성 대화 환경에서의 사용자 경험을 혁신하고, 실제 대화에 가까운 자연스러운 상호작용을 실현해가는 것이 목표다. 카카오 김병학 카나나 성과리더는 "카나나 모델은 복합적인 형태의 정보를 통합적으로 처리함으로써 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI로 진화하고 있다"며 "독자적인 멀티모달 기술을 바탕으로 자사의 인공지능 기술 경쟁력을 강화하는 한편, 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 꾸준히 기여할 계획"이라고 말했다.

2025.05.01 10:13백봉삼 기자

코오롱베니트, 리벨리온 손 잡고 'AI 비즈니스 생태계' 확장 본격화

코오롱베니트가 자체 개발한 안전 관제 시스템 '인공지능(AI) 비전 인텔리전스'로 AI 비즈니스 생태계 확장에 본격 나섰다. 국내 AI 반도체(NPU) 전문 기업 리벨리온과의 협업을 통해 건설 현장에 특화한 LLM(거대 언어 모델, Large Language Model) 기술을 고도화함으로써 코오롱글로벌 실제 건설 현장에 'AI 비전 인텔리전스'를 적용한 것이다. 코오롱베니트는 'AI 비전 인텔리전스' 고도화를 위한 최종 개념검증(PoC) 작업을 코오롱베니트·코오롱글로벌·리벨리온·위시 4사가 컨소시엄 형태로 진행했다고 21일 밝혔다. 코오롱베니트는 건설 환경에 최적화된 안전 관제 시스템을 만들기 위해 방대한 코오롱글로벌 건설 현장 데이터를 정제해 멀티(시각+언어) 구조의 AI 모델을 완성했다. 이 작업은 코오롱글로벌이 제공한 CCTV 영상과 건설 현장 운영 데이터 기반의 현장 맞춤형 기능 요구사항 수립과 시스템 점검을 바탕으로 이뤄졌다. 리벨리온은 자체 AI 반도체 아톰(ATOM)으로 NPU(Neural Processing Unit, 신경망처리장치) 기반의 CCTV 관제 서버 및 기술을 구성했다. 위시는 시각(Vision)과 언어(LLM) 정보를 동시에 출력하는 현장 CCTV 안전 관제 모니터링 솔루션을 제공했다. 이번 'AI 비전 인텔리전스' 프로젝트는 국내 AI 선도 기업과의 협력을 통해 기술력을 대폭 높인 점이 특별하다. 코오롱베니트는 국내 대표 AI 반도체 기업 리벨리온과 함께 GPU·NPU를 동시 활용하는 이종 반도체 기반 AI CCTV 안전 관제 시스템을 완성했다. 코오롱베니트 AI 솔루션센터의 GPU(Graphic Processing Unit, 그래픽처리장치)로 실제 현장의 데이터를 학습한 뒤 이를 리벨리온 AI 반도체가 적용된 NPU 서버로 배포해 추론력을 더 강화하는 방식이다. 이로 인해 현장에서 탐지된 위험 상황 설명이 훨씬 더 구체적이고 정교화됐다. 'AI 비전 인텔리전스'는 건설 현장의 ▲안전모 미착용 ▲위험구역 진입 ▲신호수 배치유무 ▲중장비 접근 등의 사고 예방율을 크게 높일 것으로 전망된다. 코오롱베니트가 개발한 건설 현장에서 탐지된 시각적인 위험 정보를 더 정교화된 언어적 알림 문구로 바꾸는 멀티 모델의 효과다. 이 모델은 기존 대비 처리 속도가 높은 고성능 라이브러리 vLLM(Versatile Large Language Model)을 사용해 LLM 추론 성능을 극대화했다. 코오롱베니트는 독자 개발 안전 관제 시스템 'AI 비전 인텔리전스'를 사업화해 AI 활용을 대중화하는 'AI 엑셀러레이션 서비스' 사업 성장 계기를 마련할 계획이다. 코오롱베니트 AI R&D(연구개발) 부문은 텍스트·이미지·음성 등을 동시 처리하는 '멀티모달 AI 서비스' 출시를 목표로 다양한 산업에 특화한 AI 기술을 개발하고 있다. 코오롱베니트에서 AI 관련 기술 개발을 담당하는 이승재 AI R&D팀장은 "우리는 고객의 사업 효율과 편의성을 극대화하는 AI 기술을 대중화하고 기업의 비즈니스 혁신성을 높이는 신사업 분야를 개척하고 있다"며 "우수한 기술력을 가진 국내 선도 기업들과 기술력을 연계해 AI 비즈니스 생태계를 확장해 나가겠다"고 밝혔다.

2025.04.21 11:19장유미 기자

챗GPT 다음은 '이것'?…구글 멀티모달 AI가 바꿀 로보틱스 혁명

데미스 하사비스 구글 딥마인드 최고경영자(CEO)가 구글의 인공지능(AI) 모델 '제미나이'와 영상 생성 AI '비오2'를 결합한다는 계획을 발표했다. 11일 테크크런치에 따르면 하사비스 CEO는 리드 호프먼 링크드인 공동 창립자가 진행하는 팟캐스트 파서블에 출연해 제미나이에 비오2를 결합해 물리 세계를 이해할 수 있는 AI 모델로 고도화하겠다고 밝혔다. 하사비스 CEO는 "비오2가 많은 유튜브 영상을 학습하는 것만으로도 현실 세계의 물리 법칙을 이해할 수 있다는 것에 놀랐다"며 "이는 로봇 산업에 엄청난 영향을 미칠 수 있다고 생각했다"고 말했다. 이어 "우리가 개발한 멀티모달 파운데이션 모델 제미나이와 비오2를 향후 결합할 계획"이라며 "AI가 단순 챗봇 수준을 넘어 인간이 살고 있는 현실 세계를 이해하고 도움을 줄 수 있도록 할 것"이라고 강조했다. 두 AI 모델을 결합해 유튜브 영상 학습과 같은 기존의 강화 학습만으로 복잡한 인간의 창의성과 행동을 모방할 수 있는 '인공 일반 지능(AGI)'에 도달할 수 있다는 게 구글의 기대다. 특히 로보틱스 산업에서의 활용도 성공적일 것이란 관측이다. 로보틱스 기술에 필요한 물리적 상호작용 없이도 영상 AI를 기반으로 현실 세계를 이해할 수 있다는 것이다. 앞서 구글 딥마인드는 로봇 맞춤형 AI 모델인 '제미나이 로보틱스'와 다른 고급 시각·언어·행동(VLA) 모델 대비 성능이 2배 향상된 벤치마크 결과도 발표한 바 있다. 하사비스 CEO는 "우리 삶에 실질적인 도움을 주는 AI 기술은 로보틱스 영역에도 필요하다"며 "물리 법칙을 이해하는 멀티모달 모델들에 로봇이 필요로 하는 행동, 운동 제어, 계획 수립과 관련된 미세조정을 수행해 이를 성공적으로 구현할 수 있다"고 설명했다. 이어 "범용 AI 모델에 데이터를 추가 학습하거나 특별한 노력 없이도 로보틱스 환경에 알맞은 AI를 개발·이식할 수 있다"며 "이는 5년 전 최고의 로봇공학자들조차 예측하기 어려웠던 결과"라고 덧붙였다. 그러면서 "우리가 만들고 있는 범용 멀티모달 모델들이 충분히 정교해져 로봇에 그대로 탑재될 것"이라며 "언어·과학 분야에 챗GPT·알파고·알파폴드가 가져온 결정적인 순간이 아직 로보틱스 산업에는 오지 않았으나 그 시점이 곧 올 것"이라고 강조했다.

2025.04.11 11:16한정호 기자

유영상 SKT "연내 멀티모달·추론형 AI 모델 개발"

유영상 SK텔레콤 대표는 멀티모달 인공지능(AI) 모델, 추론형 AI 모델을 연내 개발하겠다는 계획을 4일 밝혔다. 유 대표는 이날 사내 인트라넷에 올린 'SK텔레콤의 르네상스를 위하여'라는 글을 통해 AI 피라미드 전략 2.0 등의 사업 전략을 밝혔다. 유 대표는 "글로벌 통신사들은 대부분 네트워크에 AI를 도입해 운용 비용을 절감하고 마케팅에 활용하는 등 '수요자로서의 AI'에 관심이 많다"며 "지금은 문제를 풀기 위해 임시적으로 수요자 공급자 관점으로 인수분해했지만 궁극적으로는 이 둘을 융합시킬 것"이라고 말했다. 유 대표는 AI 사업을 통한 가시적 성과를 창출할 영역으로 '서비스형 그래픽처리장치'(GPUaaS) 분야를 꼽았다. 또한 데이터센터가 빨리 필요한 고객을 타겟으로 한 모듈러 DC, 보안을 목적으로 한 단일 고객에 최적화한 DC, 초거대규모 AI DC, 맞춤형 상품 등 고객 수요에 맞는 다양한 상품을 내놓을 계획이다. 아울러 AI 기업간거래(B2B) 영역에서는 AI 에이전트가 업무를 도와주는 '에이닷 비즈'를 운영 중으로, 이를 연내 SK 멤버사에 도입하고 AI 기업소비자간거래(B2C)용으로 선보인 에이닷의 역량을 강화할 예정이다. 글로벌향으로 내놓은 AI 에이전트 '에스터'는 사용자층을 늘려나간다는 방침이다. 자체 거대언어모델(LLM) 에이닷엑스(A.X) 4.0은 개발 마무리 단계로 주요 LLM에 못지않은 성능을 가지면서도 효율이 높은 한국어 특화 LLM으로 준비되고 있다고 했다. 이는 연내 멀티모달 AI 모델, 추론 모델로 계속 개발할 예정이다. 유 대표는 "여러 불확실성 속에서도 SK텔레콤은 전략의 실행과 구성원들의 열정을 통해 르네상스를 이뤄 나갈 것"이라며 "올해는 SK텔레콤의 지속적 성장을 증명하는 중요한 한 해가 될 것"이라고 말했다.

2025.04.04 14:21최이담 기자

오픈AI 샘 알트먼 "이미지 생성 모델 인기에 서버 과부하"

오픈AI가 출시한 '챗GPT-4o 이미지 생성(ChatGPT-4o Image Generation) 모델'이 샘 알트먼 최고경영자(CEO)를 난감하게 할 정도로 폭발적인 인기를 얻고 있다. 28일 CNBC에 따르면 샘 알트먼 CEO는 X(옛 트위터) 게시물을 통해 "사용자들이 새로운 챗GPT의 이미지 생성을 좋아하는 것은 정말 즐겁지만 자사 GPU가 녹아내리고 있다"고 밝혔다. 오픈AI가 새로 선보인 이미지 생성 모델은 텍스트와 이미지를 모두 통합할 수 있는 멀티모달 AI 모델인 챗GPT-4o 기반 서비스로 유료 구독자들을 비롯한 무료 사용자들에게도 공개됐다. 샘 알트먼 CEO도 자신의 X 프로필 사진을 챗GPT 이미지 생성 모델로 제작한 일본 지브리 애니메이션 스타일의 캐릭터 이미지로 바꿔 주목받았다. 이후 챗GPT의 이미지 생성 모델을 이용해 제작한 이미지들이 다양한 소셜 미디어에서 빠르게 확산되며 큰 인기를 끌고 있는 상황이다. 이 때문에 오픈AI의 서버조차 과부하가 걸렸다. 이에 샘 알트먼 CEO는 당분간 이미지 생성에 드는 속도와 제작 가능한 이미지 개수를 제한하는 등의 대응조치를 취할 것이라고 설명했다. 이제 무료 사용자들이 생성할 수 있는 이미지 개수는 하루당 3장으로 제한된다. 또 오류 수정 작업도 진행한다. 샘 알트먼 CEO는 "챗GPT가 일부 이미지를 생성하지 못하고 있다"며 "가능한 한 빨리 수정할 것"이라고 말했다.

2025.03.28 15:25한정호

IPO 앞둔 심플랫폼, 산업용 AI '인스파이어' 공개…"산업 AI 혁신 앞장선다"

기업공개(IPO)를 앞둔 심플랫폼이 산업 환경에 최적화된 인공지능(AI) 모델을 개발해 산업 현장의 데이터 유형을 효과적으로 분석하고 공정 최적화와 품질 개선을 실현한다. 심플랫폼은 산업용 파운데이션 모델의 핵심 기술인 '인스파이어(INSPIRE)' 개발을 최근 완료했다고 10일 밝혔다. 이 AI 모델은 실시간 데이터 수집과 분석을 최적화해 제조업을 비롯한 다양한 산업 분야에서 즉시 활용할 수 있다. '인스파이어'의 가장 큰 특징은 산업 현장에서 발생하는 비동기적 데이터 문제를 해결하는 것이다. 이 기술은 영상, 센서, 품질 데이터 등 서로 다른 유형의 데이터를 통합해 분석 신뢰도를 높이고 각 산업별 도메인 특성을 유지하면서도 일관된 데이터 해석을 가능하게 한다. 실제 데이터 적용 결과 다양한 노이즈 환경에서도 정확도를 유지하며 일관된 개선 효과를 입증했다. 특히 반도체 및 2차 전지 제조 공정에서 인스파이어의 강점이 두드러진다. 고해상도 이미지 분석을 통해 미세 결함을 감지하고 최적의 공정 조건을 예측해 예지 정비까지 실현할 수 있다. 기존 AI 모델로는 감지하기 어려웠던 품질 이상 요소를 조기에 발견하고 보다 정교한 예측을 가능하게 한다는 점이 핵심으로, 제조업체는 품질 향상, 비용 절감, 생산성 극대화 등의 효과를 기대할 수 있다. 현재 산업 현장에서는 '챗GPT'나 딥시크 같은 언어 기반 AI 모델을 활용하기 어렵다는 한계가 있다. 제조업에서는 시계열 데이터와 영상 데이터가 혼합돼 있어 이를 효과적으로 분석할 AI 기술이 필수적이다. 심플랫폼의 '인스파이어'는 이러한 문제를 해결하는 멀티모달 AI 기술로, 기존 AI 모델의 한계를 뛰어넘는 산업 맞춤형 솔루션을 제공한다. 심플랫폼은 기술력뿐만 아니라 다수의 고객사를 확보하며 높은 수익성과 매출 가시성을 입증하고 있다. 지난해에는 코스닥 기술특례상장을 위한 기술성 평가를 통과해 AI 사물인터넷(AIoT) 플랫폼 기술력과 실적 성장성을 공식적으로 인정받았다. 강태신 심플랫폼 대표는 "인스파이어 기술은 산업용 AI의 새로운 패러다임을 제시하며 제조업뿐만 아니라 품질 관리, 예측 유지보수 등 다양한 산업 분야에서 핵심적인 역할을 할 것"이라며 "AI가 산업 혁신을 가속화하는 가운데 우리는 기술력뿐만 아니라 실적이 뒷받침되는 B2B AIoT 기업으로서 탄탄한 기반을 갖추고 상장을 앞두고 있다"고 밝혔다.

2025.02.10 16:40조이환 기자

삼성전자 "갤럭시 AI, 실생활 도움 목표...사용자 중심 연구"

[새너제이(미국)=이나리 기자] 삼성전자가 갤럭시 AI를 통해 실생활에 도움이 되는 AI 경험을 제공하겠다는 청사진을 제시했다. 김정현 삼성전자 MX사업부 CX실장 부사장은 23일(현지시간) 미국 캘리포니아주 새너제이에서 진행된 기자 간담회에서 "갤럭시 AI는 AI에 대한 거리감을 좁히고 실생활에 더 도움이 될 수 있도록, 사용자를 중심에 두고 발전을 이어왔다"며 "이번 갤럭시S25 시리즈를 통해 사용자들은 더욱 유용하고 손쉬운 모바일 AI 경험을 즐길 수 있고 개인정보에 대한 걱정에서도 자유로워질 것"이라고 말했다. 삼성전자는 전날(현지시간 22일) '갤럭시 언팩 2025' 행사를 통해 AI 에이전트와 멀티모달이 강력해진 '진정한 AI 폰' 갤럭시S25 시리즈를 선보였다. 앞서 삼성전자는 지난해 1월 최초의 AI폰인 갤럭시S24 시리즈를 출시하며 모바일 AI 시대를 개막한 바 있다. 삼성전자는 런던대학교 골드스미스 경영연구소와 작년부터 10개국을 대상으로 모바일 AI가 사용자 일상 경험에 미치는 영향을 분석했다. 그 결과 AI 폰이 출시된지 1년이 지난 지금 모바일 AI를 적극 사용하는 인구가 지난 6개월 전 대비 늘었지만, 여전히 AI 사용률이 30% 이하인 것으로 나타났다. 응답자들은 일상에 AI를 도입하는 데 거리감을 느끼는 주요 원인으로 ▲'나의 일상에 딱 필요한 AI 기능이 부재해서'(56%) ▲'AI는 사용이 용이하지 않아서'(85%) ▲'AI 사용 시 개인정보 유출이 우려돼서'(90%)를 꼽았다. 김정현 부사장은 "진정한 AI는 멀티모달 AI 에이전트, 통합형 AI 플랫폼, 개인화된 AI 3가지를 갖춰야 한다"고 강조하며 "삼성전자는 소비자들의 AI 사용을 높이기 위한 방법으로 실생활 유용성, 손쉬운 접근성, 보안성 강화를 통해 AI 기술의 대중화를 이끌어갈 계획이다"고 밝혔다. 이어 김 부사장은 "갤럭시 AI는 소비자들의 노력은 최소화하고 결과물은 극대화하는 것이 핵심"이라며 "멀티모달을 갖춘 AI를 쉽게 접근하기 위해 스마트폰의 사이드 버튼을 누르면 바로 활용할 수 있도록 접근성을 부여했다"고 말했다. 피처폰에서 스마트폰으로의 전환처럼, AI 폰도 기술적 퀀텀 점프가 필요하다. 그는 "기존의 음성 비서나 AI 기능들이 특정 허들을 넘지 못했다면, 이제는 그 한계를 극복할 수 있는 기술적 기반이 마련됐다"고 말했다. 이를 위해서는 칩셋, 플랫폼, 그리고 에코시스템 파트너들과의 긴밀한 협력이 필수적이다. 김 부사장은 "업계 리더들과의 논의를 통해 AI 전환의 타이밍이 왔다는 공감대가 형성됐다"며, "이에 따른 투자와 인력 리소스 투입이 본격화되고 있다"고 밝혔다. 이어 "삼성은 변화에서 선두에 있어야 한다고 판단해 작년 갤럭시S24부터 AI폰을 만들고 있는 것"이라고 덧붙였다. AI 통합 플랫폼은 안드로이드를 기반으로 한다. 삼성전자는 '원 UI 7'을 통해 강력한 크로스 앱을 지원하고, 사용자 편의성을 최우선으로 고려한다는 점이 차별화다. 예를 들어 프랑스 언어로 된 식당 메뉴판을 보고 주문할때, 기존에는 메뉴판의 외국어를 번역하고, 내용을 요약하고, 예산 범위 내 메뉴를 추천받으려면 각각의 앱을 따로 실행해야 했다. 하지만 AI 통합 플랫폼에서는 "프랑스어 메뉴를 번역하고 요약해서 50달러 이하 메뉴를 추천해줘"라는 하나의 음성 명령만으로 이 모든 과정을 자동으로 처리할 수 있다. 즉, 복잡한 명령어나 특정 앱의 실행 순서를 기억할 필요 없이, 일상적인 대화처럼 원하는 작업을 요청하면 된다. 이는 기술적 진입장벽을 낮추고 누구나 쉽게 AI 기능을 활용할 수 있게 한다. 삼성전자는 자체 글로벌 리서치 조직을 통해 각국의 언어와 방언을 연구하고 있다. 이를 AI 시스템에 적용하는 것은 삼성만이 할 수 있는 차별화 서비스다. 정혜순 삼성전자 MX사업부 개발실 부사장은 "갤럭시 AI는 짧은 기간에 20개국 언어를 지원하고, 전 세계 실제 사용 빈도는 80% 이상의 커버리지를 확보했다. 아랍어의 경우 20개 이상의 방언까지 세밀하게 지원한다"고 강조하며 "이러한 광범위한 언어 지원은 일반 서드파티 앱이나 개별 개발자들이 구현하기 어려운 수준의 기술력이 요구되는 분야다"고 말했다. 그 밖에 갤럭시S25 시리즈는 ▲날씨, 일정, 수면 점수 등 사용자에게 개인화된 맞춤형 정보 브리핑을 제공하는 '나우 브리프(Now Brief)' ▲멀티모달을 통해 그림과 텍스트, 음성을 종합적으로 인식해 다양한 스타일의 정교한 이미지를 생성해 주는 '그리기 어시스트(Drawing Assist)' 등 모바일 AI 경험을 제공하는 진정한 AI 스마트폰이다. 삼성전자는 폴더블폰과 태블릿 등 다양한 디바이스에 최적화된 AI 경험도 준비 중이다. 원UI 7의 경우 기존 사용자들의 편의성을 고려해 이전 방식 또는 신규 방식을 선택할 수 있는 옵션을 제공할 계획이다. 김 부사장은 "스마트폰, 태블릿의 대화면, 워치의 소형 디스플레이, 버즈와 같은 디스플레이가 없는 기기 등 각각의 특성에 맞는 UI/UX를 개발하고 있다. AI 기술이 빠른 속도로 진화하고 있는 만큼, 우리도 새로운 AI 경험을 계속해서 만들어갈 것"이라며 "궁극적으로는 소비자들의 실생활에 도움이 되는 것이 목표"라고 강조했다.

2025.01.26 11:00이나리 기자

구글·엔비디아, 멀티모달 뛰어넘다…"다음 세대는 '물리 AI'"

밀키트는 손질된 식재료와 양념을 알맞게 담은 간편식입니다. 누구나 밀키트만 있으면 별도 과정 없이 편리하게 맛있는 식사를 할 수 있습니다. [김미정의 SW키트]도 마찬가지입니다. 누구나 매일 쏟아지는 소프트웨어(SW) 기사를 [김미정의 SW키트]로 한눈에 볼 수 있습니다. SW 분야에서 가장 주목받는 인공지능(AI)과 보안 이야기를 이해하기 쉽고 맛있게 보도하겠습니다. [편집자주] 구글과 엔비디아가 인공지능(AI)을 한 단계 끌어올린 기술을 공개하면서 새 AI 시대를 예고했다. 8일 업계에 따르면 구글은 월드 모델 개발팀을 꾸려 멀티모달을 뛰어넘은 AI 생태계 청사진을 공유했다. 엔비디아는 물리 AI 구현을 돕는 '엔비디아 코스모스' 도구를 공개했다. 구글은 현실을 가상 세계에서 실시간 시뮬레이션·예측할 수 있는 월드 모델 개발팀을 꾸렸다고 발표했다. 해당 팀은 딥마인드 소속으로 운영되며 팀 브룩스 연구원이 해당 업무를 담당한다. 그는 지난해 10월 오픈AI에서 비디오 생성기 '소라' 개발에 참여한 바 있다. 월드 모델은 외부 환경을 학습해 이를 가상세계에서 구현·예측할 수 있다. 가상에서 특정 시나리오를 테스트하거나 별도 전략을 학습하는 원리다. 이에 모델이 실제 환경에서 데이터를 직접 쌓지 않아도 기존보다 더 나은 의사 결정을 내는 식이다. 월드 모델은 비전 모델과 메모리 모델, 예측 모델을 결합해 작동한다. 단순히 문자와 이미지를 인식·생성하는 멀티모달보다 한 단계 더 성숙한 모델로 평가받고 있다. 구글 개발팀은 자사 '제미나이'와 '비오' '지니' 개발 연구 경험을 바탕으로 월드 모델을 구축할 방침이다. 제미나이는 구글의 대표 멀티모달 모델이며 비오는 비디오 생성 모델이다. 지니는 게임·3D 환경을 실시간 시뮬레이션할 수 있는 모델로 현실을 3D 세계에 구현할 수 있는 기능을 갖췄다. 구글은 이 모델들을 통합해 기존보다 한 단계 업그레이드한 월드 모델을 구축할 목표다. 젠슨 황 "차세대 AI 개척지는 '물리AI'에 있다" 엔비디아는 이번 CES에서 물리 AI 구현을 돕는 도구 엔비디아 코스모스를 발표했다. 엔비디아 코스모스는 월드 모델과 토크나이저, 영상 프로세싱 파이프라인으로 작동한다. 사용자는 코스모스를 통해 현실에 구축할 빌딩 설계 도면을 제작하거나 자동차 제작 등 물리 AI 시스템을 구축 작업을 할 수 있다. 물리 AI는 현실 속 물리적 법칙을 이해할 수 있는 AI다. 물리적 법칙을 알 수 있기 때문에 실제 환경에 맞는 자동차나 건물 설계를 시뮬레이션을 통해 진행할 수 있다. 이에 업계에서는 물리 AI가 멀티모달 기술을 뛰어넘은 시스템으로 평가하고 있다. 보통 멀티모달은 이미지나 문자, 영상 등을 생성할 수는 있다. 다만 실제 환경을 고려한 물체나 설계 작업을 수행할 수는 없다. 멀티모달이 특정 환경에 대한 물리적 상태를 이해할 수 없기 때문이다. 젠슨 황 엔비디아 CEO도 "앞으로 AI의 차세대 개척지는 물리 AI"일 것이라고 CES 기조연설을 통해 밝힌 바 있다. 이날 황 CEO는 코스모스가 텍스트나 이미지, 비디오 프롬프트를 수집해 가상 세계를 동영상 형태로 만들 수 있다고 도구 원리를 설명했다. 사용자는 코스모스를 통해 현실에 구축할 빌딩 설계 도면이나 자동차 제작, 특정 훈련 시나리오 검색, 모델 작동 테스트 등을 수행할 수 있다. 그는 "코스모스 목표는 AI 모델에 예측과 멀티모달 시뮬레이션 기능을 지원하는 것"이라며 "발생 가능한 모든 미래를 시뮬레이션하고 최적 행위를 선택할 수 있게 돕는 것"이라고 강조했다. 이어 "거대언어모델이 생성형 AI를 혁신한 것과 같은 수준의 영향력을 보일 것"이라고 내다봤다.

2025.01.08 17:30김미정 기자

Prev 1 2 Next

ZDNet 검색 페이지

'멀티모달'통합검색 결과 입니다. (31건)

카카오, 'APEC 2025 KOREA 글로벌'서 AI 기술력 뽐낸다

슈퍼브에이아이, LG AI연구원 컨소시엄서 '피지컬 AI' 설계 맡아

카카오, 경량 멀티모달·MOE 오픈소스 공개

"글로벌 수준"...카카오, 멀티모달 언어모델 'Kanana-o' 성능 공개

코오롱베니트, 리벨리온 손 잡고 'AI 비즈니스 생태계' 확장 본격화

챗GPT 다음은 '이것'?…구글 멀티모달 AI가 바꿀 로보틱스 혁명

유영상 SKT "연내 멀티모달·추론형 AI 모델 개발"

오픈AI 샘 알트먼 "이미지 생성 모델 인기에 서버 과부하"

IPO 앞둔 심플랫폼, 산업용 AI '인스파이어' 공개…"산업 AI 혁신 앞장선다"

삼성전자 "갤럭시 AI, 실생활 도움 목표...사용자 중심 연구"

구글·엔비디아, 멀티모달 뛰어넘다…"다음 세대는 '물리 AI'"

지금 뜨는 기사

이시각 헤드라인

정부, 서남권에 메모리 팹 4기 구축…5년 내 생산 능력 2배로 키운다

SKT "2035년까지 15GW AI데이터센터 순차 구축"

[AI 리더스] 김득화 펀진 대표 "국방 무기 경쟁력, 획득 속도가 관건"

이재용 "새 팹 후보지 광주 고려"…최태원 "용인 클러스터 12년 앞당겨"

ZDNet Power Center