• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
인공지능
배터리
양자컴퓨팅
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'멀티모달'통합검색 결과 입니다. (37건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

과학 논문 매일 한 편씩 쓰는 AI모델 만든다

오는 2030년이면 과학분야 논문을 매일 한 편씩 쓰는 인공지능(AI) 멀티모달 파운데이션 모델이 실용화 수준으로 개발된다. 13일 한국전자통신연구원(ETRI)에서 열린 '국가공공분야 소버린 AI 토론회'에서 첫 강연자로 나선 권오욱 인공지능창의연구소 지능정보연구본부장은 "정부 출연연구기관 주요 분야에 특화 적용이 가능한 '소버린 멀티모달 파운데이션 모델'을 개발할 계획"이라며 이 같은 목표를 제시했다. 당초 이 행사 참석자는 출연연구기관에서 80명 정도로 예상했으나, 대략 150 명이 빈자리를 모두 채워, 연구원들의 뜨거운 관심을 드러냈다. 권 본부장은 '공공분야 소버린 AI 특화모델 추진 방안'발표에서 "공개 파운데이션 모델은 고품질 성능 확보와 확장에 어려움이 있다"며 과학기술에 특화한 모델 필요성을 강조했다. 기존 모델은 신규 추가 학습이 많을수록 기존 지식 손상이 더 커지고, 지속적 학습이 불가능하다는 것. 이에 따라 강 본부장은 1,2단계로 나눠 정부 출연연구기관 주요 분야에 특화 적용이 가능한 '소버린 멀티모달 파운데이션 모델'을 개발할 계획이라고 밝혔다. 1단계 사업으로는 오는 2026년부터 2028년까지 세계 수준의 작고 강한 과학자 사고 멀티모달 파운데이션 독자 모델 개발을 목표로 제시했다. 1단계에서 ETRI AI 조직 및 융합 R&D 역량을 전략적으로 활용해 초기 모델을 개발하고, 이를 실적용하는 실증 단계까지 마무리할 계획이다. 출연연 우선 협력 분야로는 바이오 의료와 에너지, 로봇(기계/제조) 중심으로 초기 허브 구축에 집중한다. 특히, 멀티모달 데이터 분야 로봇은 데이터 확보 등 첫 단계부터 모두 '프럼 스크래치 방식'으로 ETRI가 진행할 계획이다. 2단계는 2029~2030년 모델 고도화 단계로 소버린 과학자 사고 멀티모달 파운데이션 모델 확산에 집중할 계획이다. 출연연 주요 분야별 소버린 공공 AI 특화 모델 개발과 국내 산업 연구에 AI과학자 특화 모델 공급 및 기술 사업화, 다학제(집단지성) 과학자 AI협력으로 글로벌 톱 수준 AI기술 경쟁력 확보가 목표다. 2단계에서 ETRI는 출연연 컴퓨팅 자원, 데이터, 인재양성 프로그램 적극 지원 협력하는 출연연 소버린 AI 허브 역할을 수행할 계획이다.' 권 본부장은 다학제 과학자 AI모델이 완성되면, 다학제 과학적 가설 수립, 절차 계획, 논문생성이 가능할 것으로 보고 있다. 예시로 제시한 3개 분야별 2단계 목표는 바이오에서는 바이오 출연연 AI협업형 연구 지능화 모델을 개발한다. 자율적으로 신약 후보물질 탐객이 가능한 적응형 바이오 에이전트 sLLM을 개발할 계획이다. 에너지 분야에서는 에너지 특화 AI 플랜테이션 모델 개발 및 탄소중립 공공에너지 가디언 AI 모델 개발/서비스에 들어갈 계획이다. 로봇(기계/제조)분야에서는 로봇 파운데이션(K-LAM) 허브로 산업/안보/과학 혁신을 주도하도록 할 계획이다. 이에 앞서 축사에 나선 강성원 ETRI 부원장은 "출연연 관심이 이렇게 뜨거울 줄 몰랐다. AI가 모든 R&D에 깊숙히 들어왔고, AI 중심으로 일어나는 미래세계에 대응하기 위해 오늘 이 자리가 마련됐다"며 오늘 행사의 중요성을 강조했다. 권 본부장 강연에 이어 이날 행사에서는 국가과학기술연구회(NST) 산하 15개 정부출연연구기관의 소버린 AI 특화모델 전략도 차례대로 공개됐다. 이어 권 본부장을 좌장으로 출연연 전문가 15명이 참여하는 패널 토론이 진행됐다.

2025.08.13 15:13박희범

카카오, 'APEC 2025 KOREA 글로벌'서 AI 기술력 뽐낸다

카카오가 글로벌 행사를 통해 AI 기술을 소개한다. 카카오(대표 정신아)는 5일 개최되는 '아시아태평양경제협력체(이하 APEC) 2025 코리아 글로벌 디지털·AI 포럼 및 기업 전시'에 참여한다고 밝혔다. APEC 디지털·AI 장관회의의 부대행사로 개최되는 이번 포럼은 인천 송도 쉐라톤 그랜드호텔에서 열린다. 포럼장 외부에서 진행되는 기업 전시에는 카카오를 비롯해 국내외 IT 기업 총 10여 곳이 참가한다. 카카오는 행사장에 마련된 기업 전시 부스에서 자체 개발한 ▲경량 멀티모달 언어모델 'Kanana-1.5-v-3b'과 ▲AI 가드레일 모델 'Kanana Safeguard(카나나 세이프가드) 2종을 소개한다. 시연 공간을 통해 모델의 기능과 특징을 체험해 볼 수 있다. 지난달 24일 오픈소스로 공개한 'Kanana-1.5-v-3b'은 텍스트 뿐 아니라 이미지 정보도 처리할 수 있는 경량 멀티모달 언어모델이다. 질문 의도를 정확히 이해하는 높은 지시 이행 성능과 뛰어난 한국어·영어 이미지 이해 능력을 보유하고 있다. 이용자가 장소에 대한 사진을 첨부하며 "이 사진이 촬영된 장소를 간단히 설명해줘"라고 질문 시 "이 사진은 서울 광화문 일대를 배경으로 하고 있습니다"와 같이 국내 지역 정보 등 한국 문화 대한 높은 인식력을 토대로 정확한 답변을 제공한다. 카카오는 여러 종류의 멀티모달 언어모델을 통해 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI의 연구·개발에 집중하고 있다. AI 서비스의 안전성과 신뢰성을 검증할 수 있는 AI 가드레일 모델 '카나나 세이프가드'는 카카오가 자체 개발한 언어모델을 기반 기술로 사용했다. 한국어 및 한국 문화를 반영한 자체 구축 데이터셋을 활용해 한국어에 특화된 성능을 보유하고 있다. 총 세 가지의 모델로 구성되며, 리스크의 유형에 따라 유해성 및 위험성에 대한 효과적 탐지가 가능하다. 카나나 세이프가드는 다양한 생성형 AI 서비스의 확산 속에 유해 콘텐츠 등 위험 요소들을 방어할 수 있는 기술적·제도적 장치다. 지난 5월 생태계에 기여를 위해 오픈소스로 공개한 바 있다. 이날 포럼의 별도 이벤트로 글로벌 빅테크 기업 메타가 개최한 세션에는 카카오 김경훈 AI Safety 리더가 패널토론의 연사로 참여해 오픈소스 AI의 가치에 대한 주제로 논의를 진행했다. 세션에는 메타, 오픈소스 비영리 단체 리눅스 재단, KISTI도 참석했다. 카카오 관계자는 "전시 공간을 통해 카카오가 구축한 AI 기술 개발 현황을 직접 경험해 볼 수 있는 계기를 마련하고자 했다"며 "앞으로도 AI 기술 개발을 토대로 국내 AI 생태계 활성화와 경쟁력 확보를 위해 노력해 갈 것"이라고 말했다.

2025.08.05 11:30백봉삼

슈퍼브에이아이, LG AI연구원 컨소시엄서 '피지컬 AI' 설계 맡아

슈퍼브에이아이가 정부 초거대 인공지능(AI) 전략 사업에서 '피지컬 AI' 구현을 위한 핵심 역할을 맡았다. 슈퍼브에이아이는 과학기술정보통신부의 '독자 AI 파운데이션 모델' 프로그램에서 LG AI연구원 컨소시엄에 참여한다고 5일 밝혔다. 해당 컨소시엄은 최종 선정됐으며, 슈퍼브에이아이는 LG 계열사를 제외한 유일한 모델 개발 파트너로 활동하게 된다. 슈퍼브에이아이는 시각, 언어, 행동 등 복합 데이터를 수집하고 선별해 합성하는 전 과정을 주도한다. 이를 통해 멀티모달·피지컬 AI 구현을 위한 데이터 파운데이션을 설계하고 구축하는 핵심 개발자로 나선다. 정부 사업은 무빙 타겟 전략을 기반으로 6개월~1년 단위로 목표 성능을 갱신하며 운영된다. 향후 3년간 글로벌 최고 수준의 AI 모델 성능을 따라잡는 것을 목표로 하며, 각 단계에서 성능 기준은 지속적으로 상향된다. LG AI연구원 컨소시엄은 기존의 거대언어모델(LLM) 중심 전략과 달리 비전-언어 융합, 멀티모달, 피지컬 AI라는 독자 노선을 택했다. 슈퍼브에이아이는 해당 전략 내에서 비전 모델 구현과 데이터 기술 고도화에 집중한다. 피지컬 AI는 AI가 현실 세계와 직접 상호작용할 수 있는 차세대 기술을 의미한다. 센서로 환경을 인식하고 데이터를 분석해 판단을 내린 뒤 로봇 등의 장치를 통해 실제 행동으로 연결되는 구조다. 이 기술은 제조, 물류, 의료, 서비스 등 다양한 산업에 적용될 수 있다. 특히 제조 강국인 한국은 산업용 데이터와 인프라가 풍부해 피지컬 AI 경쟁력이 높다. 슈퍼브에이아이는 해당 분야의 AI 두뇌에 해당하는 핵심 모델 개발을 담당한다. 이번 사업에서는 멀티모달 데이터를 오픈소스로 공개하는 방식도 추진된다. 상업적 활용이 가능한 데이터를 개방함으로써 피지컬 AI의 진입 장벽을 낮추고, 생태계 전반의 확산을 유도한다. 슈퍼브에이아이는 이미 산업용 파운데이션 모델 '제로'를 자체 개발한 경험이 있다. 제로는 소량 데이터로도 고성능을 발휘하며, 글로벌 벤치마크에서 주요 모델들을 제치고 우수한 성과를 거둔 바 있다. 특히 CVPR 2025 챌린지에서 2위를 기록하며 글로벌 비전 AI 기술 경쟁력을 입증했다. 슈퍼브에이아이는 이 같은 기술력을 바탕으로 이번 국가사업에서도 중심 역할을 수행하게 됐다. 2018년 설립된 슈퍼브에이아이는 삼성, LG전자, 퀄컴 등 100개 이상의 기업에 솔루션을 공급하고 있다. 현재 한국, 미국, 일본에 진출했으며 31건의 특허를 보유 중이다. 김현수 슈퍼브에이아이 대표는 "제조업 강국인 한국이 피지컬 AI 시대에서 기술 주도권을 확보하는 전환점을 만들어 나가겠다"고 밝혔다.

2025.08.05 11:23김미정

카카오, 경량 멀티모달·MOE 오픈소스 공개

카카오(대표 정신아)는 국내 공개 모델 중 최고 성능의 경량 멀티모달 언어모델과 혼합 전문가(MoE) 모델을 국내 최초 오픈소스로 공개한다고 24일 밝혔다 카카오는 허깅페이스를 통해 이미지 정보 이해 및 지시 이행 능력을 갖춘 경량 멀티모달 언어모델 '카나나(Kanana)-1.5-v-3b'와 MoE 언어모델 '카나나-1.5-15.7b-a3b'를 오픈소스로 선보였다. 지난 5월 공개한 언어모델 카나나-1.5 4종에 이어 두 달 만에 추가 모델을 오픈소스로 공개한 것이다. 정부가 추진하는 '독자 인공지능(AI) 파운데이션 모델 프로젝트'에 참여한 카카오는 이러한 자체 모델 개발 역량 및 카카오톡 등의 대규모 서비스 운영 경험 등을 토대로 전 국민의 AI 접근성을 높이고 국가 AI 경쟁력을 강화하는데 기여한다는 방침이다. 이날 공개된 '카나나-1.5-v-3b'는 텍스트 뿐만 아니라 이미지 정보도 처리할 수 있는 멀티모달 언어모델로, 지난 5월 말 오픈소스로 공개한 카나나 1.5 모델을 기반으로 하고 있다. 카나나 1.5는 모델 개발의 처음부터 마지막 단계까지 카카오의 자체 기술을 바탕으로 구축하는 '프롬 스크래치' 방식으로 개발됐다. 멀티모달 언어모델인 '카나나-1.5-v-3b'는 이용자의 질문 의도를 정확히 이해하는 높은 지시 이행 성능과 뛰어난 한국어·영어 이미지 이해 능력을 보유했다고 회사 측은 설명했다. 또한, 한국어 벤치마크에서 유사 사이즈의 국내외 공개 모델과 비교한 결과 최고 점수를 기록했고 다양한 영어 벤치마크에서 해외 오픈소스 공개모델과 비교했을 때도 유사한 수준의 성능을 보인 것으로 알려졌다. 지시 이행 능력 벤치마크에서는 국내 공개된 유사한 규모의 멀티모달 언어모델 대비 128% 수준의 성능을 기록했다. 카카오는 인간 선호 반영 학습과 지식 증류를 통해 '카나나-1.5-v-3b'의 성능을 극대화했다. 지식 증류는 고성능의 대형 모델로부터 비교적 작은 모델을 학습하는 방식이다. 단순한 정답 뿐 아니라 대형 모델의 예측 확률 분포까지 학습에 반영함으로써 작은 모델이 더 정교하고 일반화된 예측 능력을 갖추도록 돕는 기술이다. 이를 통해 상대적으로 경량화된 모델 구조임에도 정확도나 언어 이해 등의 능력에서 대형 모델의 높은 성능에 근접하거나 이를 뛰어 넘을 수 있는 능력을 발휘하도록 돕는다. '카나나-1.5-v-3b'는 경량 멀티모달 언어모델의 강점을 토대로 ▲이미지 및 글자 인식 ▲동화 및 시 창작 ▲국내 문화유산 및 관광지 인식 ▲도표 이해 ▲수학 문제풀이 등 여러 분야에서 활용할 수 있다. 예를 들어, 장소 사진과 함께 이 사진이 촬영된 장소에 대해 간단히 설명해줘라고 질문하면 “이 사진은 서울 청계천을 배경으로 하고 있습니다”와 같이 국내 지역에 대한 인식력을 바탕으로 정확한 답변을 제공한다. 카카오는 모델의 성능에 집중하는 단계를 넘어 AI가 사람처럼 생각하고 행동할 수 있는 ▲멀티모달 이해 능력 ▲사용자 지시 수행 능력 ▲추론능력을 갖추도록 발전시키는 데 주력하고 있다. 하반기 중에는 에이전트형 AI 구현에 필수적인 추론 모델의 성과도 공개할 예정이다. 카카오는 일반적인 '밀집' 모델과 차별화되는 MoE 구조의 언어모델도 오픈소스로 함께 공개했다. 'MoE'는 입력 데이터 처리 시 모든 파라미터가 연산에 참여하는 기존 모델과 달리 특정 작업에 최적화된 일부 전문가 모델만 활성화되는 방식으로 효율적인 컴퓨팅 자원 활용과 비용 절감이 특징이다. MoE 아키텍처를 적용한 '카나나-1.5-15.7b-a3b'는 전체 15.7B의 파라미터 중 추론 시 약 3B 파라미터만 활성화돼 동작한다. 카카오는 모델의 학습 시간과 비용을 절약하기 위해 자사의 3B 규모의 모델 '카나나-Nano-1.5-3B'에 '업사이클링' 방식을 적용해 개발했다. 업사이클링은 기존 다층 신경망(MLP) 레이어를 복제해 여러 전문가 레이어로 변환하는 방식으로 모델을 처음부터 개발하는 방식에 비해 효율적이다. 활성화되는 파라미터가 3B에 불과하지만 성능은 '카나나-1.5-8B'와 동등하거나 상회하는 수준을 기록했다. 카카오의 MoE 모델은 고성능 AI 인프라를 저비용으로 구축하고자 하는 기업이나 연구 개발자들에게 실용적인 도움을 제공할 수 있다는 설명이다. 특히 추론 과정에서 제한된 파라미터만 사용하는 구조적 특성 덕분에 저비용, 고효율 서비스 구현에 유리하다. 카카오는 이번 경량 멀티모달 언어모델과 MoE 모델의 오픈소스 공개를 통해 AI 모델 생태계에 새로운 기준을 제시하고 더 많은 연구자와 개발자가 강력한 AI 기술을 자유롭게 활용할 수 있는 기반을 마련해 갈 계획이다. 뿐만 아니라 자체 기술 기반의 모델을 지속적으로 고도화하고 모델 스케일업을 통해 글로벌 플래그십 수준의 초거대 모델 개발에 도전함으로써 국내 AI 생태계의 자립성과 기술 경쟁력 강화에 기여할 계획이다. 김병학 카카오 카나나 성과리더는 “이번 오픈소스 공개는 비용 효율성과 성능이라는 유의미한 기술 개발의 성과를 거둔 것으로 단순한 모델 아키텍처의 진보를 넘어 서비스 적용과 기술 자립이라는 두 가지 측면의 목표에 부합하는 결과물”이라고 말했다.

2025.07.24 10:57박서린

"글로벌 수준"...카카오, 멀티모달 언어모델 'Kanana-o' 성능 공개

카카오가 새로운 인공지능 모델을 통해 기술 경쟁력 강화를 이어간다. 카카오(대표 정신아)는 공식 테크블로그를 통해 통합 멀티모달 언어모델 'Kanana-o'와 오디오 언어모델 'Kanana-a'의 성능과 개발 후기를 1일 공개했다. 통합 멀티모달 언어모델인 Kanana-o는 텍스트와 음성, 이미지까지 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 모델이다. 텍스트, 음성, 이미지 중 어떠한 조합으로 질문을 입력하더라도 처리 가능하며, 상황에 맞는 텍스트나 자연스러운 음성으로 응답 가능한 구조로 설계됐다. 카카오는 '모델 병합' 기술을 기반으로 이미지 처리에 특화된 모델 'Kanana-v'와 오디오 이해 및 생성에 특화된 'Kanana-a' 모델을 통합, 단기간 내 효율적으로 Kanana-o를 개발했다. 통합 후에는 이미지, 오디오, 텍스트 데이터를 동시에 학습하는 '병합 학습'을 통해 시각과 청각 정보를 동시에 이해하고, 텍스트와 연결 지을 수 있도록 통합 훈련을 거쳤다. 이런 과정을 통해 기존 LLM 구조에서 이미지 이해 능력과 음성 인식과 합성, 감정 이해 등 고도화된 오디오 능력을 확장시킨 통합 멀티모달 언어모델이 구현됐다. Kanana-o는 음성 감정 인식 기술을 통해 사용자의 의도를 올바르게 해석하고, 상황에 맞는 적절한 반응과 답변을 제공해준다. 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석하고, 대화 맥락에 맞는 감정적이고 자연스러운 음성의 응답을 생성하는 것이 특징이다. 대규모 한국어 데이터셋을 활용해 한국어의 특수한 발화 구조, 억양, 어미 변화 등을 정밀하게 반영하기도 했다. 특히 제주도, 경상도 등 지역 방언을 인식하고 이를 표준어로 변환해 자연스러운 음성을 생성할 수 있다. 지속적인 성능의 고도화를 위해 카카오는 현재 독자적인 한국어 음성 토크나이저(오디오 신호를 일정 단위로 작게 분해하는 도구) 개발을 진행 중이다. 스트리밍 방식의 음성합성 기술을 적용해 사용자가 긴 대기 시간 없이 응답을 제공하는 강점도 보유했다. 예를 들어, 이미지와 함께 "이 그림에 어울리는 동화를 만들어 줘"라고 입력하면, Kanana-o는 해당 음성을 이해하고 사용자의 억양과 감정 등을 분석해 자연스럽고 창의적인 이야기를 실시간으로 생성해 들려준다. Kanana-o는 한국어 및 영어 벤치마크에서 글로벌 최고 모델들과 유사 수준을 기록했으며, 한국어 벤치마크에서는 높은 우위를 보였다. 특히, 감정인식 능력에서는 한국어와 영어 모두에서 큰 격차를 기록하며, 감정까지 이해하고 소통할 수 있는 AI 모델의 가능성을 입증했다. 이미지와 음성을 통합적으로 이해해야 하는 '이미지-음성 QA(질의응답)' 태스크에서도 강력한 성능을 달성하며, 통합 멀티모달 언어모델로서의 글로벌 경쟁력을 확인했다. 카카오는 향후 Kanana-o를 통해 ▲다중 턴 대화 처리 ▲양방향 데이터 동시 송수신 기술 대응 능력 강화 ▲부적절한 응답 방지를 위한 안전성 확보 등을 목표로 연구 개발을 지속해 갈 계획이다. 이를 통해 다중 음성 대화 환경에서의 사용자 경험을 혁신하고, 실제 대화에 가까운 자연스러운 상호작용을 실현해가는 것이 목표다. 카카오 김병학 카나나 성과리더는 "카나나 모델은 복합적인 형태의 정보를 통합적으로 처리함으로써 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI로 진화하고 있다"며 "독자적인 멀티모달 기술을 바탕으로 자사의 인공지능 기술 경쟁력을 강화하는 한편, 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 꾸준히 기여할 계획"이라고 말했다.

2025.05.01 10:13백봉삼

코오롱베니트, 리벨리온 손 잡고 'AI 비즈니스 생태계' 확장 본격화

코오롱베니트가 자체 개발한 안전 관제 시스템 '인공지능(AI) 비전 인텔리전스'로 AI 비즈니스 생태계 확장에 본격 나섰다. 국내 AI 반도체(NPU) 전문 기업 리벨리온과의 협업을 통해 건설 현장에 특화한 LLM(거대 언어 모델, Large Language Model) 기술을 고도화함으로써 코오롱글로벌 실제 건설 현장에 'AI 비전 인텔리전스'를 적용한 것이다. 코오롱베니트는 'AI 비전 인텔리전스' 고도화를 위한 최종 개념검증(PoC) 작업을 코오롱베니트·코오롱글로벌·리벨리온·위시 4사가 컨소시엄 형태로 진행했다고 21일 밝혔다. 코오롱베니트는 건설 환경에 최적화된 안전 관제 시스템을 만들기 위해 방대한 코오롱글로벌 건설 현장 데이터를 정제해 멀티(시각+언어) 구조의 AI 모델을 완성했다. 이 작업은 코오롱글로벌이 제공한 CCTV 영상과 건설 현장 운영 데이터 기반의 현장 맞춤형 기능 요구사항 수립과 시스템 점검을 바탕으로 이뤄졌다. 리벨리온은 자체 AI 반도체 아톰(ATOM)으로 NPU(Neural Processing Unit, 신경망처리장치) 기반의 CCTV 관제 서버 및 기술을 구성했다. 위시는 시각(Vision)과 언어(LLM) 정보를 동시에 출력하는 현장 CCTV 안전 관제 모니터링 솔루션을 제공했다. 이번 'AI 비전 인텔리전스' 프로젝트는 국내 AI 선도 기업과의 협력을 통해 기술력을 대폭 높인 점이 특별하다. 코오롱베니트는 국내 대표 AI 반도체 기업 리벨리온과 함께 GPU·NPU를 동시 활용하는 이종 반도체 기반 AI CCTV 안전 관제 시스템을 완성했다. 코오롱베니트 AI 솔루션센터의 GPU(Graphic Processing Unit, 그래픽처리장치)로 실제 현장의 데이터를 학습한 뒤 이를 리벨리온 AI 반도체가 적용된 NPU 서버로 배포해 추론력을 더 강화하는 방식이다. 이로 인해 현장에서 탐지된 위험 상황 설명이 훨씬 더 구체적이고 정교화됐다. 'AI 비전 인텔리전스'는 건설 현장의 ▲안전모 미착용 ▲위험구역 진입 ▲신호수 배치유무 ▲중장비 접근 등의 사고 예방율을 크게 높일 것으로 전망된다. 코오롱베니트가 개발한 건설 현장에서 탐지된 시각적인 위험 정보를 더 정교화된 언어적 알림 문구로 바꾸는 멀티 모델의 효과다. 이 모델은 기존 대비 처리 속도가 높은 고성능 라이브러리 vLLM(Versatile Large Language Model)을 사용해 LLM 추론 성능을 극대화했다. 코오롱베니트는 독자 개발 안전 관제 시스템 'AI 비전 인텔리전스'를 사업화해 AI 활용을 대중화하는 'AI 엑셀러레이션 서비스' 사업 성장 계기를 마련할 계획이다. 코오롱베니트 AI R&D(연구개발) 부문은 텍스트·이미지·음성 등을 동시 처리하는 '멀티모달 AI 서비스' 출시를 목표로 다양한 산업에 특화한 AI 기술을 개발하고 있다. 코오롱베니트에서 AI 관련 기술 개발을 담당하는 이승재 AI R&D팀장은 "우리는 고객의 사업 효율과 편의성을 극대화하는 AI 기술을 대중화하고 기업의 비즈니스 혁신성을 높이는 신사업 분야를 개척하고 있다"며 "우수한 기술력을 가진 국내 선도 기업들과 기술력을 연계해 AI 비즈니스 생태계를 확장해 나가겠다"고 밝혔다.

2025.04.21 11:19장유미

챗GPT 다음은 '이것'?…구글 멀티모달 AI가 바꿀 로보틱스 혁명

데미스 하사비스 구글 딥마인드 최고경영자(CEO)가 구글의 인공지능(AI) 모델 '제미나이'와 영상 생성 AI '비오2'를 결합한다는 계획을 발표했다. 11일 테크크런치에 따르면 하사비스 CEO는 리드 호프먼 링크드인 공동 창립자가 진행하는 팟캐스트 파서블에 출연해 제미나이에 비오2를 결합해 물리 세계를 이해할 수 있는 AI 모델로 고도화하겠다고 밝혔다. 하사비스 CEO는 "비오2가 많은 유튜브 영상을 학습하는 것만으로도 현실 세계의 물리 법칙을 이해할 수 있다는 것에 놀랐다"며 "이는 로봇 산업에 엄청난 영향을 미칠 수 있다고 생각했다"고 말했다. 이어 "우리가 개발한 멀티모달 파운데이션 모델 제미나이와 비오2를 향후 결합할 계획"이라며 "AI가 단순 챗봇 수준을 넘어 인간이 살고 있는 현실 세계를 이해하고 도움을 줄 수 있도록 할 것"이라고 강조했다. 두 AI 모델을 결합해 유튜브 영상 학습과 같은 기존의 강화 학습만으로 복잡한 인간의 창의성과 행동을 모방할 수 있는 '인공 일반 지능(AGI)'에 도달할 수 있다는 게 구글의 기대다. 특히 로보틱스 산업에서의 활용도 성공적일 것이란 관측이다. 로보틱스 기술에 필요한 물리적 상호작용 없이도 영상 AI를 기반으로 현실 세계를 이해할 수 있다는 것이다. 앞서 구글 딥마인드는 로봇 맞춤형 AI 모델인 '제미나이 로보틱스'와 다른 고급 시각·언어·행동(VLA) 모델 대비 성능이 2배 향상된 벤치마크 결과도 발표한 바 있다. 하사비스 CEO는 "우리 삶에 실질적인 도움을 주는 AI 기술은 로보틱스 영역에도 필요하다"며 "물리 법칙을 이해하는 멀티모달 모델들에 로봇이 필요로 하는 행동, 운동 제어, 계획 수립과 관련된 미세조정을 수행해 이를 성공적으로 구현할 수 있다"고 설명했다. 이어 "범용 AI 모델에 데이터를 추가 학습하거나 특별한 노력 없이도 로보틱스 환경에 알맞은 AI를 개발·이식할 수 있다"며 "이는 5년 전 최고의 로봇공학자들조차 예측하기 어려웠던 결과"라고 덧붙였다. 그러면서 "우리가 만들고 있는 범용 멀티모달 모델들이 충분히 정교해져 로봇에 그대로 탑재될 것"이라며 "언어·과학 분야에 챗GPT·알파고·알파폴드가 가져온 결정적인 순간이 아직 로보틱스 산업에는 오지 않았으나 그 시점이 곧 올 것"이라고 강조했다.

2025.04.11 11:16한정호

유영상 SKT "연내 멀티모달·추론형 AI 모델 개발"

유영상 SK텔레콤 대표는 멀티모달 인공지능(AI) 모델, 추론형 AI 모델을 연내 개발하겠다는 계획을 4일 밝혔다. 유 대표는 이날 사내 인트라넷에 올린 'SK텔레콤의 르네상스를 위하여'라는 글을 통해 AI 피라미드 전략 2.0 등의 사업 전략을 밝혔다. 유 대표는 "글로벌 통신사들은 대부분 네트워크에 AI를 도입해 운용 비용을 절감하고 마케팅에 활용하는 등 '수요자로서의 AI'에 관심이 많다"며 "지금은 문제를 풀기 위해 임시적으로 수요자 공급자 관점으로 인수분해했지만 궁극적으로는 이 둘을 융합시킬 것"이라고 말했다. 유 대표는 AI 사업을 통한 가시적 성과를 창출할 영역으로 '서비스형 그래픽처리장치'(GPUaaS) 분야를 꼽았다. 또한 데이터센터가 빨리 필요한 고객을 타겟으로 한 모듈러 DC, 보안을 목적으로 한 단일 고객에 최적화한 DC, 초거대규모 AI DC, 맞춤형 상품 등 고객 수요에 맞는 다양한 상품을 내놓을 계획이다. 아울러 AI 기업간거래(B2B) 영역에서는 AI 에이전트가 업무를 도와주는 '에이닷 비즈'를 운영 중으로, 이를 연내 SK 멤버사에 도입하고 AI 기업소비자간거래(B2C)용으로 선보인 에이닷의 역량을 강화할 예정이다. 글로벌향으로 내놓은 AI 에이전트 '에스터'는 사용자층을 늘려나간다는 방침이다. 자체 거대언어모델(LLM) 에이닷엑스(A.X) 4.0은 개발 마무리 단계로 주요 LLM에 못지않은 성능을 가지면서도 효율이 높은 한국어 특화 LLM으로 준비되고 있다고 했다. 이는 연내 멀티모달 AI 모델, 추론 모델로 계속 개발할 예정이다. 유 대표는 "여러 불확실성 속에서도 SK텔레콤은 전략의 실행과 구성원들의 열정을 통해 르네상스를 이뤄 나갈 것"이라며 "올해는 SK텔레콤의 지속적 성장을 증명하는 중요한 한 해가 될 것"이라고 말했다.

2025.04.04 14:21최이담

오픈AI 샘 알트먼 "이미지 생성 모델 인기에 서버 과부하"

오픈AI가 출시한 '챗GPT-4o 이미지 생성(ChatGPT-4o Image Generation) 모델'이 샘 알트먼 최고경영자(CEO)를 난감하게 할 정도로 폭발적인 인기를 얻고 있다. 28일 CNBC에 따르면 샘 알트먼 CEO는 X(옛 트위터) 게시물을 통해 "사용자들이 새로운 챗GPT의 이미지 생성을 좋아하는 것은 정말 즐겁지만 자사 GPU가 녹아내리고 있다"고 밝혔다. 오픈AI가 새로 선보인 이미지 생성 모델은 텍스트와 이미지를 모두 통합할 수 있는 멀티모달 AI 모델인 챗GPT-4o 기반 서비스로 유료 구독자들을 비롯한 무료 사용자들에게도 공개됐다. 샘 알트먼 CEO도 자신의 X 프로필 사진을 챗GPT 이미지 생성 모델로 제작한 일본 지브리 애니메이션 스타일의 캐릭터 이미지로 바꿔 주목받았다. 이후 챗GPT의 이미지 생성 모델을 이용해 제작한 이미지들이 다양한 소셜 미디어에서 빠르게 확산되며 큰 인기를 끌고 있는 상황이다. 이 때문에 오픈AI의 서버조차 과부하가 걸렸다. 이에 샘 알트먼 CEO는 당분간 이미지 생성에 드는 속도와 제작 가능한 이미지 개수를 제한하는 등의 대응조치를 취할 것이라고 설명했다. 이제 무료 사용자들이 생성할 수 있는 이미지 개수는 하루당 3장으로 제한된다. 또 오류 수정 작업도 진행한다. 샘 알트먼 CEO는 "챗GPT가 일부 이미지를 생성하지 못하고 있다"며 "가능한 한 빨리 수정할 것"이라고 말했다.

2025.03.28 15:25한정호

IPO 앞둔 심플랫폼, 산업용 AI '인스파이어' 공개…"산업 AI 혁신 앞장선다"

기업공개(IPO)를 앞둔 심플랫폼이 산업 환경에 최적화된 인공지능(AI) 모델을 개발해 산업 현장의 데이터 유형을 효과적으로 분석하고 공정 최적화와 품질 개선을 실현한다. 심플랫폼은 산업용 파운데이션 모델의 핵심 기술인 '인스파이어(INSPIRE)' 개발을 최근 완료했다고 10일 밝혔다. 이 AI 모델은 실시간 데이터 수집과 분석을 최적화해 제조업을 비롯한 다양한 산업 분야에서 즉시 활용할 수 있다. '인스파이어'의 가장 큰 특징은 산업 현장에서 발생하는 비동기적 데이터 문제를 해결하는 것이다. 이 기술은 영상, 센서, 품질 데이터 등 서로 다른 유형의 데이터를 통합해 분석 신뢰도를 높이고 각 산업별 도메인 특성을 유지하면서도 일관된 데이터 해석을 가능하게 한다. 실제 데이터 적용 결과 다양한 노이즈 환경에서도 정확도를 유지하며 일관된 개선 효과를 입증했다. 특히 반도체 및 2차 전지 제조 공정에서 인스파이어의 강점이 두드러진다. 고해상도 이미지 분석을 통해 미세 결함을 감지하고 최적의 공정 조건을 예측해 예지 정비까지 실현할 수 있다. 기존 AI 모델로는 감지하기 어려웠던 품질 이상 요소를 조기에 발견하고 보다 정교한 예측을 가능하게 한다는 점이 핵심으로, 제조업체는 품질 향상, 비용 절감, 생산성 극대화 등의 효과를 기대할 수 있다. 현재 산업 현장에서는 '챗GPT'나 딥시크 같은 언어 기반 AI 모델을 활용하기 어렵다는 한계가 있다. 제조업에서는 시계열 데이터와 영상 데이터가 혼합돼 있어 이를 효과적으로 분석할 AI 기술이 필수적이다. 심플랫폼의 '인스파이어'는 이러한 문제를 해결하는 멀티모달 AI 기술로, 기존 AI 모델의 한계를 뛰어넘는 산업 맞춤형 솔루션을 제공한다. 심플랫폼은 기술력뿐만 아니라 다수의 고객사를 확보하며 높은 수익성과 매출 가시성을 입증하고 있다. 지난해에는 코스닥 기술특례상장을 위한 기술성 평가를 통과해 AI 사물인터넷(AIoT) 플랫폼 기술력과 실적 성장성을 공식적으로 인정받았다. 강태신 심플랫폼 대표는 "인스파이어 기술은 산업용 AI의 새로운 패러다임을 제시하며 제조업뿐만 아니라 품질 관리, 예측 유지보수 등 다양한 산업 분야에서 핵심적인 역할을 할 것"이라며 "AI가 산업 혁신을 가속화하는 가운데 우리는 기술력뿐만 아니라 실적이 뒷받침되는 B2B AIoT 기업으로서 탄탄한 기반을 갖추고 상장을 앞두고 있다"고 밝혔다.

2025.02.10 16:40조이환

삼성전자 "갤럭시 AI, 실생활 도움 목표...사용자 중심 연구"

[새너제이(미국)=이나리 기자] 삼성전자가 갤럭시 AI를 통해 실생활에 도움이 되는 AI 경험을 제공하겠다는 청사진을 제시했다. 김정현 삼성전자 MX사업부 CX실장 부사장은 23일(현지시간) 미국 캘리포니아주 새너제이에서 진행된 기자 간담회에서 "갤럭시 AI는 AI에 대한 거리감을 좁히고 실생활에 더 도움이 될 수 있도록, 사용자를 중심에 두고 발전을 이어왔다"며 "이번 갤럭시S25 시리즈를 통해 사용자들은 더욱 유용하고 손쉬운 모바일 AI 경험을 즐길 수 있고 개인정보에 대한 걱정에서도 자유로워질 것"이라고 말했다. 삼성전자는 전날(현지시간 22일) '갤럭시 언팩 2025' 행사를 통해 AI 에이전트와 멀티모달이 강력해진 '진정한 AI 폰' 갤럭시S25 시리즈를 선보였다. 앞서 삼성전자는 지난해 1월 최초의 AI폰인 갤럭시S24 시리즈를 출시하며 모바일 AI 시대를 개막한 바 있다. 삼성전자는 런던대학교 골드스미스 경영연구소와 작년부터 10개국을 대상으로 모바일 AI가 사용자 일상 경험에 미치는 영향을 분석했다. 그 결과 AI 폰이 출시된지 1년이 지난 지금 모바일 AI를 적극 사용하는 인구가 지난 6개월 전 대비 늘었지만, 여전히 AI 사용률이 30% 이하인 것으로 나타났다. 응답자들은 일상에 AI를 도입하는 데 거리감을 느끼는 주요 원인으로 ▲'나의 일상에 딱 필요한 AI 기능이 부재해서'(56%) ▲'AI는 사용이 용이하지 않아서'(85%) ▲'AI 사용 시 개인정보 유출이 우려돼서'(90%)를 꼽았다. 김정현 부사장은 "진정한 AI는 멀티모달 AI 에이전트, 통합형 AI 플랫폼, 개인화된 AI 3가지를 갖춰야 한다"고 강조하며 "삼성전자는 소비자들의 AI 사용을 높이기 위한 방법으로 실생활 유용성, 손쉬운 접근성, 보안성 강화를 통해 AI 기술의 대중화를 이끌어갈 계획이다"고 밝혔다. 이어 김 부사장은 "갤럭시 AI는 소비자들의 노력은 최소화하고 결과물은 극대화하는 것이 핵심"이라며 "멀티모달을 갖춘 AI를 쉽게 접근하기 위해 스마트폰의 사이드 버튼을 누르면 바로 활용할 수 있도록 접근성을 부여했다"고 말했다. 피처폰에서 스마트폰으로의 전환처럼, AI 폰도 기술적 퀀텀 점프가 필요하다. 그는 "기존의 음성 비서나 AI 기능들이 특정 허들을 넘지 못했다면, 이제는 그 한계를 극복할 수 있는 기술적 기반이 마련됐다"고 말했다. 이를 위해서는 칩셋, 플랫폼, 그리고 에코시스템 파트너들과의 긴밀한 협력이 필수적이다. 김 부사장은 "업계 리더들과의 논의를 통해 AI 전환의 타이밍이 왔다는 공감대가 형성됐다"며, "이에 따른 투자와 인력 리소스 투입이 본격화되고 있다"고 밝혔다. 이어 "삼성은 변화에서 선두에 있어야 한다고 판단해 작년 갤럭시S24부터 AI폰을 만들고 있는 것"이라고 덧붙였다. AI 통합 플랫폼은 안드로이드를 기반으로 한다. 삼성전자는 '원 UI 7'을 통해 강력한 크로스 앱을 지원하고, 사용자 편의성을 최우선으로 고려한다는 점이 차별화다. 예를 들어 프랑스 언어로 된 식당 메뉴판을 보고 주문할때, 기존에는 메뉴판의 외국어를 번역하고, 내용을 요약하고, 예산 범위 내 메뉴를 추천받으려면 각각의 앱을 따로 실행해야 했다. 하지만 AI 통합 플랫폼에서는 "프랑스어 메뉴를 번역하고 요약해서 50달러 이하 메뉴를 추천해줘"라는 하나의 음성 명령만으로 이 모든 과정을 자동으로 처리할 수 있다. 즉, 복잡한 명령어나 특정 앱의 실행 순서를 기억할 필요 없이, 일상적인 대화처럼 원하는 작업을 요청하면 된다. 이는 기술적 진입장벽을 낮추고 누구나 쉽게 AI 기능을 활용할 수 있게 한다. 삼성전자는 자체 글로벌 리서치 조직을 통해 각국의 언어와 방언을 연구하고 있다. 이를 AI 시스템에 적용하는 것은 삼성만이 할 수 있는 차별화 서비스다. 정혜순 삼성전자 MX사업부 개발실 부사장은 "갤럭시 AI는 짧은 기간에 20개국 언어를 지원하고, 전 세계 실제 사용 빈도는 80% 이상의 커버리지를 확보했다. 아랍어의 경우 20개 이상의 방언까지 세밀하게 지원한다"고 강조하며 "이러한 광범위한 언어 지원은 일반 서드파티 앱이나 개별 개발자들이 구현하기 어려운 수준의 기술력이 요구되는 분야다"고 말했다. 그 밖에 갤럭시S25 시리즈는 ▲날씨, 일정, 수면 점수 등 사용자에게 개인화된 맞춤형 정보 브리핑을 제공하는 '나우 브리프(Now Brief)' ▲멀티모달을 통해 그림과 텍스트, 음성을 종합적으로 인식해 다양한 스타일의 정교한 이미지를 생성해 주는 '그리기 어시스트(Drawing Assist)' 등 모바일 AI 경험을 제공하는 진정한 AI 스마트폰이다. 삼성전자는 폴더블폰과 태블릿 등 다양한 디바이스에 최적화된 AI 경험도 준비 중이다. 원UI 7의 경우 기존 사용자들의 편의성을 고려해 이전 방식 또는 신규 방식을 선택할 수 있는 옵션을 제공할 계획이다. 김 부사장은 "스마트폰, 태블릿의 대화면, 워치의 소형 디스플레이, 버즈와 같은 디스플레이가 없는 기기 등 각각의 특성에 맞는 UI/UX를 개발하고 있다. AI 기술이 빠른 속도로 진화하고 있는 만큼, 우리도 새로운 AI 경험을 계속해서 만들어갈 것"이라며 "궁극적으로는 소비자들의 실생활에 도움이 되는 것이 목표"라고 강조했다.

2025.01.26 11:00이나리

구글·엔비디아, 멀티모달 뛰어넘다…"다음 세대는 '물리 AI'"

밀키트는 손질된 식재료와 양념을 알맞게 담은 간편식입니다. 누구나 밀키트만 있으면 별도 과정 없이 편리하게 맛있는 식사를 할 수 있습니다. [김미정의 SW키트]도 마찬가지입니다. 누구나 매일 쏟아지는 소프트웨어(SW) 기사를 [김미정의 SW키트]로 한눈에 볼 수 있습니다. SW 분야에서 가장 주목받는 인공지능(AI)과 보안 이야기를 이해하기 쉽고 맛있게 보도하겠습니다. [편집자주] 구글과 엔비디아가 인공지능(AI)을 한 단계 끌어올린 기술을 공개하면서 새 AI 시대를 예고했다. 8일 업계에 따르면 구글은 월드 모델 개발팀을 꾸려 멀티모달을 뛰어넘은 AI 생태계 청사진을 공유했다. 엔비디아는 물리 AI 구현을 돕는 '엔비디아 코스모스' 도구를 공개했다. 구글은 현실을 가상 세계에서 실시간 시뮬레이션·예측할 수 있는 월드 모델 개발팀을 꾸렸다고 발표했다. 해당 팀은 딥마인드 소속으로 운영되며 팀 브룩스 연구원이 해당 업무를 담당한다. 그는 지난해 10월 오픈AI에서 비디오 생성기 '소라' 개발에 참여한 바 있다. 월드 모델은 외부 환경을 학습해 이를 가상세계에서 구현·예측할 수 있다. 가상에서 특정 시나리오를 테스트하거나 별도 전략을 학습하는 원리다. 이에 모델이 실제 환경에서 데이터를 직접 쌓지 않아도 기존보다 더 나은 의사 결정을 내는 식이다. 월드 모델은 비전 모델과 메모리 모델, 예측 모델을 결합해 작동한다. 단순히 문자와 이미지를 인식·생성하는 멀티모달보다 한 단계 더 성숙한 모델로 평가받고 있다. 구글 개발팀은 자사 '제미나이'와 '비오' '지니' 개발 연구 경험을 바탕으로 월드 모델을 구축할 방침이다. 제미나이는 구글의 대표 멀티모달 모델이며 비오는 비디오 생성 모델이다. 지니는 게임·3D 환경을 실시간 시뮬레이션할 수 있는 모델로 현실을 3D 세계에 구현할 수 있는 기능을 갖췄다. 구글은 이 모델들을 통합해 기존보다 한 단계 업그레이드한 월드 모델을 구축할 목표다. 젠슨 황 "차세대 AI 개척지는 '물리AI'에 있다" 엔비디아는 이번 CES에서 물리 AI 구현을 돕는 도구 엔비디아 코스모스를 발표했다. 엔비디아 코스모스는 월드 모델과 토크나이저, 영상 프로세싱 파이프라인으로 작동한다. 사용자는 코스모스를 통해 현실에 구축할 빌딩 설계 도면을 제작하거나 자동차 제작 등 물리 AI 시스템을 구축 작업을 할 수 있다. 물리 AI는 현실 속 물리적 법칙을 이해할 수 있는 AI다. 물리적 법칙을 알 수 있기 때문에 실제 환경에 맞는 자동차나 건물 설계를 시뮬레이션을 통해 진행할 수 있다. 이에 업계에서는 물리 AI가 멀티모달 기술을 뛰어넘은 시스템으로 평가하고 있다. 보통 멀티모달은 이미지나 문자, 영상 등을 생성할 수는 있다. 다만 실제 환경을 고려한 물체나 설계 작업을 수행할 수는 없다. 멀티모달이 특정 환경에 대한 물리적 상태를 이해할 수 없기 때문이다. 젠슨 황 엔비디아 CEO도 "앞으로 AI의 차세대 개척지는 물리 AI"일 것이라고 CES 기조연설을 통해 밝힌 바 있다. 이날 황 CEO는 코스모스가 텍스트나 이미지, 비디오 프롬프트를 수집해 가상 세계를 동영상 형태로 만들 수 있다고 도구 원리를 설명했다. 사용자는 코스모스를 통해 현실에 구축할 빌딩 설계 도면이나 자동차 제작, 특정 훈련 시나리오 검색, 모델 작동 테스트 등을 수행할 수 있다. 그는 "코스모스 목표는 AI 모델에 예측과 멀티모달 시뮬레이션 기능을 지원하는 것"이라며 "발생 가능한 모든 미래를 시뮬레이션하고 최적 행위를 선택할 수 있게 돕는 것"이라고 강조했다. 이어 "거대언어모델이 생성형 AI를 혁신한 것과 같은 수준의 영향력을 보일 것"이라고 내다봤다.

2025.01.08 17:30김미정

올해는 AI 혁신 확산의 해…新기술로 새해 투자 '청신호'

한국 경제가 대통령 탄핵정국과 트럼프 2기 정부 출범을 앞두고 을사년 새해를 맞게 됐습니다. 비상계엄 해제 이후에도 환율과 증시가 출렁이는 불확실성 속에 우리 기업들이 새해 사업과 투자 전략을 짜기가 더욱 어려워졌습니다. 정책 혼돈과 시시각각 변화는 글로벌 경제 환경에 어떻게 대처해야 하는지 지디넷코리아가 각 산업 분야별 새해 전망을 준비했습니다. [편집자주] 올 한 해는 인공지능(AI) 기술이 텍스트 생성 중심을 넘어 멀티모달, 고급 추론, 영상 생성 등 다양한 분야에서 비약적 진전을 이루며 산업과 일상에 지대한 영향을 끼쳤다. AI가 단순 도구를 넘어 지능형 조력자로 변모하며 글로벌 기술 기업과 국내 AI 기업들이 이를 중심으로 연구와 투자를 확대하는 가운데 새해에는 본격적인 'AI 에이전트' 시대가 도래할 전망이다. 26일 업계에 따르면 올해는 AI 혁신의 진면목이 가시화된 해로 기록될 전망이다. '챗GPT'가 출시된 지난 2022년 말 이후로 불과 2년도 지나지 않은 사이에 AI가 이미지, 음성, 비디오까지 아우르는 멀티모달 기술로 진전했기 때문이다. 올해부터 오픈AI '챗GPT', 구글 '제미나이', 메타 '라마' 등 주요 생성 AI들은 모두 단순 질의응답을 넘어 다양한 형태의 입력을 자유롭게 넘나들며 처리하는 능력을 각인시켰다. 특히 오픈AI가 지난 9월 정식 출시한 '어드밴스드 보이스 모드'는 음성 기반 상호작용의 새로운 지평을 열었다. 실시간 대화에서 감정을 인식하고 비언어적 신호를 파악해 대화 흐름을 유연하게 조정하는 이 기술은 사용자 말투와 감정 상태에 따라 대응 방식을 달리하며 '인간에 버금가는 대화 파트너'로 자리매김했다. 영상 AI 분야 역시 눈부신 진전을 보였다. 오픈AI가 지난 2월 처음으로 공개하고 이번달에 출시한 '소라'는 최대 20초 길이 영상을 생성해 '챗GPT' 구독자들에게 제공하고 있다. 구글 역시 지난주 유사 서비스인 '비오2(Veo 2)'를 공개했다. '비오 2'는 4K 해상도와 2분 이상 길이의 영상, 물리 법칙 반영, 인간 움직임·표정 이해 등을 통해 사실감 넘치는 가상 세계를 연출해 업계의 찬사를 받았다. 고급추론 능력 역시 크게 발전했다. 지난 9월에는 오픈AI가 'o1'과 'o1 미니'를 출시해 패턴 매칭을 넘어 사고 과정을 모사하는 모델로 과학, 코딩, 수학 영역에서 탁월한 성능을 시연했다. 'o1'은 미국 수학 올림피아드 예선에서 86% 정확도를 기록하고 대학원 수준의 물리·화학·생물학 문제도 소화하는 등 AI가 초고급 인력이 다루는 문제를 해결할 수 있음을 입증했다. 이에 중국 스타트업 딥씨크가 지난달 유사 추론 모델인 'R1'을 공개했으며 구글도 지난 20일 '제미나이 2.0 플래시 사고모드'를 발표해 경쟁에 가세했다. 구글이 최초로 고급 추론 모델을 발표한 당일 오픈AI는 'o1'의 후속작인 초고성능 추론 모델 'o3'와 소형 모델 'o3 미니'를 공개해 경쟁에 불을 지폈다. 'o3'는 국제 코딩 테스트 '코드포스'에서 2천700점을 기록해 세계 상위 0.2%에 해당하는 '인터내셔널 그랜드마스터' 수준을 입증했다. 이는 오픈AI 내부에서도 보기 드문 성과로, 회사는 내년 1월 말 'o3 미니'를 먼저 출시하고 곧이어 'o3'를 정식으로 선보일 예정이다. 기술 발전과 함께 거대언어모델(LLM) 토큰의 가격 하락 흐름도 두드러졌다. 오픈AI의 'GPT-4' 토큰 가격은 출시 당시 100만 개당 36달러(한화 약 5만원)에서 약 1년 반 만에 4달러(한화 약 5천600원) 수준으로 낮아졌고 구글은 제미나이의 토큰 비용을 최대 65% 인하했다. 국내에서도 네이버의 '하이퍼클로바X'가 텍스트·이미지·음성 처리 능력을 고도화하고 LG AI연구원의 '엑사원 3.5'가 광범위한 컨텍스트 처리와 고성능 검색 증강 생성 기술을 선보이는 등 글로벌 흐름에 발맞추고 있다. 이들은 오픈소스 공개, 특화 모델 개발 등을 통해 AI 생태계 확장에 힘쓰는 모습이다. 카카오도 AI 기술 발전에 박차를 가하고 있다. 카카오는 지난 10월 자사 AI 브랜드 '카나나'를 공개하며 AI 네이티브 기업으로의 변화를 선언했다. 현재 사내 베타 테스트 중인 카나나는 내년 1분기 일반 사용자 대상 비공개 베타 테스트(CBT)를 계획하고 있으며 대화 맥락을 기반으로 개인화된 답변과 음성 대화를 지원한다. 업계 관계자는 "올 한 해는 결과적으로 AI가 단순 도구를 넘어 지능형 조력자로 변모한 해"라며 "내년에는 이러한 진전을 바탕으로 한층 정교하고 자율적인 서비스들이 탄생할 것으로 기대된다"고 말했다. 신년에는 'AI 에이전트' 시대 개막…자율적 목표 달성으로 업무·생활 혁신 신년에는 AI가 단순히 '명령에 반응하는 비서'를 넘어 스스로 목표를 설정하고 달성하는 '에이전트'로서 본격적으로 자리 잡을 전망이다. 이러한 에이전트는 여행 일정 수립, 코드 작성, 업무 자동화, 문서 검토, 웹 검색, 양식 작성 등 복잡한 다단계 작업을 스스로 해결한다. 일례로 "다음 주 출장을 준비해줘"라는 명령을 입력하면 항공권 예매, 호텔 예약, 일정 조율까지 모두 처리하는 등 환경을 인식하고 도구를 활용해 문제를 해결한다. 이미 앤트로픽은 지난 10월 '클로드 3.5 소넷'을 발표하며 컴퓨터 제어 기능을 통한 AI 에이전트 기술 경쟁에 최초 진입했다. '소넷'은 AI가 마우스 움직임, 클릭, 키보드 입력 등 실제 PC 사용을 모방하도록 설계돼 복잡한 업무를 자동화 한다. 블룸버그 등 외신에 따르면 오픈AI는 이에 가세해 새해 1월 '오퍼레이터'라는 이름의 AI 에이전트를 출시할 예정이다. 또 마이크로소프트는 '365 코파일럿', 아마존은 '노바', 애플은 '애플 인텔리전스' 제품 군에 각각 AI 에이전트 기능을 추가하며 시장 선점을 위한 경쟁에 나선다. 이들 에이전트는 각각의 강점을 바탕으로 다양한 산업 분야에서 AI 활용을 극대화하며 글로벌 AI 경쟁을 더욱 가속화할 것으로 보인다. 새해 AI 에이전트의 등장은 금융, 소매, 물류, 의료, 제조 등 다양한 산업 분야에서 '에이전트 솔루션'의 확산을 이끌 전망이다. AI가 단순한 지원자에서 독립적인 업무 주체로 자리 잡으며 기업들은 에이전트 기술의 개발과 도입에 더욱 박차를 가할 것으로 전망된다. 업계 관계자는 "올해가 AI 기술 검증과 대중화의 해였다면 새해는 진정한 AI 조력자 시대의 개막"이라며 "에이전트 기술은 AI가 대중에게 보다 직관적으로 다가가는 기회가 될 것"이라고 내다봤다. 투자 확대 '청신호'…국내외 기업, IPO 시동 등 AI에 전폭 베팅 올해 AI 기술의 폭발은 투자 시장에도 강력한 영향을 끼쳤다. 오픈AI는 66억 달러(한화 약 8조6천억원)에 달하는 대규모 자금을 조달하며 기업가치 1천570억 달러(한화 약 205조원)를 인정받았다. 앤트로픽 역시 아마존, 구글, 멘로 벤처스 등 주요 글로벌 투자자들의 지원 속에 40억 달러(한화 약 5조2천억원)을 유치하며 기업가치가 약 300억~400억 달러(한화 약 39조~52조원)로 평가받고 있다. 이러한 대규모 투자는 AI 연구 강화, 컴퓨팅 능력 향상, 복잡한 문제 해결 도구 개발로 이어져 기술 발전을 더욱 가속화하고 있다. 오픈AI는 확보한 자금을 통해 모델 고도화와 인프라 최적화에 나섰으며 앤트로픽은 아마존웹서비스(AWS)의 '트레이니엄'과 '인퍼렌시아' 칩을 활용해 대규모 모델 학습과 배포 효율성을 높일 계획이다. 국내에서도 AI 투자 열기가 뜨겁다. 네이버는 매출의 20~25%를 연구개발(R&D)에 투자할 계획으로, 향후 6년간 1조원 규모의 'AI 임팩트 펀드'를 조성할 예정이다. 또 새해를 'AI 서비스 적용의 해'로 선포하며 검색·쇼핑·지도 등 핵심 서비스에 AI를 연계해 통합 검색 'AI 브리핑' 기능을 선보일 예정이다. LG그룹 역시 대규모 투자에 적극적으로 나섰다. LG전자는 오는 2028년까지 투자액 100조원 중 절반가량을 AI와 같은 미래 성장 동력 분야에 투입할 계획이다. 이와 함께 1천만 달러(한화 약 138억원) 규모의 AI·딥테크 스타트업 투자를 통해 혁신 기술 트렌드를 경영 전략에 반영하고 있다. 카카오는 AI 기술 개발과 서비스 출시를 위해 올해 약 1천500억원을 투자하며 지난해 1천255억 원 대비 19.5%를 증액했다. 주요 투자로는 카카오와 카카오브레인의 AI 사업부 통합에 약 1천억원, 그래픽처리장치(GPU) 투자에 500억원을 배분한 것으로 알려졌다. 내년에는 AI 브랜드 '카나나'의 정식 론칭에 따라 투자 규모가 더욱 확대될 것으로 전망된다. 국내 AI 중견·중소 기업들의 상장 행보도 두드러진다. 뉴엔AI(구 RSN)는 내년 코스닥 기술특례상장을 목표로 올해부터 IPO 준비에 나섰다. 설립 20주년을 맞아 사명을 변경한 이 회사는 구어체·비정형·빅데이터 분석에 특화된 '퀘타(Quetta) LLMs' 아키텍처를 기반으로 연평균 매출 20% 성장을 이어오고 있다. 지난 10월 NICE평가정보와 한국기술신용평가의 기술특례 평가에서 동시에 'A, A' 등급을 획득하고 프리IPO 단계에서 100억원 투자를 유치하는 등 상장 준비에 속도를 내고 있다. 와이즈넛도 새해 1월 코스닥 상장을 추진 중이다. 지난 2000년 설립된 와이즈넛은 정부·금융·법률 기관 등 다양한 분야에 생성형 AI 기반 소프트웨어를 공급하는 기업으로, 핵심 기술은 언어 이해, 정보 탐색, 대화 응답, 빅데이터 분석에 특화되어 있다. 회사는 공모를 통해 신제품 연구 개발과 글로벌 시장 확대에 주력할 계획이다. 노타도 신년 상반기 코스닥 기술특례상장을 목표로 준비 중이다. AI 최적화 기술 전문 기업인 노타는 자사의 AI 최적화 플랫폼 '넷츠프레소(NetsPresso)'와 온디바이스 AI 솔루션을 통해 자원 제약이 큰 디바이스에서도 효율적인 AI 성능을 구현한다. 최근에는 기술특례 평가에서 'A, A' 등급을 획득해 상장 절차에 본격적으로 시동을 걸고 있다. 이같이 투자 기회 확대와 대중화 흐름은 시장 경쟁을 촉진하고 있다. 업계 관계자는 "새해에 본격화될 AI 에이전트 경쟁과 멀티모달 AI의 고도화가 투자 유입을 더욱 촉진할 것"이라며 "기업들은 디지털 전환(DX)을 넘어 AI 전환(AX) 능력을 갖추는지가 생존과 성장의 핵심 기준이 될 것"이라고 강조했다.

2024.12.26 10:15조이환

'오픈AI 핵심 연구자' 알렉 레드포드, 회사 떠났다

오픈AI의 핵심 연구자인 알렉 레드포드가 회사를 떠났다. 25일 디인포메이션 등 외신에 따르면 레드포드는 최근 연구 활동에 있어 더 큰 자율성을 추구하기 위해 오픈AI 사임을 결정한 것으로 알려졌다. 레드포드는 지난 2015년 심층 합성곱 생성적 적대 신경망(DCGAN)을 단독으로 발표하며 생성적 적대 신경망(GAN) 기술의 대중화를 이끌어 왔다. 이후 'GPT' 시리즈, 대조적 언어-이미지 사전 학습(CLIP), 위스퍼(Whisper) 등 혁신적인 프로젝트를 주도하며 인공지능 연구의 지평을 넓혔다. 특히 멀티모달 AI 분야에서 그의 기여는 독보적이라는 평가를 받으며 업계 내에서 가장 영향력 있는 연구자 중 한 명으로 자리 잡았다. 이번 퇴장은 오픈AI 내부의 다른 고위급 인사 이탈과 맞물려 더 큰 주목을 받고 있다. 최근 미라 무라티 오픈AI 전 최고기술책임자, 밥 맥구루 연구 책임자, 존 슐만 공동 창립자 등 주요 인사가 연이어 퇴사하며 회사의 전략적 변화가 화두에 오른 바 있다. 오픈AI는 지난 2015년 비영리 조직으로 출범했으나 샘 알트먼 대표 주도로 점차 영리 법인화되며 방향성이 변화하고 있다. 최근에는 안두릴 등 군사기업과의 파트너십으로 상업 및 군사적 활용을 강화하는 등 회사 내부에서의 가치관 충돌 가능성이 제기되고 있다. 월스트리트의 한 분석가는 "레드포드 같은 기술적 거장의 퇴장은 AI 연구의 패러다임 변화를 예고한다"며 "독립 연구자들의 역할이 AI 혁신의 중심으로 자리잡는 시발점이 될 수 있다"고 평가했다.

2024.12.25 13:14조이환

삼성전자, 자체 개발한 생성형 AI '삼성 가우스2' 공개

삼성전자는 '삼성 개발자 콘퍼런스 코리아 2024(Samsung Developer Conference Korea 2024, SDC24 Korea)'를 온라인으로 개최했다고 21일 밝혔다. 삼성전자는 소프트웨어 개발자들과 소통하고 협력하기 위해 2014년부터 매년 개발자 행사를 개최해 왔으며, 올해로 11주년을 맞이했다. 이날 콘퍼런스에서는 ▲생성형 AI ▲소프트웨어(S/W) 플랫폼 ▲IoT ▲헬스케어 ▲통신 ▲데이터 등 제품에 탑재된 다양한 소프트웨어의 연구 분야는 물론 오픈소스 개발 문화에 이르기까지 다양한 세션이 마련됐다. 삼성전자 DX부문 최고기술책임자(CTO) 겸 삼성리서치장인 전경훈 사장은 환영사를 통해 "삼성전자는 인공지능과 데이터 분석과 같은 최신 소프트웨어 기술 확보에 집중하여 새로운 라이프스타일을 창조하고 고객의 삶을 개선하는데 주력하고 있다"고 강조했다. 또한 "삼성전자 고유의 생성형 AI 모델인 '삼성 가우스2'를 공개하고, 향상된 성능과 효율, 그리고 활용 방안에 대해 설명할 예정"이라며 "이를 통해 업무 생산성 향상과 단계적 제품 적용으로 더욱 편리하고 차별화된 고객 경험을 제공할 것"이라고 말했다. ■ 자체 개발 생성형 AI 모델 2세대 '삼성 가우스2' 공개 삼성전자는 키노트 발표에서 지난해 처음 공개한 생성형 AI 모델 '삼성 가우스1(Samsung Gauss1)'의 후속 모델인 '삼성 가우스2(Samsung Gauss2)'를 공개했다. '삼성 가우스2'는 언어·코드·이미지 통합 멀티모달(Multimodal) 모델로 기존 '삼성 가우스1'과 달리 여러가지 데이터 유형을 동시 처리할 수 있는 2세대 버전이다. 서비스 용도에 따라 ▲콤팩트(Compact) ▲밸런스드(Balanced) ▲슈프림(Supreme) 세 가지 모델로 구성되어 있다. 멀티모달은 텍스트, 이미지, 오디오, 비디오 등 다양한 유형의 데이터(모달리티)를 함께 고려하여 서로의 관계성을 학습 및 처리하는 인공지능이다. 인간이 오감을 모두 활용해 정보를 이해하고 처리하는 방식과 유사하다. '콤팩트'는 제한된 컴퓨팅 환경에서도 효율적으로 작동하도록 설계된 소형 모델이다. 온디바이스(On-Device) 환경에서 기기의 특성을 최대한 활용해 기기에 최적화된 성능을 제공한다. '밸런스드'는 클라우드(Cloud) 기반으로 성능, 속도 면에서 안정성과 효율성의 균형을 맞춘 모델이다. 다양한 작업에서도 균형 잡힌 성능을 제공한다. 마지막으로 '슈프림'은 최고 성능을 목표로 하는 고성능 모델이다. '밸런스드' 모델을 기반으로 '전문가 혼합(MoE, Mixture of Experts)' 기술을 이용해 학습과 추론 과정에서 계산량을 대폭 줄여 성능과 효율성 모두를 높일 수 있었다. 전문가 혼합 기술은 특정 작업 처리 시 가장 알맞은 일부 전문가 모델들만 선택, 활성화해 처리하는 방식을 뜻한다. 필요한 연산 자원을 절약해 효율적으로 성능을 높일 수 있다. 또한 '삼성 가우스2'는 모델에 따라 9~14개국의 언어와 다양한 프로그래밍 언어를 지원한다. 삼성전자는 자체적으로 거대언어모델(LLM) 학습 안정화 기법을 개발해 적용하고, 자체 '토크나이저(Tokenizer)'를 설계해 지원하는 언어에 대한 효율성을 극대화했다. 토크나이저는 글자, 이미지, 음성 등의 입력을 생성형 모델이 처리 할 수 있는 토큰으로 변환 및 분할하는 알고리즘으로, 데이터를 벡터 형태의 숫자 형식인 토큰으로 표현하는 방법이다. '밸런스드'와 '슈프림' 모델은 현재 공개되어 있는 대표적인 오픈소스 생성형 AI 모델들 대비 영어, 한국어 등 다양한 언어 답변 생성, 코딩 등 주요 지표에서 동등 이상의 성능을 제공한다. 시간당 처리 속도는 1.5~3배 이상으로 그만큼 AI의 답변 생성이 빨라 사용자의 대기시간이 줄어들고 효율적인 일처리가 가능하다. ■ 사내 맞춤형 개발 '삼성 가우스', 다양한 업무·제품 개발에 활용 자체 생성형 AI 모델의 장점은 필요한 목적과 응용분야에 맞춰 최고의 성능을 내도록 맞춤형 개발에 용이하다는 것이다. 실제로 '삼성 가우스'는 이런 맞춤형 개발의 장점을 살려 직원들의 다양한 업무에서 활용되고 있다. '코드아이(code.i)'는 사내 S/W 개발자를 지원하는 '삼성 가우스' 모델의 코딩 어시스턴트 서비스이다. 최근에는 '삼성 가우스2' 모델로 업그레이드되어 DX부문의 사업부 및 일부 해외 연구소에서 활용되고 있다. '코드아이'는 작년 12월 서비스 시작 시점 대비 현재 월별 사용량은 약 4배 이상 증가했고, 삼성전자 DX부문 전체 S/W 개발자의 약 60%가 사용하고 있다. 삼성 가우스 포탈(Samsung Gauss Portal)은 '삼성 가우스'의 대화형 AI 서비스로 ▲문서 요약 ▲번역 ▲메일 작성 등 DX부문 직원들의 다양한 사무 업무를 빠르고 효율적으로 처리할 수 있도록 지원하고 있다. 지난 4월에는 해외 법인으로 서비스가 확대되었다. 또 삼성전자는 올해 8월부터 '삼성 가우스'를 콜센터에 적용해 상담 내용을 자동 분류하고 요약하는 등 상담원의 업무를 보조하고 있다. 삼성전자는 향후 '삼성 가우스2'를 통해 '코드아이(code.i)'서비스의 지속적인 성능 개선, '삼성 가우스 포탈(Samsung Gauss Portal)'의 자연어 질의응답 성능 향상, 표와 차트의 이해, 이미지 생성 등 멀티모달 기능을 지원해 사내 생산성 향상에 기여할 계획이다. 또한 삼성전자는 '모두를 위한 AI(AI for All)' 라는 AI 비전 아래, 사용자들이 더욱 편리하고 즐거운 일상을 누릴 수 있도록 전 제품 군에 AI 서비스를 제공할 예정이다. 향후 지식 그래프(Knowledge Graph) 기술과도 결합해 한층 강화된 개인화 서비스를 선보일 것으로 기대된다. ■ S/W 플랫폼, IoT, 헬스케어, 통신, 데이터 등 다양한 주제로 발표 진행 '삼성 가우스2' 발표에 이어, '삼성의 플랫폼에 대한 고객경험'을 주제로 ▲스마트싱스(SmartThings) 플랫폼 고객 경험 ▲소프트웨어 플랫폼 고객경험 향상에 대한 키노트가 이어졌다. 이후 ▲헬스케어의 미래와 삼성 헬스 에코시스템 전략 ▲생성형 AI를 통한 스마트싱스(SmartThings) 고객 VOC 경험 개선기 ▲code.i: 삼성의 AI 코딩 어시스턴트를 이해하다 ▲당신의 일상에 활력을 더하는 TV 기반 라이프스타일 콘텐츠 허브 소개 ▲AI 비전(Vision) 기술과 데이터 활용을 통한 삼성 가전 AI 솔루션 등 총 29개의 다양한 기술 세션이 이어졌다.

2024.11.21 10:00장경윤

[컨콜] 삼성SDS "내년 상반기 멀티모달 챗·지식 그래프 선보일 것"

삼성SDS가 주력 비즈니스로 인공지능(AI) 서비스 확대를 위해 내년 상반기 멀티모달 챗·지식 그래프기반 기술을 선보일 예정이다. 삼성SDS는 30일 개최한 3분기 컨퍼런스콜을 통해 차기 AI 비즈니스 계획을 공개했다. 구형준 클라우드서비스사업부장은 "내년 상반기 안으로 멀티모달 챗, 지식 그래프 등의 핵심 기술을 확보할 것"이라며 "이를 사업에 활용할 수 있도록 준비할 것"이라고 밝혔다. 멀티모달 챗은 텍스트, 이미지, 소리 등 여러 형태의 입력과 출력을 통합해 사용자와 상호작용하는 챗봇 시스템을 말한다. 다양한 데이터 소스에서 정보를 수집하고 분석하여 더욱 풍부하고 정확한 대화를 제공할 수 있도록 지원한다. 지식 그래프는 정보와 데이터를 연결해 시각적, 구조적으로 나타내는 데이터 모델이다. 사람, 장소, 사물 등 다양한 개체 간의 관계를 그래프 형태로 표현해 정보 간의 연결을 보여주며 이를 통해 단순한 데이터 집합이 아닌 맥락화된 정보를 제공해 더 높은 수준의 데이터 분석과 추론이 가능하도록 돕는다. 구 부사장은 "현재 200개가 넘는 기업 고객사례를 바탕으로 다양한 요구사항을 수집하고 있다"며 "이를 해결하기 위해 대규모언어모델(LLM), 에이전트 등을 활용한 기술을 구체화하고 있다"고 밝혔다.

2024.10.30 15:57남혁우

카카오 '카나나' 라인업 발표…"한국어 AI 성능으로 글로벌 모델 압도할 것"

"이번에 발표된 '카나나'는 우리가 지금까지 개발해 온 모든 인공지능(AI)을 통합한 모델로, 한국어 처리에서 글로벌 AI 모델들을 능가하는 성과를 냈습니다. '카나나'를 통해 글로벌 AI 시장에서 선두로 나아가고자 합니다." 김병학 카카오 성과리더는 23일 경기도 용인시 카카오 AI 캠퍼스에서 열린 '이프카카오 2024' 행사에서 이같이 말했다. '이프카카오 2024'는 카카오 그룹이 AI 및 클라우드 기술 성과를 공유하고 국내 IT 기술 발전에 기여하기 위해 마련한 행사로, 지난 22일부터 사흘간 진행된다. 김 성과리더는 '카나나 모델 라인업의 핵심(Essence of Kanana Model Family)' 세션을 통해 카카오의 통합 AI 모델인 '카나나(Kanana)'를 소개했다. 그는 "카카오의 모든 AI 서비스를 '카나나'로 통합해 일관된 경험과 새로운 가치를 제공할 것"이라며 "한국어 처리에서 글로벌 모델을 능가하는 성능을 보유했다"고 강조했다. '카나나'는 언어모델(LLM), 멀티모달 언어모델(MLLM), 비주얼 생성모델, 음성모델 등으로 구성된 카카오의 통합 AI 모델이다. 특히 언어모델은 모델 크기에 따라 '카나나 나노', '카나나 에센스', '카나나 플래그'로 분류돼 서비스 환경에 따라 맞춤형의 성능과 비용 효율성을 제공한다. 김 성과리더는 "'카나나 에센스' 모델은 한국어 논리 및 추론 평가에서 글로벌 최고 수준의 성능을 기록했다"며 "케이엠엠엘유(KMMLU), 해래(HAE-RAE) 등의 벤치마크에서 글로벌 대표 모델들을 앞서는 결과를 얻었다"고 밝혔다. 이는 카카오가 자체 구축한 고품질의 한국어 데이터셋과 개인정보 및 저작권 이슈를 해결한 투명한 학습 과정을 통해 이루어진 성과다. '카나나' 모델은 비용 효율성 면에서도 강점을 지닌다. 다양한 모델들이 라인업 형태로 출시돼 각기 다른 목적을 위해 활용될 수 있기 때문이다. 이에 대해 김 성과리더는 "큰 모델을 모든 서비스에 적용하는 것은 비용 효율성이 떨어진다"며 "'카나나'는 서비스 목적에 맞게 학습 과정을 최적화해 처리 시간과 운영 비용을 절감할 수 있다"고 설명했다. 카카오는 이러한 '카나나' 모델을 활용해 카카오톡의 AI 대화 요약, 톡채널 AI 매니저 등 다양한 서비스에 AI 기술을 적용할 계획이다. 특히 멀티모달 언어모델인 '카나나 O'는 텍스트, 이미지, 오디오 데이터를 동시에 이해하고 처리할 수 있어 더욱 자연스러운 사용자 경험을 제공한다. 또 비주얼 생성모델 '콜라주'와 '키네마'는 개인화된 이미지와 동영상을 생성하며 음성모델 '카부'와 '퀘스트'는 자연스러운 음성 인식과 합성을 지원한다. 김 성과리더는 "'카나나' 모델은 다양한 신기술을 통해 사용자와 깊이 있는 상호작용을 이끌어낸다"며 "정확한 지식과 통찰력을 바탕으로 답변을 제공해 서비스에 새로운 가치를 더할 것"이라고 말했다. AI 모델 개발에는 여전히 해결해야 할 과제들이 있다. 그럼에도 김 성과리더는 이러한 도전에 대응하기 위한 해결책을 제시했다. 그는 "사용자 발화의 맥락을 정확히 이해하고 적절한 응답을 제공하기 위해서는 생성형 AI와 대형 언어모델(LLM)의 활용이 필요하다"며 "책임감 있고 신뢰할 수 있는 AI 모델을 만들어가고 있다"고 밝혔다. 그러면서 "'카나나' AI 기술을 서비스로 연결해 사용자 문제를 직접적으로 해결하는 AI 네이티브 컴퍼니로 나아가기 위한 기반을 확대하겠다"고 강조했다.

2024.10.23 14:02조이환

ETRI AI경진대회 대상, 서울대 통못자핫도그 팀 받아

한국전자통신연구원(ETRI)은 제3회 ETRI 휴먼이해 인공지능 논문경진대회 개최 결과 서울대 나영훈 외 3인의 '통못자핫도그 팀'이 대상을 받았다고 20일 밝혔다. 대상을 받은 통못자핫도그 팀(나영훈(서울대), 고성지(엔셀), 오승훈(한림대), 이현경(서울대))은 멀티모달 센서 데이터를 복합 이미지 데이터로 변환, 수면의 품질과 스트레스 수준을 예측하는 'PixleepFlow'라는 모델을 제안했다. 이 모델은 이미지 기반 표현을 사용하고 설명 가능한 인공지능(XAI) 기술을 적용해 기존 시계열 분석보다 뛰어난 성능을 도출했다. 최우수상은 국민대학교 김진재 외 3인의 민바 팀(김진재(국민대), 최은지, 마민정(고려대), 조근희(KAIST))이 수상했다. 이 팀은 트랜스포머 기반 다변량 시계열 모델과 기계학습을 결합한 모델을 제안했다. 시계열 데이터 특성 및 포괄적인 일일 활동 통계를 반영하는 접근 방식을 통해 예측 정확도 향상을 시도했다. 우수상은 VLAB 팀(김성열, 신호주, 김지아(부경대))이 받았다. 일일 활동 데이터를 통합한뒤 수면의 질 예측 성능을 향상시키기 위해 타임 시프팅, 노이즈 추가, 오버샘플링 등 다양한 데이터 증강 기술을 접목한 학습모델을 제안했다. ETRI는 이외에도 장려상에 ▲IMDL(이태영, 하순호(고려대)) ▲율동공원(함지율, 하윤지, 유건혁(고려대)) ▲USIMNKO(이재현, 유선우, 김대원(DGIST)) ▲얌얌(조예지, 권나연, 윤보라(세종대)) 등 4개 팀을 선정했다. 이번 대회는 'ETRI AI 나눔 플랫폼'을 통해 ETRI가 공개한 라이프로그 데이터를 활용해 수면, 감정, 스트레스와 같은 일상 경험의 지표를 예측하는 창의적인 연구를 발굴하고자 진행됐다. ETRI 방승찬 원장은 “이번 대회가 인간을 이해하는 따뜻한 AI 기술에 대한 사회적 관심을 높이고, 국내뿐만 아니라 국제적으로도 많은 연구자가 의견을 활발하게 교류할 수 있는 계기가 됐다"고 말했다.

2024.10.21 12:52박희범

메타, 감정 읽고 표현하는 신규 AI '스피릿LM' 공개

메타가 음성과 텍스트를 자유롭게 오가며 감정상태까지 반영하는 신규 인공지능(AI)를 선보인다. 20일 벤처비트 등 외신에 따르면 메타는 멀티모달 언어모델 '메타 스피릿 LM'을 깃허브를 통해 출시했다. 메타스피릿LM은 '교차하는 말하기와 쓰기 언어 모델'이라는 새로운 방식이 적용된 언어모델이다. 같은 의미를 가진 텍스트와 음성 데이터를 함께 학습시켜 두 형태 언어 사이의 상호작용까지 학습시키는 것이 특징이다. 두 모달리티 사이의 연결을 강화하고 양측을 자연스럽게 오가는 언어 처리 능력을 강화했다. 이를 통해 텍스트 스타일을 분석하고 음성에 포함된 감정을 포착해 이를 전환하는 과정에서도 최대한 반영할 수 있다. 스피릿LM은 70억 매개변수 규모의 텍스트 데이터에 음성데이터를 연계해 학습을 거쳤으며 스피릿LM 베이스와 스피릿LM 익스프레시브 2가지 모델로 제공된다. 스피릿LM 베이스는 음성을 중심으로 데이터를 입력 받아 답변을 제공하며, 스피릿LM 익스프레시브는 추가로 음성의 높낮이 등을 인식해 화자의 감정 표현까지 인식해 제공한다. 분노, 놀라움, 기쁨 등의 감정 상태를 감지하고 이를 답변 등에 반영할 수 있어 가상 비서, 챗봇 등에서 보다 자연스러운 의사소통과 서비스를 제공할 수 있을 전망이다. 메타 측은 "보다 자연스럽고 표현력이 풍부한 AI 모델을 개발하고 오픈소스로 제공할 계획"이라며 "이를 통해 AI 커뮤니티에서 멀티모달 AI앱에 대한 새로운 가능성을 열 수 있도록 지원할 것"이라고 밝혔다.

2024.10.20 09:19남혁우

엘리스그룹, 우리 말·문화 잘 아는 'AI헬피 Pro' 공개

AI 교육 솔루션 기업 엘리스그룹(대표 김재원)은 멀티모달 AI 모델 'AI헬피 Pro'를 공개했다고 18일 밝혔다. 엘리스의 생성형 AI 챗봇 'AI헬피'에 이미지 인식 기능을 더한 것으로 한국어와 한국 문화를 잘 이해할 수 있도록 특화됐다. AI헬피 Pro에는 엘리스그룹 자체 개발 AI 모델이자 텍스트와 이미지를 이해하고 분석할 수 있는 'Helpy-V'가 탑재됐다. 이에 이미지에 관련된 질문을 받을 경우 답변을 설명하는 시각적 질의응답(VQA, Visual Question and Answering)이 가능하다. 기존 AI헬피가 할 수 있던 정확하고 빠른 질의응답에 더불어 원하는 이미지 생성 기능도 제공된다. 생성형 AI의 문제점이었던 할루시네이션은 실시간 정보 검색 기능으로 크게 완화했다. 또 한국어와 한국문화를 읽고 분석하는데 탁월한 성능을 보인다. 유명 한국인 사진을 보고 설명할 수 있는 것은 물론, 국악과 같은 전통 문화, 전통 음식 이미지를 이해하고 정확하게 설명할 수 있다. 한국어 VQA 작업 영역에 대해 진행한 CVQA 벤치마크에서도 빅테크를 포함한 오픈소스 AI 모델 중 최고의 성능을 기록하며 기술력을 입증했다. 이는 기존 공개된 VQA 모델들이 영어 기반으로 개발돼 한국 문화나 지식에 대한 이해도가 낮았던 한계를 해결하고, 신뢰도 높은 한국어 기반 정보를 제공한다는 의의를 가진다. 엘리스그룹은 실제 교육을 운영하던 중 시각 정보 습득에 어려움을 겪는 학습자를 위해 VQA 기능이 필요하다고 인식해 개발에 나섰다. 모든 학습자가 학습에 참여할 수 있는 보편적 학습 설계(UDL, Universal Design For Learning)를 추구하는 AI헬피 Pro는 4천 곳 이상 기관 AI 교육에 활용 중인 엘리스LXP에 순차적으로 적용될 예정이다. AI헬피 Pro를 사용할 경우, 국내 초·중등 학습 교재 내 이미지에 대해 정확한 한국어 설명을 제공할 수 있다. 또 과학 수업 중 실험 기구 상태를 화면으로 파악하고 질의응답을 진행할 수 있다. 이 밖에도 산업 현장에서 영상이나 이미지로 위험을 감지하는 등 다양한 교육, 산업 영역에서 활용 범위를 넓혀갈 계획이다. 엘리스그룹 김수인 최고연구책임자와 권도현 AI 엔지니어는 “지난해 AI헬피 공개 두 달 만에 15만 건 이상 질의응답이 진행되며 실제 학습자들에게 매우 큰 도움이 됐다는 사실이 매우 유의미했다”며 “앞으로도 더 많은 이들이 활용할 수 있는 신뢰도 높은 교육 특화 AI 모델을 개발할 계획”이라고 말했다.

2024.10.18 09:06백봉삼

  Prev 1 2 Next  

지금 뜨는 기사

이시각 헤드라인

"AI 챗봇 '과잉 공감' 경계해야"…나르시시즘·망상 키울 수도

'보안 올림픽' 4연승 박세준 "K-보안, 글로벌로 가야"

공공 클라우드 전환 앞장서는 美정부…한국은 '제자리걸음'

李대통령 "국정운영 중심에 언제나 국민"

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.