• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
지스타2025
인공지능
스테이블코인
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'멀티 모달'통합검색 결과 입니다. (44건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

삼성전자, 자체 개발한 생성형 AI '삼성 가우스2' 공개

삼성전자는 '삼성 개발자 콘퍼런스 코리아 2024(Samsung Developer Conference Korea 2024, SDC24 Korea)'를 온라인으로 개최했다고 21일 밝혔다. 삼성전자는 소프트웨어 개발자들과 소통하고 협력하기 위해 2014년부터 매년 개발자 행사를 개최해 왔으며, 올해로 11주년을 맞이했다. 이날 콘퍼런스에서는 ▲생성형 AI ▲소프트웨어(S/W) 플랫폼 ▲IoT ▲헬스케어 ▲통신 ▲데이터 등 제품에 탑재된 다양한 소프트웨어의 연구 분야는 물론 오픈소스 개발 문화에 이르기까지 다양한 세션이 마련됐다. 삼성전자 DX부문 최고기술책임자(CTO) 겸 삼성리서치장인 전경훈 사장은 환영사를 통해 "삼성전자는 인공지능과 데이터 분석과 같은 최신 소프트웨어 기술 확보에 집중하여 새로운 라이프스타일을 창조하고 고객의 삶을 개선하는데 주력하고 있다"고 강조했다. 또한 "삼성전자 고유의 생성형 AI 모델인 '삼성 가우스2'를 공개하고, 향상된 성능과 효율, 그리고 활용 방안에 대해 설명할 예정"이라며 "이를 통해 업무 생산성 향상과 단계적 제품 적용으로 더욱 편리하고 차별화된 고객 경험을 제공할 것"이라고 말했다. ■ 자체 개발 생성형 AI 모델 2세대 '삼성 가우스2' 공개 삼성전자는 키노트 발표에서 지난해 처음 공개한 생성형 AI 모델 '삼성 가우스1(Samsung Gauss1)'의 후속 모델인 '삼성 가우스2(Samsung Gauss2)'를 공개했다. '삼성 가우스2'는 언어·코드·이미지 통합 멀티모달(Multimodal) 모델로 기존 '삼성 가우스1'과 달리 여러가지 데이터 유형을 동시 처리할 수 있는 2세대 버전이다. 서비스 용도에 따라 ▲콤팩트(Compact) ▲밸런스드(Balanced) ▲슈프림(Supreme) 세 가지 모델로 구성되어 있다. 멀티모달은 텍스트, 이미지, 오디오, 비디오 등 다양한 유형의 데이터(모달리티)를 함께 고려하여 서로의 관계성을 학습 및 처리하는 인공지능이다. 인간이 오감을 모두 활용해 정보를 이해하고 처리하는 방식과 유사하다. '콤팩트'는 제한된 컴퓨팅 환경에서도 효율적으로 작동하도록 설계된 소형 모델이다. 온디바이스(On-Device) 환경에서 기기의 특성을 최대한 활용해 기기에 최적화된 성능을 제공한다. '밸런스드'는 클라우드(Cloud) 기반으로 성능, 속도 면에서 안정성과 효율성의 균형을 맞춘 모델이다. 다양한 작업에서도 균형 잡힌 성능을 제공한다. 마지막으로 '슈프림'은 최고 성능을 목표로 하는 고성능 모델이다. '밸런스드' 모델을 기반으로 '전문가 혼합(MoE, Mixture of Experts)' 기술을 이용해 학습과 추론 과정에서 계산량을 대폭 줄여 성능과 효율성 모두를 높일 수 있었다. 전문가 혼합 기술은 특정 작업 처리 시 가장 알맞은 일부 전문가 모델들만 선택, 활성화해 처리하는 방식을 뜻한다. 필요한 연산 자원을 절약해 효율적으로 성능을 높일 수 있다. 또한 '삼성 가우스2'는 모델에 따라 9~14개국의 언어와 다양한 프로그래밍 언어를 지원한다. 삼성전자는 자체적으로 거대언어모델(LLM) 학습 안정화 기법을 개발해 적용하고, 자체 '토크나이저(Tokenizer)'를 설계해 지원하는 언어에 대한 효율성을 극대화했다. 토크나이저는 글자, 이미지, 음성 등의 입력을 생성형 모델이 처리 할 수 있는 토큰으로 변환 및 분할하는 알고리즘으로, 데이터를 벡터 형태의 숫자 형식인 토큰으로 표현하는 방법이다. '밸런스드'와 '슈프림' 모델은 현재 공개되어 있는 대표적인 오픈소스 생성형 AI 모델들 대비 영어, 한국어 등 다양한 언어 답변 생성, 코딩 등 주요 지표에서 동등 이상의 성능을 제공한다. 시간당 처리 속도는 1.5~3배 이상으로 그만큼 AI의 답변 생성이 빨라 사용자의 대기시간이 줄어들고 효율적인 일처리가 가능하다. ■ 사내 맞춤형 개발 '삼성 가우스', 다양한 업무·제품 개발에 활용 자체 생성형 AI 모델의 장점은 필요한 목적과 응용분야에 맞춰 최고의 성능을 내도록 맞춤형 개발에 용이하다는 것이다. 실제로 '삼성 가우스'는 이런 맞춤형 개발의 장점을 살려 직원들의 다양한 업무에서 활용되고 있다. '코드아이(code.i)'는 사내 S/W 개발자를 지원하는 '삼성 가우스' 모델의 코딩 어시스턴트 서비스이다. 최근에는 '삼성 가우스2' 모델로 업그레이드되어 DX부문의 사업부 및 일부 해외 연구소에서 활용되고 있다. '코드아이'는 작년 12월 서비스 시작 시점 대비 현재 월별 사용량은 약 4배 이상 증가했고, 삼성전자 DX부문 전체 S/W 개발자의 약 60%가 사용하고 있다. 삼성 가우스 포탈(Samsung Gauss Portal)은 '삼성 가우스'의 대화형 AI 서비스로 ▲문서 요약 ▲번역 ▲메일 작성 등 DX부문 직원들의 다양한 사무 업무를 빠르고 효율적으로 처리할 수 있도록 지원하고 있다. 지난 4월에는 해외 법인으로 서비스가 확대되었다. 또 삼성전자는 올해 8월부터 '삼성 가우스'를 콜센터에 적용해 상담 내용을 자동 분류하고 요약하는 등 상담원의 업무를 보조하고 있다. 삼성전자는 향후 '삼성 가우스2'를 통해 '코드아이(code.i)'서비스의 지속적인 성능 개선, '삼성 가우스 포탈(Samsung Gauss Portal)'의 자연어 질의응답 성능 향상, 표와 차트의 이해, 이미지 생성 등 멀티모달 기능을 지원해 사내 생산성 향상에 기여할 계획이다. 또한 삼성전자는 '모두를 위한 AI(AI for All)' 라는 AI 비전 아래, 사용자들이 더욱 편리하고 즐거운 일상을 누릴 수 있도록 전 제품 군에 AI 서비스를 제공할 예정이다. 향후 지식 그래프(Knowledge Graph) 기술과도 결합해 한층 강화된 개인화 서비스를 선보일 것으로 기대된다. ■ S/W 플랫폼, IoT, 헬스케어, 통신, 데이터 등 다양한 주제로 발표 진행 '삼성 가우스2' 발표에 이어, '삼성의 플랫폼에 대한 고객경험'을 주제로 ▲스마트싱스(SmartThings) 플랫폼 고객 경험 ▲소프트웨어 플랫폼 고객경험 향상에 대한 키노트가 이어졌다. 이후 ▲헬스케어의 미래와 삼성 헬스 에코시스템 전략 ▲생성형 AI를 통한 스마트싱스(SmartThings) 고객 VOC 경험 개선기 ▲code.i: 삼성의 AI 코딩 어시스턴트를 이해하다 ▲당신의 일상에 활력을 더하는 TV 기반 라이프스타일 콘텐츠 허브 소개 ▲AI 비전(Vision) 기술과 데이터 활용을 통한 삼성 가전 AI 솔루션 등 총 29개의 다양한 기술 세션이 이어졌다.

2024.11.21 10:00장경윤

[컨콜] 삼성SDS "내년 상반기 멀티모달 챗·지식 그래프 선보일 것"

삼성SDS가 주력 비즈니스로 인공지능(AI) 서비스 확대를 위해 내년 상반기 멀티모달 챗·지식 그래프기반 기술을 선보일 예정이다. 삼성SDS는 30일 개최한 3분기 컨퍼런스콜을 통해 차기 AI 비즈니스 계획을 공개했다. 구형준 클라우드서비스사업부장은 "내년 상반기 안으로 멀티모달 챗, 지식 그래프 등의 핵심 기술을 확보할 것"이라며 "이를 사업에 활용할 수 있도록 준비할 것"이라고 밝혔다. 멀티모달 챗은 텍스트, 이미지, 소리 등 여러 형태의 입력과 출력을 통합해 사용자와 상호작용하는 챗봇 시스템을 말한다. 다양한 데이터 소스에서 정보를 수집하고 분석하여 더욱 풍부하고 정확한 대화를 제공할 수 있도록 지원한다. 지식 그래프는 정보와 데이터를 연결해 시각적, 구조적으로 나타내는 데이터 모델이다. 사람, 장소, 사물 등 다양한 개체 간의 관계를 그래프 형태로 표현해 정보 간의 연결을 보여주며 이를 통해 단순한 데이터 집합이 아닌 맥락화된 정보를 제공해 더 높은 수준의 데이터 분석과 추론이 가능하도록 돕는다. 구 부사장은 "현재 200개가 넘는 기업 고객사례를 바탕으로 다양한 요구사항을 수집하고 있다"며 "이를 해결하기 위해 대규모언어모델(LLM), 에이전트 등을 활용한 기술을 구체화하고 있다"고 밝혔다.

2024.10.30 15:57남혁우

삼성, 中서 AI 폰 개발…'날리지아틀라스'와 협업

삼성전자가 중국에서 현지 인공지능(AI) 기업과 스마트폰을 공동 개발한다. 23일 중국 언론 IT즈자에 따르면 삼성전자 중국 법인이 중국 AI 기업인 '날리지아틀라스(Knowledge Atlas, 중국어명:智谱华章)'와 전략적 협력을 선언하고 AI 스마트폰 영역에서 협력키로 했다. 날리지아틀라스는 중국 AI 초거대 모델 전문 기업으로 2020년 연말 GLM 사전 훈련 아키텍처를 개발한 데 이어 2021년 100억 매개변수 초거대 모델' GLM-10B'를, 2022년에 중국어와 영어 이중언어 1천억 개 이상 매개변수 초거대 모델 사전 훈련 모델 'GLM-130B'를 개발했다. 지난해엔 1천억 개 이상 매개변수 기반 대화 모델 '챗GLM'을 출시했으며, 올해 1월엔 차세대 기본 초거대 모델 'GLM-4'를 내놨다. GLM-4는 이전 세대 대비 성능을 향상시키면서 더 긴 컨텍스트를 지원하고 멀티모달(텍스트·이미지·오디오·비디오 등 여러 종류의 데이터를 함께 처리) 성능을 갖추는 동시에 속도를 높이고 추론 원가는 크게 낮췄다. 에이전트 성능을 향상시켜 사용자 의도와 자동 이해, 명령 계획에 맞춰 복잡한 임무를 수행할 수 있다. 매체에 따르면 이날 날리지아틀라스와 협력을 선언한 삼성전자 중화권 사용자경험전략부문 쉬위안모 부총재는 "이번 협력으로 삼성전자는 AI 하드웨어 우위와 글로벌 응용 경험을 즈푸의 GLM 초거대 모델과 결합했다"며 "더 품질이 나으면서 맞춤화된 AI 스마트폰과 지능형 서비스를 함께 만들 것"이라고 말했다. 장펑 날리지아틀라스 CEO도 "삼성전자와 함께 생산성, 창의력, 엔터테인먼트 등 측면에서 더 낫고 새로운 AI 경험을 줄 것"이라고 전했다. 이날 날리지아틀라스는 퀄컴과의 협력도 선언했다. 퀄컴의 '스냅드래곤 8 엘리트'용 GLM-4V 멀티모달 비전 초거대 모델을 최적화하면서 풍부한 멀티모달 상효작용을 지원할 예정이다. 기기가 시각과 음성 등 다양한 입력 정보를 효율적으로 처리할 수 있게 되며 고강도 게임에서의 영상 최적화를 비롯해 스마트폰 카메라를 통한 의상 추천, 지능형 네비게이션을 위한 비전 정보 이용, 차량 내 카메라를 통해 남은 물건 식별 등이 가능해진다.

2024.10.24 07:36유효정

카카오 '카나나' 라인업 발표…"한국어 AI 성능으로 글로벌 모델 압도할 것"

"이번에 발표된 '카나나'는 우리가 지금까지 개발해 온 모든 인공지능(AI)을 통합한 모델로, 한국어 처리에서 글로벌 AI 모델들을 능가하는 성과를 냈습니다. '카나나'를 통해 글로벌 AI 시장에서 선두로 나아가고자 합니다." 김병학 카카오 성과리더는 23일 경기도 용인시 카카오 AI 캠퍼스에서 열린 '이프카카오 2024' 행사에서 이같이 말했다. '이프카카오 2024'는 카카오 그룹이 AI 및 클라우드 기술 성과를 공유하고 국내 IT 기술 발전에 기여하기 위해 마련한 행사로, 지난 22일부터 사흘간 진행된다. 김 성과리더는 '카나나 모델 라인업의 핵심(Essence of Kanana Model Family)' 세션을 통해 카카오의 통합 AI 모델인 '카나나(Kanana)'를 소개했다. 그는 "카카오의 모든 AI 서비스를 '카나나'로 통합해 일관된 경험과 새로운 가치를 제공할 것"이라며 "한국어 처리에서 글로벌 모델을 능가하는 성능을 보유했다"고 강조했다. '카나나'는 언어모델(LLM), 멀티모달 언어모델(MLLM), 비주얼 생성모델, 음성모델 등으로 구성된 카카오의 통합 AI 모델이다. 특히 언어모델은 모델 크기에 따라 '카나나 나노', '카나나 에센스', '카나나 플래그'로 분류돼 서비스 환경에 따라 맞춤형의 성능과 비용 효율성을 제공한다. 김 성과리더는 "'카나나 에센스' 모델은 한국어 논리 및 추론 평가에서 글로벌 최고 수준의 성능을 기록했다"며 "케이엠엠엘유(KMMLU), 해래(HAE-RAE) 등의 벤치마크에서 글로벌 대표 모델들을 앞서는 결과를 얻었다"고 밝혔다. 이는 카카오가 자체 구축한 고품질의 한국어 데이터셋과 개인정보 및 저작권 이슈를 해결한 투명한 학습 과정을 통해 이루어진 성과다. '카나나' 모델은 비용 효율성 면에서도 강점을 지닌다. 다양한 모델들이 라인업 형태로 출시돼 각기 다른 목적을 위해 활용될 수 있기 때문이다. 이에 대해 김 성과리더는 "큰 모델을 모든 서비스에 적용하는 것은 비용 효율성이 떨어진다"며 "'카나나'는 서비스 목적에 맞게 학습 과정을 최적화해 처리 시간과 운영 비용을 절감할 수 있다"고 설명했다. 카카오는 이러한 '카나나' 모델을 활용해 카카오톡의 AI 대화 요약, 톡채널 AI 매니저 등 다양한 서비스에 AI 기술을 적용할 계획이다. 특히 멀티모달 언어모델인 '카나나 O'는 텍스트, 이미지, 오디오 데이터를 동시에 이해하고 처리할 수 있어 더욱 자연스러운 사용자 경험을 제공한다. 또 비주얼 생성모델 '콜라주'와 '키네마'는 개인화된 이미지와 동영상을 생성하며 음성모델 '카부'와 '퀘스트'는 자연스러운 음성 인식과 합성을 지원한다. 김 성과리더는 "'카나나' 모델은 다양한 신기술을 통해 사용자와 깊이 있는 상호작용을 이끌어낸다"며 "정확한 지식과 통찰력을 바탕으로 답변을 제공해 서비스에 새로운 가치를 더할 것"이라고 말했다. AI 모델 개발에는 여전히 해결해야 할 과제들이 있다. 그럼에도 김 성과리더는 이러한 도전에 대응하기 위한 해결책을 제시했다. 그는 "사용자 발화의 맥락을 정확히 이해하고 적절한 응답을 제공하기 위해서는 생성형 AI와 대형 언어모델(LLM)의 활용이 필요하다"며 "책임감 있고 신뢰할 수 있는 AI 모델을 만들어가고 있다"고 밝혔다. 그러면서 "'카나나' AI 기술을 서비스로 연결해 사용자 문제를 직접적으로 해결하는 AI 네이티브 컴퍼니로 나아가기 위한 기반을 확대하겠다"고 강조했다.

2024.10.23 14:02조이환

ETRI AI경진대회 대상, 서울대 통못자핫도그 팀 받아

한국전자통신연구원(ETRI)은 제3회 ETRI 휴먼이해 인공지능 논문경진대회 개최 결과 서울대 나영훈 외 3인의 '통못자핫도그 팀'이 대상을 받았다고 20일 밝혔다. 대상을 받은 통못자핫도그 팀(나영훈(서울대), 고성지(엔셀), 오승훈(한림대), 이현경(서울대))은 멀티모달 센서 데이터를 복합 이미지 데이터로 변환, 수면의 품질과 스트레스 수준을 예측하는 'PixleepFlow'라는 모델을 제안했다. 이 모델은 이미지 기반 표현을 사용하고 설명 가능한 인공지능(XAI) 기술을 적용해 기존 시계열 분석보다 뛰어난 성능을 도출했다. 최우수상은 국민대학교 김진재 외 3인의 민바 팀(김진재(국민대), 최은지, 마민정(고려대), 조근희(KAIST))이 수상했다. 이 팀은 트랜스포머 기반 다변량 시계열 모델과 기계학습을 결합한 모델을 제안했다. 시계열 데이터 특성 및 포괄적인 일일 활동 통계를 반영하는 접근 방식을 통해 예측 정확도 향상을 시도했다. 우수상은 VLAB 팀(김성열, 신호주, 김지아(부경대))이 받았다. 일일 활동 데이터를 통합한뒤 수면의 질 예측 성능을 향상시키기 위해 타임 시프팅, 노이즈 추가, 오버샘플링 등 다양한 데이터 증강 기술을 접목한 학습모델을 제안했다. ETRI는 이외에도 장려상에 ▲IMDL(이태영, 하순호(고려대)) ▲율동공원(함지율, 하윤지, 유건혁(고려대)) ▲USIMNKO(이재현, 유선우, 김대원(DGIST)) ▲얌얌(조예지, 권나연, 윤보라(세종대)) 등 4개 팀을 선정했다. 이번 대회는 'ETRI AI 나눔 플랫폼'을 통해 ETRI가 공개한 라이프로그 데이터를 활용해 수면, 감정, 스트레스와 같은 일상 경험의 지표를 예측하는 창의적인 연구를 발굴하고자 진행됐다. ETRI 방승찬 원장은 “이번 대회가 인간을 이해하는 따뜻한 AI 기술에 대한 사회적 관심을 높이고, 국내뿐만 아니라 국제적으로도 많은 연구자가 의견을 활발하게 교류할 수 있는 계기가 됐다"고 말했다.

2024.10.21 12:52박희범

메타, 감정 읽고 표현하는 신규 AI '스피릿LM' 공개

메타가 음성과 텍스트를 자유롭게 오가며 감정상태까지 반영하는 신규 인공지능(AI)를 선보인다. 20일 벤처비트 등 외신에 따르면 메타는 멀티모달 언어모델 '메타 스피릿 LM'을 깃허브를 통해 출시했다. 메타스피릿LM은 '교차하는 말하기와 쓰기 언어 모델'이라는 새로운 방식이 적용된 언어모델이다. 같은 의미를 가진 텍스트와 음성 데이터를 함께 학습시켜 두 형태 언어 사이의 상호작용까지 학습시키는 것이 특징이다. 두 모달리티 사이의 연결을 강화하고 양측을 자연스럽게 오가는 언어 처리 능력을 강화했다. 이를 통해 텍스트 스타일을 분석하고 음성에 포함된 감정을 포착해 이를 전환하는 과정에서도 최대한 반영할 수 있다. 스피릿LM은 70억 매개변수 규모의 텍스트 데이터에 음성데이터를 연계해 학습을 거쳤으며 스피릿LM 베이스와 스피릿LM 익스프레시브 2가지 모델로 제공된다. 스피릿LM 베이스는 음성을 중심으로 데이터를 입력 받아 답변을 제공하며, 스피릿LM 익스프레시브는 추가로 음성의 높낮이 등을 인식해 화자의 감정 표현까지 인식해 제공한다. 분노, 놀라움, 기쁨 등의 감정 상태를 감지하고 이를 답변 등에 반영할 수 있어 가상 비서, 챗봇 등에서 보다 자연스러운 의사소통과 서비스를 제공할 수 있을 전망이다. 메타 측은 "보다 자연스럽고 표현력이 풍부한 AI 모델을 개발하고 오픈소스로 제공할 계획"이라며 "이를 통해 AI 커뮤니티에서 멀티모달 AI앱에 대한 새로운 가능성을 열 수 있도록 지원할 것"이라고 밝혔다.

2024.10.20 09:19남혁우

엘리스그룹, 우리 말·문화 잘 아는 'AI헬피 Pro' 공개

AI 교육 솔루션 기업 엘리스그룹(대표 김재원)은 멀티모달 AI 모델 'AI헬피 Pro'를 공개했다고 18일 밝혔다. 엘리스의 생성형 AI 챗봇 'AI헬피'에 이미지 인식 기능을 더한 것으로 한국어와 한국 문화를 잘 이해할 수 있도록 특화됐다. AI헬피 Pro에는 엘리스그룹 자체 개발 AI 모델이자 텍스트와 이미지를 이해하고 분석할 수 있는 'Helpy-V'가 탑재됐다. 이에 이미지에 관련된 질문을 받을 경우 답변을 설명하는 시각적 질의응답(VQA, Visual Question and Answering)이 가능하다. 기존 AI헬피가 할 수 있던 정확하고 빠른 질의응답에 더불어 원하는 이미지 생성 기능도 제공된다. 생성형 AI의 문제점이었던 할루시네이션은 실시간 정보 검색 기능으로 크게 완화했다. 또 한국어와 한국문화를 읽고 분석하는데 탁월한 성능을 보인다. 유명 한국인 사진을 보고 설명할 수 있는 것은 물론, 국악과 같은 전통 문화, 전통 음식 이미지를 이해하고 정확하게 설명할 수 있다. 한국어 VQA 작업 영역에 대해 진행한 CVQA 벤치마크에서도 빅테크를 포함한 오픈소스 AI 모델 중 최고의 성능을 기록하며 기술력을 입증했다. 이는 기존 공개된 VQA 모델들이 영어 기반으로 개발돼 한국 문화나 지식에 대한 이해도가 낮았던 한계를 해결하고, 신뢰도 높은 한국어 기반 정보를 제공한다는 의의를 가진다. 엘리스그룹은 실제 교육을 운영하던 중 시각 정보 습득에 어려움을 겪는 학습자를 위해 VQA 기능이 필요하다고 인식해 개발에 나섰다. 모든 학습자가 학습에 참여할 수 있는 보편적 학습 설계(UDL, Universal Design For Learning)를 추구하는 AI헬피 Pro는 4천 곳 이상 기관 AI 교육에 활용 중인 엘리스LXP에 순차적으로 적용될 예정이다. AI헬피 Pro를 사용할 경우, 국내 초·중등 학습 교재 내 이미지에 대해 정확한 한국어 설명을 제공할 수 있다. 또 과학 수업 중 실험 기구 상태를 화면으로 파악하고 질의응답을 진행할 수 있다. 이 밖에도 산업 현장에서 영상이나 이미지로 위험을 감지하는 등 다양한 교육, 산업 영역에서 활용 범위를 넓혀갈 계획이다. 엘리스그룹 김수인 최고연구책임자와 권도현 AI 엔지니어는 “지난해 AI헬피 공개 두 달 만에 15만 건 이상 질의응답이 진행되며 실제 학습자들에게 매우 큰 도움이 됐다는 사실이 매우 유의미했다”며 “앞으로도 더 많은 이들이 활용할 수 있는 신뢰도 높은 교육 특화 AI 모델을 개발할 계획”이라고 말했다.

2024.10.18 09:06백봉삼

미소정보기술-KCC정보통신, 멀티모달 데이터 플랫폼 사업 제휴

미소정보기술(대표 안동욱)이 공공 및 엔터프라이즈 인공지능(AI)시장 공략을 위해 '생성형AI(Gen AI) 사업을 확대한다. 미소정보기술은 KCC정보통신과 멀티모달 데이터 플랫폼(MDP)사업' 제휴를 체결했다고 24일 밝혔다. 양사는 이번 사업제휴를 통해 병원, 은행, 공공기관, 엔터프라이즈 기업 고객들에게 생성형AI에 최적화된 멀티모달 데이터플랫폼(MDP) 서비스를 제공할 계획이다. 미소정보기술은 병원에 임상 데이터 웨어하우스(CDW)구축, 의료데이터 분석 워크플로우 전과정을 제공하는 임상분석통합솔루션 '크라스(CRaaS)를 서비스 중이다. 또한 연세의료원, 전남대병원, 건국대병원등 생성형AI를 위한 차세대 의료 빅데이터 통합플랫폼 '스마트빅(smartBIG)'구축, 데이터품질진단(SaaS)서비스, 식약처 의료기기 제조 'GMP' 인증 등으로 사업을 확장하고 있다. KCC정보통신은 한국도로공사, 한국철도공사, 한국가스공사, 신협, 씨티은행 등 각 분야의 중대형 정보시스템 및 클라우드 운영 유지관리 경험을 바탕으로 미소정보기술의 생성형AI를 위한 멀티모달 데이터 플랫폼(MDP)과 전문성을 결합해 은행, 병원, 공공시장에 AI전환(Ax) 과 디지털전환(Dx) 선도적인 역할을 한다는 방침이다. ▲의료, 금융, 건설, 제조, 유통등 생성형AI 서비스 확장 ▲빅데이터 비즈니스 협업 모델 개발 ▲공동 마케팅 ▲에너지, 제약바이오, 우주항공등 신규 고객 발굴을 함께 추진해 나갈 예정이다. 유경태 KCC정보통신 대표이사는 "미소정보기술의 멀티모달 데이터 플랫폼을 통해 병원의 건강데이터, 은행의 금융데이터등 데이터의 가치와 잠재력을 바탕으로 새로운 고객확보와 가치 창출에 적극 지원할 것"이라고 말했다. 안동욱 미소정보기술 대표이사는 "앞으로 학습시킬 데이터가 부족한 시대가 온다며 이를 대비해 누구나 쉽게 생성형AI를 빠르게 구축할 수 있도록 KCC정보통신과 함께 기업이 데이터의 가치를 발견하고 더 나은 의사 결정과 지속적인 성장을 지원하는 데이터 인에이블러(Data Enabler)역할에 집중할 것" 이라고 말했다. 한편, 미소정보기술은 의료분야와 비의료분야로 투트랙 데이터 사업을 진행중이다. 헬스케어 사업은 정부와 보건복지부 정책에 발맞춰 인공지능 기반 의료기술 혁신으로 국민건강 증진에 나선다. 인공지능 의료기술 사업화 확대, 기술격차 단축, 연구개발(R&D)에 투자를 강화한다. 비의료 분야는 AI전문 도메인 날리지를 통해 유통사의 제품 디지털마케팅, 건설 현장 안전관리, 제조업의 생산공정 관리, 우주항공 위성데이터 분석, 디지털트윈, 컨택센터(AICC), 금융, 교육등 풍부한 AI데이터분석 경험과 다양한 데이터구축사업을 국내를 넘어 글로벌 시장으로 확대할 계획이다.

2024.09.24 10:54남혁우

미스트랄AI, 텍스트·이미지 한번에 처리하는 멀티모달 AI 선보여

프랑스 스타트업 미스트랄AI가 이미지와 텍스트를 동시에 처리할 수 있는 멀티모달 인공지능(AI)을 선보였다. 12일 외신에 따르면 미스트랄은 미국 샌프란시스코에서 개최한 AI 서밋 행사에서 멀티모달 AI '픽스트랄(Pixtral)12B'을 공개했다. 픽스트랄 12B는 기존에 출시한 언어모델 네모(Nemo) 12B를 기반으로 4억 개의 매개변수 비전 어댑터가 추가된 것이 특징이다. 비전 어댑터는 AI 모델에 이미지 처리 기능을 추가하는 구성 요소다. 텍스트 기반 모델에 추가되어, 이미지를 입력으로 받아들이고 분석할 수 있도록 지원한다. 픽스트랄 12B는 비전 어댑터를 통해 이미지를 인식하고 자동으로 자막을 작성하는 등의 시각적 작업을 수행할 수 있다. 또한 웹상의 URL 이미지를 불러오거나 이미지를 텍스트 형식으로 변환해 처리가능 하다. 픽스트랄 12B는 오픈소스로 AI 개발 커뮤니티 허깅페이스와 깃허브, 토렌트 등을 통해 공개되고 있으며 전체 파일 크기는 약 24GB에 달한다. 라이선스는 원저작권 정보와 라이선스 고지를 유지하는 대신 소프트웨어(SW)와 소스 코드를 자유롭게 사용, 수정, 배포할 수 있는 아파치 2.0을 기반으로 한다. 이를 통해 기업이나 개인 개발자 모두 픽스트랄 12B를 활용해 자유롭게 각자의 목적에 맞춰 AI를 학습시키고 업무에 적용하거나 서비스에 활용 가능하다. 미스트랄의 소피아 양 개발자 관계 책임자는 “픽스트랄 12B는 미스트랄에서 선보이는 첫 멀티모달 AI로 약 120억 개의 매개변수를 사용했다”며 “AI챗봇인 르챗(Le Chat)과 AI 개발 플랫폼 르플랫폼(Le Platforme)에서도 곧 테스트용으로 제공할 것”이라고 소셜메시지 서비스 엑스(X)를 통해 밝혔다.

2024.09.12 09:49남혁우

LG AI연구원, 임상의학 혁신할 AI 모델 공개

LG AI연구원이 임상의학 연구에 특화된 멀티모달 인공지능(AI) 모델을 공개했다. 생성형 AI가 객체도와 핵, 세포질 등 이미지를 분석해 유전자 변이를 신속히 예측하고 적합한 치료 방법과 약 종류를 효율적으로 찾아낼 수 있다. 23일 LG AI연구원은 엑사원 기반 조직병리 이미지 처리 특화 모델 '엑사원패스(EXAONEPath)를 오픈소스로 공개했다. 연구용 오픈소스 모델 '엑사원 3.0'를 출시한 지 2주 만이다. 조직병리 이미지는 임상의학 분야 필수 데이터다. 연구진은 조직병리 이미지로 세포와 조직 특성을 파악할 수 있어서다. 이를 통해 진단명 확정을 비롯한 치료, 복약 계획을 세울 수 있다. 보통 조직병리 이미지는 사이즈가 매우 크고, 색조 범위도 상이하다. 객체도와 핵, 세포질 등 다루는 이미지 데이터도 한정적이다. 이에 조직병리 이미지를 효율적으로 처리·분석할 수 있는 특화 모델 필요성이 꾸준히 제기됐다. LG AI연구원은 이번에 공개한 엑사원패스 특장점을 높은 성능과 경제성으로 꼽았다. 연구진은 6가지 벤치마크 점수 결과를 통해 조직병리 이미지 분석 정확도가 글로벌 빅테크 경쟁 모델과 유사 수준으로 높다는 점을 근거로 제시했다. 경쟁 모델 대비 적은 양의 학습 데이터를 사용했다는 점도 재차 강조했다. 경쟁 모델보다 1/10에 불과한 크기지만, 데이터 학습에 드는 인프라 비용이 적어 경제성 측면에서 우월하다는 평가다. LG AI연구원은 엑사원패스가 바이오 분야를 혁신할 것으로 기대하고 있다. 향후 의료진은 AI 조직병리 이미지 이해·분석을 통해 기존 유전자 검사 단계 없이 유전변이를 신속히 예측하고 적합한 치료 방법과 약의 종류를 효율적으로 결정할 수 있어서다. 회사 관계자는 "그동안 최대 2주 걸리던 유전자 검사 기간을 AI가 획기적으로 단축할 것"이라며 "엑사원패스가 임상의학 혁신을 일으킬 것으로 기대한다"고 강조했다.

2024.08.23 17:32김미정

네이버 클로바X, 이미지·표·그래프까지 이해하고 분석한다

네이버는 대화형 AI 에이전트 클로바X의 27일 서비스 업데이트를 통해 시각 정보 처리 능력을 새롭게 추가한다고 밝혔다.이에 앞서 네이버는 지난 20일 '클로바' 공식 사이트의 기술 블로그를 통해서 생성형 AI 기반의 음성 합성 기술도 공개했다. 네이버는 기반 모델인 하이퍼클로바X를 텍스트뿐 아니라 이미지, 음성도 동시에 처리할 수 있는 '멀티모달' AI로 고도화하며 생성형 AI 기술 경쟁력을 갖춰간다는 방침이다. 클로바X의 이미지 이해 기능 업데이트로, 사용자들은 클로바X 대화창에 업로드한 이미지에서 추출된 정보와 입력한 질의를 바탕으로 AI와 대화할 수 있다. 클로바X는 사진 속 현상을 묘사하거나 상황을 추론하는 등 다양한 지시를 수행할 수 있다. 예를 들어 이미지나 그림 형식으로 돼 있는 표, 그래프를 클로바X가 이해하고 분석하는 것이 가능하다. 기존의 클로바X가 논리적 글쓰기, 코드 작성, 번역 등의 작업에 활발히 사용된 것에서 더 나아가, 이미지 이해 능력을 기반으로 개인의 생산성 향상 도구로서 활용 범위가 한층 넓어질 것으로 기대된다. 특히 네이버의 우수한 AI 기반 문서 처리 및 문자 인식 기술 노하우와, 다양한 분야 지식을 갖춘 거대 언어 모델(LLM)인 하이퍼클로바X가 결합해 더 정확하고 신뢰성 있는 서비스를 제공할 수 있다. 실제 대한민국 초·중·고등학교 검정고시 총 1천480개 문항을 AI 모델에 이미지 형태로 입력하고 문제를 풀게 한 결과, 클로바X는 약 84%의 정답률을 기록하며 오픈AI GPT-4o의 78%보다 높은 정답률을 보였다. 또 네이버는 클로바 공식 사이트의 기술 블로그를 통해 하이퍼클로바X 기반 음성 AI 기술을 공개했다. 기존의 음성 인식, 음성 합성 기술보다 한층 발전한 모델로, LLM의 특징인 뛰어난 문맥 이해 및 지시문 해석 능력을 활용해 언어 구조 및 발음 정확도 개선은 물론 감정 표현까지 더한 자연스러운 대화가 가능하다. AI 음성 기록 '클로바노트', AI 안부전화 '클로바 케어콜', AI 음성 합성 '클로바더빙' 등 다양한 음성 AI 서비스로 기술 경쟁력을 증명한 바 있는 네이버는 음성 멀티모달 LLM 기술로 더 편리한 서비스를 제공한다는 계획이다. 실제 네이버는 기술 블로그에서 실시간 음성 번역, 언어 학습, 상담 등 음성 멀티모달 LLM의 다양한 서비스 접목 가능성을 제시했다. 성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 "거대 언어 모델로 출발한 하이퍼클로바X는 이미지 이해 능력을 더한 거대 시각 언어 모델, 나아가 음성 멀티모달 언어 모델로 발전하고 있다"며 "하이퍼클로바X의 발전된 능력은 대화형 AI 에이전트 클로바X를 비롯한 여러 네이버 서비스에 도입해 새로운 사용자 가치를 창출하고, 기업용 AI 솔루션으로도 제공하며 하이퍼클로바X 생태계를 더욱 확장해나갈 것"이라고 말했다. 네이버는 하이퍼클로바X를 멀티모달 LLM으로 고도화하고 서비스에 적용하는 과정에서도 'AI 안전성'을 적극적으로 실천할 예정이다. 지난 6월 공개한 네이버의 AI 안전성 실천 체계 '네이버 ASF(AI Safety FRAMEwork)'로 AI 시스템의 잠재적 위험을 평가하고, 특히 음성 AI 기술은 보다 안전한 서비스 제공을 위해 다각도로 검토를 이어갈 계획이다.

2024.08.22 08:38백봉삼

이창희 삼성D 부사장 "OLED 채용률 37%로 증가…AI로 모멘텀 맞아"

"전체 디스플레이 내 OLED 패널의 채용 비중은 이전 8%에서 37% 수준까지 성장했습니다. 향후에도 OLED는 뛰어난 화질로 AI 시대의 주요한 디스플레이 기술이 될 것입니다." 이창희 삼성디스플레이 디스플레이연구소장(부사장)은 13일 서울 코엑스(COEX)에서 열린 '디스플레이 비즈니스 포럼 2024'에서 이같이 밝혔다. 이날 'AI 시대를 위한 디스플레이 기술(Display Technologies for AI Era)'을 주제로 내건 이 부사장은 온디바이스(On-device) AI 시대를 위한 삼성디스플레이의 기술력을 강조했다. 이 부사장은 AI가 탑재된 모바일 및 IT 기기에 대한 수요가 빠르게 늘어날 것으로 예상하는 한편, 특히 다양한 부품 중에서도 디스플레이 부품에 요구하는 기술 수준이 높아질 것으로 내다봤다. 고연산 작업에 많은 전력이 소모되는 점을 고려해, 소비전력을 효과적으로 줄일 수 있는 디스플레이 기술에 대한 관심이 높아질 것이라는 설명이다. 발표된 자료에 따르면, OLED의 채택 비중은 2014년 8%에서 올해 37%로 30%가량 상승했다. 특히 스마트폰 산업에서는 OLED의 비중이 21년 31%에서 내년 60%까지 크게 증가할 것으로 전망된다. 이 부사장은 "디스플레이 시장은 10년간 정체됐으나, 모바일 AI 기술에 따라 새로운 모멘텀을 맞이하고 있다"며 "훌륭한 화질과 높은 명암비, 낮은 블루라이트 방출 등으로 OLED는 향후 AI 시대에서 중요한 디스플레이 기술이 될 것"이라고 밝혔다. 이어 이 부사장은 "OLED 기술 연구에서 가장 중요하게 생각하는 것이 효율적이고 수명이 긴 재료와 소자 구성을 개발하는 것"이라며 "발열을 줄일 수 있는 새로운 소재나 픽셀 제어 알고리즘 등 다양한 저소비전력 기술을 확보하기 위해 지속적으로 연구개발하고 있다"고 말했다. 디스플레이 기술은 멀티모달(복합정보처리) AI와 함께 혼합현실(XR)의 사용자 경험을 향상시키는 데에도 기여할 것으로 기대되고 있다. 멀티모달 AI란 텍스트, 이미지, 소리 등 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 인공지능을 말한다. 이 부사장은 "멀티모달 AI는 시선이나 손동작을 추적하고, 이를 토대로 시의적절한 이미지 정보를 실시간으로 생성해 제공하는 XR 기기에서 특히 진가를 발휘할 것"이라며 "삼성디스플레이는 고휘도의 올레도스(OLEDoS) 기술과 실제 눈으로 보는 것과 같은 고해상도 기술로 멀티모달 AI를 뒷받침해 XR 경험의 매력을 높일 것"이라고 강조했다. 올레도스는 실리콘 웨이퍼 위에 유기물을 증착해 픽셀 크기를 수십 마이크로미터(㎛) 수준으로 구현한 초고화질 디스플레이다. 센서 통합 디스플레이도 AI 시대에 주목받는 기술이다. 지난해 삼성디스플레이는 손가락 터치만으로 사용자의 심박수와 혈압, 스트레스 수준을 측정할 수 있는 유기광다이오드 내장 패널을 세계 최초로 공개한 바 있다. 양 손가락을 동시에 센싱할 수 있어 기존 웨어러블 기기보다 정확한 건강 정보를 제공할 수 있고, 클라우드를 통하지 않고도 고성능 기기로 데이터를 축적, 처리할 수 있다. 이 부사장은 "지문과 생체 정보를 동시에 센싱할 수 있는 패널 기술을 선보인 것은 삼성디스플레이가 처음"이라며 "센서를 내재화한 패널은 사용자의 데이터를 정확하게 측정하고 안전하게 처리할 수 있어 AI의 활용도를 높일 수 있다"고 말했다. 한편 삼성디스플레이는 자체 연구개발 과정에도 AI를 적극 도입해 활용하고 있다. OLED 유기재료의 분자구조나 패널 회로를 설계할 때 AI를 통해 천문학적인 경우의 수를 시뮬레이션하며 시행착오를 줄인 것이 대표적이다. 폴더블 디스플레이의 안정성을 높이기 위한 모듈 구조 최적화 연구 과정에도 AI가 활용됐다.

2024.08.13 11:59장경윤

KAIST, 국제머신러닝학회 주최 '멀티모달 경진대회 챌린지'서 우승

KAIST가 '국제머신러닝학회(ICML) 주최 '멀티모달 작업계획 생성 경진대회((EgoPlan) 챌린지'에서 우승했다고 30일 밝혔다. ICML은 인공지능 및 기계학습 관련 국제학회다. 이 대회는 지난 21~27일 오스트리아 빈에서 개최됐다. 이 대회에 KAIST는 산업 및 시스템공학과 문일철 교수 연구팀(응용인공지능연구실, 이광현-강미나 석사과정 등 총 11명)이 참여했다. 경쟁 상대는 △북경대(중국) △북경 AGI연구소(중국) △임페리얼칼리지 런던(Imperial College London, 영국) 등 6개국 13개 기관이었다. 문일철 교수는 "KAIST는 국내 유일 참가 기관으로 우승상 및 혁신상을 수상했다"고 말했다. 이 대회는 인공지능이 주방에서 요리하는 과정을 비디오 및 지문으로 학습한 뒤, 경험하지 못한 요리 과정에서 상식적으로 합당한 의사결정을 내려 조리할 수 있는지를 경쟁하는 시합이다. 최소한의 학습만으로도 로봇이 다양한 멀티모달 정보 및 기초 상식을 활용해 자율 제조 및 서비스를 수행할 수 있도록 개발하는 것이 핵심이다. 응용인공지능연구실 연구팀은 "멀티모달 대규모 모델의 파인튜닝 학습에 대한 연구 개발 결과를 적용해 우승했다"고 덧붙였다. 문일철 교수는 “중국팀들이 대회를 위해 위챗(WeChat) 대화방까지 마련해 서로 협력한다는 얘기까지 전해 들을만큼 치열했다"고 대회를 평했다. 문 교수는 또 "사실 테슬라에서 시험하고 있는 휴머노이드 제조 로봇에 활용될 수 있는 상식을 가진 인공지능을 만드는 것이 이번 대회 본질"이라며 "중국의 로봇 및 인공지능 기술 선점 노력을 엿볼 수 있었다”고 분석했다. 이번 연구는 정보통신기획평가원(IITP)에서 지원한 사람중심인공지능 핵심원천기술개발사업 중 '이종데이터기반 상식 추출, 이해, 추론을 위한 인공지능 기술개발(연구책임자 문일철)'을 통해 이뤄졌다.

2024.07.30 13:01박희범

구글, 더 빠르고 똑똑해진 '제미나이 1.5 플래시' 무료 공개

구글이 자사의 최신 멀티모달 인공지능(AI) 모델 '제미나이 1.5 플래시(Gemini 1.5 Flash)'를 무료로 공개했다. 최근 비즈니스투데이 등 외신에 따르면, 구글이 새롭게 공개한 제미나이 1.5 플래시는 AI의 성능 향상과 사용자 편의성, 접근성을 높이는 데 중점을 뒀다. 특히 추론과 이미지 이해 부문에서 개선이 이뤄졌다. 구글은 컨텍스트 창을 기존의 4배로 늘려 총 3만2천개 토큰을 활용했다. 사용자는 복잡한 질문을 사용해 AI 어시스턴트와 더욱 깊이 있는 대화를 나눌 수 있다. 또한 구글은 사용자가 제미나이 1.5 플래시를 더욱 효과적으로 이용할 수 있도록 구글 드라이브나 기기에서 직접 파일을 업로드하는 기능을 추가할 예정이다. 이를 통해 사용자는 자신만의 문서나 자료를 바탕으로 맞춤형 학습 가이드, 모의 시험 등을 생성할 수 있게 된다. 또한, 데이터 분석 및 시각화 기능을 강화해 복잡한 정보도 차트와 그래픽을 통해 쉽게 이해할 수 있도록 돕는다. 구글은 AI가 생성하는 허위 정보 문제 해결에도 적극적으로 나서고 있다. 사실 확인이 필요한 질문에 대해서는 관련 콘텐츠 링크를 제공하여 사용자가 정확한 정보를 얻을 수 있도록 유도한다. 제미나이 1.5 플래시 모델은 한국어를 포함한 40개 언어와 약 230개국에서 웹과 모바일에서 사용할 수 있다. 아울러 13세 이상 청소년도 AI를 안전하게 사용할 수 있도록 청소년 전용 온보딩 과정과 AI 활용 가이드를 제공한다.

2024.07.28 10:50정석규

메타, '라마' 차기 버전 유럽에 안 판다…왜?

메타가 인공지능(AI) 모델 '라마(Llama)'의 차기 멀티모달 버전을 유럽연합(EU) 기업들에 팔지 않기로 했다. 유럽 규제환경이 예측 불가능하다는 이유에서다. 미국 뉴스매체 액시오스는 18일 메타가 몇 달 후 출시할 '라마' 멀티모달 버전을 EU 시장에 출시하지 않을 것이라며 이같이 보도했다. 이에 따라 유럽 기업들은 비디오를 비롯한 오디오, 이미지, 텍스트를 모두 이해·처리하는 라마 멀티모달 모델을 사용할 수 없게 된다. 또 비EU 기업들도 이 모델을 사용한 제품과 서비스를 유럽에서 제공할 수 없게 될 가능성이 높다. 다만 텍스트 전용 버전인 '라마 3'는 EU 내에서도 출시 될 예정이다. 메타는 이런 결정을 내린 이유가 EU의 기존 데이터 보호법인 일반데이터보호법(GDPR) 때문이라는 입장이다. 이 기업은 지난 5월 페이스북·인스타그램 게시물을 통해 모델을 훈련할 계획이었다. 당시 유럽 사용자들에게 데이터 수집을 거부할 수 있는 권리인 옵트아웃(opt-out)을 지원했다. 그러나 EU 규제 당국은 6월 데이터 훈련을 중단하라는 명령을 내렸다. 메타가 GDPR에 반하는 행보를 보인다는 이유에서다. 메타 관계자는 "EU와 유사한 법을 가진 영국에서는 이러한 문제를 겪지 않고 있다"며 "영국 시장에는 새로운 모델을 출시할 계획"이라고 밝혔다. 외신은 이번 사건이 미국 빅테크와 유럽 규제 당국 간 갈등이 커지고 있음을 암시한다고 분석했다. 액시오스는 "EU는 개인정보 보호와 독점 금지 문제를 중요하게 보고 있다"며 "이는 기술 기업들과 상반된 입장"이라고 언급했다.

2024.07.18 14:57조이환

"신약개발에서 유전체분석까지”…미소정보기술, 연세의료원 미래의료 환경구축

미소정보기술(대표 안동욱)이 보다 효율적인 임상연구를 지원하기 위해 빅데이터 플랫폼을 구축한다. 미소정보기술은 연세대학교 의료원(이하 연세의료원) 의료빅데이터 플랫폼 구축 사업에 패브릭기반 멀티모달 데이터 플랫폼 구축을 진행한다고 15일 밝혔다. 연세의료원은 정밀의료 실현 및 원내 연구자들을 지원하기 위해 지난해 의료빅데이터 플랫폼 '세브란스 데이터 포털(SDP)' 구축을 완료했다. 연구자들은 임상연구와 관련된 모든 업무(데이터 신청, 분석, 연구환경 신청 등)를 SDP를 통하여 원스톱으로 처리할 수 있다. 올 하반기에는 SDP 고도화를 통해 연구자들에게 더 많은 서비스와 데이터 범위를 제공할 예정이다. 연구자들이 환자 치료 및 신약 개발 등에 필요한 데이터를 자유롭게 활용할 수 있는 데이터 분석 플랫폼을 고도화 한다. 연구자들은 정형데이터 분석은 물론 의료영상, 심전도 등의 비정형 데이터도 동시에 분석할 수 있게 된다. 또한, 데이터 카탈로그를 이용한 데이터 허브 기능, 데이터품질 점검 기능, 셀프 데이터 시각화 기능, 데이터 추출 후 별도의 변경작업 없이 임상데이터(CRF)를 생성하고 분석하는 기능 등이 추가된다. 추후 유전체분석 및 병리분석을 위한 서비스도 제공될 예정이다. 이번 사업은 미소정보기술이 개발한 패브릭기반 멀티모달 데이터 플랫폼 '스마트빅'을 탑재해 데이터의 분석과 모델 생성, 배포, 관리 등의 연구를 빠르고 매끄럽게 진행할 수 있는 진보된 플랫폼으로 구축한다. 기존 '임상 데이터 웨어하우스(CDW)'가 제공하던 사용자 인터페이스·사용자 경험(UI·UX)도 대폭 개선한 연구자 친화적 플랫폼을 제공한다. 그 외에도 연구자들의 의료데이터 분석 및 연구의 원활한 지원을 위해 소형언어모델(SLM)기반의 미소봇(MISOBOT)에 대한 활용성 검토가 진행된다. 연세의료원은 2022년 디지털헬스센터(DHC) 설립 후 연세의료원 의료 빅데이터와 ICT 기술을 결합하여 개방형 혁신 플랫폼을 구축해 방대한 의료 데이터를 자유롭고 안전하게 연구하고 활용할 수 있는 개방형 공간을 제공 중이다. 임준석 연세의료원 디지털헬스실장은 “의료 현장에서 환자의 진단·치료를 도울 수 있는 최신 기술의 적용을 미소정보기술과 함께해서 기쁘게 생각하며 “사람을 살리는 디지털” 실현과 의료 현장에서 진단과 치료 과정에서 생길 수 있는 피치 못할 공백을 메우고 한 생명이라도 더 살릴 수 있도록 의료 데이터 품질, 보안, 표준을 마련하는 데 최선을 다할 것” 이라고 말했다. 안동욱 미소정보기술 대표이사는 “한정된 자원을 효율적으로 사용하고 의료계가 지향하는 맞춤의료와 정밀의료를 높은 수준으로 실현하기 위해서 병원의 디지털 전환은 꼭 필요하다 며 의료 현장에서 꼭 필요하고 실제 도움을 줄 수 있도록 의료데이터 플랫폼 구축에 힘쓸 것” 이라고 말했다.

2024.07.15 14:44남혁우

"AI혁신 선보일까" 애플, 자체 멀티모달 AI '4M' 공개

애플이 텍스트, 이미지, 비디오, 오디오 등 다양한 데이터 유형을 인식하고 변환할 수 있는 멀티모달 인공지능(AI)모델을 공개했다. 1일(현지시간) 벤처비트 등 외신에 따르면 애플은 멀티모달 AI '4M'의 공개 데모 버전을 허깅페이스 스페이스 플랫폼을 통해 선보였다. 4M은 대규모 멀티모달 마스크 모델링(Massively Multimodal Masked Modeling)의 약자로 다양한 모달리티의 콘텐츠를 처리하고 생성할 수 있는 AI 모델이다. 애플은 지난해 12월 스위스 연방 공과대학 로잔(EPFL)과 협력해 4M에 대한 개념을 소개하는 논문을 공개한 바 있다. 이후 7개월 만에 실제 AI모델이 오픈소스로 공개한 것이다. 허깅페이스 스페이스 플랫폼에 공개된 데모 버전은 4M에 활용된 멀티모달 마스킹 기법을 소개하기 위해 마련됐다. 멀티모달 마스킹은 여러 유형의 데이터에서 중요한 정보만 추출하기 위해 그 외의 정보를 의도적으로 숨기는 기법이다. 4M 데모버전에서는 이미지를 업로드하면 RPG, 심도, 메타데이터, 캡션 등 모달리티의 특성에 따라 마스킹 된 14종의 데이터를 확인할 수 있다. 개발자는 마스킹된 데이터 중 필요한 내용만 선택해 이미지에서 객체를 지정하거나 음성을 텍스트로 전환하는 등 다양한 멀티모달 AI 작업을 보다 간단하게 수행할 수 있다. 애플에 따르면 4M 정식 버전은 텍스트, 이미지, 비디오, 음성 등 다양한 멀티모달을 인식하기 위해 수십종의 마스킹 도구가 마련돼 있으며 해당 데이터 유형을 동시에 처리할 수 있도록 지원한다. 하나의 모델에서 서로 다른 데이터 소스 간의 관계를 학습할 수 있는 만큼 각 데이터 유형의 정보를 상호 보완해 보다 정확하고 신뢰성 있는 예측을 제공할 수 있는 것이 특징이다. 또한 여러 유형의 데이터를 통합적으로 분석하는 과정에서 새로운 패턴이나 관계를 발견할 기회도 제공할 수 있다. 특히 애플의 경우 아이폰과 아이패드를 비롯해 혼합현실(XR)서비스를 제공하는 비전프로를 선보이는 만큼 4M을 활용해 더욱 다채로운 사용자경험을 제공할 수 있을 전망이다. 애플의 데이비드 미즈라히 연구과학자 등 연구개발팀 “현재 컴퓨터비전을 위한 기계학습 모델은 매우 전문화된 대신 단일 모달리티와 작업에 한정돼 있다”며 “하지만 최근 대규모언어모델(LLM)은 다재다능한 모델의 가능성을 시사하고 있는 만큼 4M을 통해 이런 잠재력을 보여주는 것을 넘어 비전 외에 다양한 분야에서 멀티모달이 활용될 수 있는 기반을 마련하려 한다”고 논문을 통해 밝혔다.

2024.07.02 10:16남혁우

SSG닷컴, 이미지 검색 '쓱렌즈' 더 똑똑해졌다

SSG닷컴은 자체 개발한 멀티모달 AI 모델을 자사의 딥러닝 기반 이미지 상품 검색 서비스인 '쓱렌즈'에 적용했다고 26일 밝혔다. 쓱렌즈는 쓱닷컴이 2018년부터 운영 중인 이미지 검색 서비스다. 상품 상세 페이지에서 렌즈 버튼을 누르면 현재 보고 있는 상품과 비슷한 상품을 추천해주고, 검색창 우측 렌즈 아이콘을 클릭해 스마트폰으로 사진을 입력하면 상품의 외관, 속성, 색상 등을 토대로 유사 상품을 추천해준다. 멀티모달 AI는 상품 사진 정보와 함께 이름, 브랜드, 세부 특징 등 문자 정보까지 함께 학습한 모델을 뜻한다. 이번 업데이트로 쓱렌즈에 멀티모달 A' 베타 버전이 추가돼 이미지와 텍스트가 결합된 복합 정보를 처리할 수 있게 됐다. 기존 쓱렌즈에서는 이미지 정보만을 활용해 비슷한 상품을 찾는 검색이 가능했지만, 멀티모달 AI가 적용된 쓱렌즈에서는 '검색어 추가' 기능을 더해 이미지 검색 결과에 텍스트를 추가로 입력할 수 있다. 이를 통해 고객이 원하는 맞춤 검색 결과를 제공하고자 서비스를 업그레이드했다. 예를 들어, 특정 의류 이미지를 검색한 후 텍스트로 색상(베이지), 디자인(플라워 패턴) 등 상품 속성과 관련된 추가 검색어를 입력해 찾고자 하는 상품을 좁혀가는 방식이다. 현재 쓱렌즈는 상품 탐색 시간이 많이 필요한 패션, 잡화, 가구, 인테리어 관련 카테고리를 중심으로 서비스를 제공하고 있다. 기존 AI 모델 고도화로 이미지 검색 및 분류 능력이 이전 대비 크게 향상됐으며, 유사 상품 추천으로 비슷한 상품을 빠르게 비교할 수 있어 쇼핑 시간 단축도 가능하다. 이미지에 기반한 스타일 및 브랜드 상품도 함께 추천한다. 고객 쇼핑 편의성을 위한 UI/UX 개선에도 공을 들였다. 이미지 내 찾고 싶은 상품이 있을 경우 검색 대상을 바로 선택할 수 있는 실시간 이미지 편집 기능을 추가하고 디자인도 간결하게 변경했다. 장원주 SSG닷컴 데이터담당은 "23년 초부터 자체 개발해 AI 학습용으로 활용하던 멀티모달 AI를 고객 서비스에 적용한 첫 사례가 쓱렌즈"라며 "향후 상품 상세 페이지, 검색 결과 등으로 '멀티모달 AI' 활용 영역을 넓혀 검색 및 추천 등에 활용할 계획"이라고 말했다.

2024.06.26 16:43백봉삼

MS, 멀티모달 AI '플로렌스-2' 출시...음성·비전 통합 처리

마이크로소프트가 객체감지, 이미지 분석 등 다양한 비전 작업을 한 번에 처리할 수 있는 새로운 비전기반 인공지능(AI)모델을 공개했다. 20일(현지시간) 벤처비트 등 외신에 따르면 마이크로소프트의 애저AI 팀이 새로운 비전 기반 모델 '플로렌스-2'를 허깅페이스를 통해 출시했다고 밝혔다. 플로렌스-2는 시각과 언어를 융합하는 새로운 방식의 기술이 적용된 AI 모델이다. 이를 통해 이미지 캡션 생성, 객체 감지, 이미지 분석 등 다양한 이미지 관련 작업을 통합 수행할 수 있으며 성능도 향상됐다. 이 AI모델은 이미지나 사진 속 내용을 설명하는 문장을 그대로 생성할 수 있으며, 이미지 속에서 특정 객체를 찾아내고, 그 위치를 특정할 수 있다. 예를 들어, 이미지 속에 자동차와 사람, 나무 등이 있다면 각 객체의 위치를 정확하게 파악하는 것이 가능하다. 또한, 이미지와 관련된 질문을 받을 경우 적합한 답변을 제공하는 시각적 질문 응답 (VQA) 기능도 지원한다. 만약 책을 읽고 있는 사람의 사진을 입력한 후 행동을 묻는다면 "책을 읽고 있다"라는 답변을 얻을 수 있다. 이를 활용해 대량의 이미지 콘텐츠에 자동으로 설명을 추가하거나, 전자상거래 플랫폼에서 제품 이미지를 분석하고, 그 특성을 기반으로 한 자세한 설명을 생성할 수 있다. 또한 공공 장소에서 의심스러운 행동을 자동으로 감지하는 등 보안 목적으로 활용하거나, 로봇에 적용해 인간과 자연스럽게 상호작용할 수 있도록 행동을 지원할 수도 있다. 마이크로소프트 측은 플로렌스-2는 복잡한 이미지 관련 작업을 하나의 통합된 시스템 내에서 처리할 수 있도록 설계되어, 이러한 효율적이고 지능적인 이미지 분석이 가능하다고 밝혔다. 성능면에서도 상당부분 개선됐다. 제로샷 성능의 경우 이미지 캡션 생성 모델의 성능을 평가하기 위한 지표인 CIDEr에서 135.6점을 기록하며, 84.3점을 기록한 딥마인드의 플라밍고와 비교해 상당한 차이를 벌렸다. 파인튜닝 성능 역시 대규모 데이터셋 RefCOCO 기반 벤치마크에서 동일 범주 내 다른 경쟁 모델들을 상회하는 성능을 기록했다. 마이크로소프트 측은 언어와 비전이라는 서로 다른 양식(모달리티)을 융합하는 과정에서 몇 가지 어려움이 있었다고 밝혔다. 두 모달리티 간의 복잡한 상호 작용을 처리하기 위해 기존 다양하고 광범위한 데이터를 보유한 데이터셋이 요구됐다. 이에 FLD-5B라는 대규모 데이터셋을 새롭게 구축했다. 이 데이터셋은 5.4억 개의 시각적 주석을 포함하고 있으며, 다양한 시각적 상황과 세부적인 언어적 설명을 결합한 1억2천600만 이미지로 구성되어 있다. 이를 통해 보다 풍부하고 다양한 시나리오에서 비전과 언어의 상호 작용을 학습하는 것이 가능했다. 더불어 비전 데이터와 언어 데이터를 통합하는 과정에서 그 관계와 상황을 이해하기 위해 고도의 언어 이해 능력과 시각적 맥락 분석 기술이 필요했다. 이를 위해 마이크로소프트는 텍스트 프롬프트를 작업 지시로 사용하는 시퀀스-투-시퀀스 아키텍처를 적용했다. 이 구조는 이미지 인코더와 다중 모달리티 인코더-디코더를 통해 비전 토큰과 텍스트 토큰을 통합하여 처리한다. 해당 기술을 적용하면서 플로렌스-2는 이미지 내 객체들의 관계를 비롯해 이미지 속 상황에 대한 세밀한 설명을 생성하는 것이 가능해졌다. 더불어 마이크로소프트는 대규모 이미지와 텍스트 데이터를 처리하는 과정에서 발생하는 막대한 계산비용을 줄이기 위해 최적화된 학습 전략과 하드웨어 효율화 기술을 적용했다. 마이크로소프트 연구팀은 “오늘날 AI 기술 발전에 있어 중요한 것은 다양한 모달리티 간의 경계를 허무는 것”이라며 “플로렌스-2는 이미지와 텍스트 간의 상호 작용을 이해하고 이를 기반으로 새로운 정보를 생성하는 능력을 보유하고 있다”고 설명했다. 이어서 “마이크로소프트는 플로렌스-2를 기반으로 더욱 발전된 모델을 개발해 다양한 AI 응용 분야에 기여할 계획”이라며 “플로렌스-2의 공개는 연구자들과 개발자들에게 새로운 가능성을 제공하며 전 세계적으로 AI 기술의 발전을 지원할 것”이라고 강조했다.

2024.06.21 10:36남혁우

KAIST, 멀티모달 대형언어모델 '깃허브' 공개…GPT-4V 시각성능 "제꼈다"

국내 연구진이 오픈AI의 GPT-4V와 구글 제미나이-프로(Gemini-Pro)의 시각 성능을 능가하는 멀티모달 대형언어모델을 개발, 오픈소스 커뮤니티 깃허브(Github)에 공개했다. 최근 주목받는 생성형 AI 트랜드가 멀티모달화로 진화 중이어서 귀추가 주목됐다. KAIST는 전기및전자공학부 노용만 교수 연구팀이 GPT-4V 등 비공개 상업 모델의 시각 성능을 넘어서는 공개형 멀티모달 대형언어모델을 선보였다고 20일 밝혔다. 연구팀은 멀티모달 대형언어모델 시각 성능을 개선하기 위해 '콜라보(CoLLaVO)'와 '모아이(MoAI)' 2가지 기술을 자체 개발했다. 이병관 연구원(박사과정,제1저자)은 "GPT-4V나 제미나이-프로 등과 시각성능 만을 비교하면 점수나 정확도 면에서 최대 10% 더 우수하다"고 말했다. 인지추론성도 함께 따져봐야 하지만, 이는 이번 연구 주제에서 벗어나 나중에 생각할 부분이라는 것이 이 연구원 얘기다. 사실 인지추론성도 개별 검토한 결과 오픈AI나 구글 모델 대비 결코 뒤지진 않는다는 것이 이 연구원의 귀뜸이다. 연구팀은 '콜라보'를 개발하기 전 기존 공개형 멀티모달 대형언어모델 성능이 비공개형에 비해 떨어지는 이유를 1차적으로 물체 수준에 대한 이미지 이해 능력 저하에서 찾았다. 연구팀은 이를 개선하기 위해 이미지 내 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 직접 넣어주는 '크레용 프롬프트(Crayon Prompt)'라는 시각적 프롬프트를 새로 설계했다. 또 시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습시키는 획기적인 학습전략인 '듀얼 큐로라(Dual QLoRA)'를 제안했다. 이병관 연구원은 "이로 인해 이미지 내에서 배경 및 물체를 1차원적으로 구분하는 능력이 크게 향상됐다"고 덧붙였다. 대형언어모델인 모아이(MoAI)'도 개발했다. 인간이 사물을 판단하는 인지과학적 요소(물체 존재나 상태, 상호작용, 배경, 텍스트 등)에서 영감을 얻었다는 것이 연구팀 설명이다. 연구팀은 "기존 멀티모달 대형언어모델은 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용하기 때문에, 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면에 대한 이해가 모자란다고 판단했다"고 말했다. 연구팀은 △전체적 분할 △한계가 없는 물체 검출기 △상황 그래프 생성 △글자 인식 등 4가지 컴퓨터 비전 모델을 언어로 변환한 뒤 멀티모달 대형언어모델에 입력했다. 이를 연구팀이 실제 검증한 결과 '콜라보'는 Math Vista(대학수준 수학 및 물리문제)나 MM-벤치(영어 객관식 문제), MMB-CN(중국어 객관식 문제), AI2D(어학문제) 등의 풀이에서 기존 모델 대비 최대 10%까지 점수와 정확도가 우수했다. 또 '모아이'는 기존 공개형 및 비공개형 LLVMs(멀티모달 대형언어)와 비교한 결과 각 질문에 따라 점수가 20포인트 이상 우수하게 답변한 경우도 나타났다. 이병관 연구원은 "3개월전 깃허브에 올려놓은 '콜라보'(https://github.com/ByungKwanLee/CoLLaVO)와 '모아이'(https://github.com/ByungKwanLee/MoAI)에 관심을 가져달라"며 "박사학위가 마무리되면 멀티모달 대형언어를 아이템으로 창업할 생각도 있다"고 말했다. 박사과정 5년차인 이 연구원은 또 "개인적으로 향후 기회가 닿는다면, 핸드폰에 들어가는 사이즈로 현재 성능을 유지하는 멀티모달 대형언어모델을 만들어 볼 것"이라고 덧붙였다. 노용만 교수는 “연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문(Huggingface Daily Papers)에 추천됐다"며 "SNS 등을 통해 전세계에 점차 알려지는 등 관련분야 발전에 기여할 것"으로 기대했다. 연구에는 논문 제1저자 이병관 박사과정 연구원 외에도 박범찬 석박사통합과정, 김채원 박사과정이 공동 저자로 참여했다. 연구결과는 '콜라보'의 경우 자연어 처리(NLP) 분야 국제 학회 'ACL Findings 2024'(5월16일자)에 게재됐다. '모아이(MoAI)'는 컴퓨터 비전 국제 학회인 'ECCV 2024'에 논문을 제출하고 결과를 기다리고 있다. 한편 이 연구는 KAIST 미래국방 인공지능 특화연구센터 및 전기및전자공학부 지원을 받아 수행했다.

2024.06.20 14:26박희범

  Prev 1 2 3 Next  

지금 뜨는 기사

이시각 헤드라인

한미 관세 팩트시트 확정…기업들 "불확실성 걷혔다"

웹툰엔터vs픽코마, 3분기 성적·확장 전략 비교해보니

벤츠, 韓에 직판제·亞구매 허브 구축…"세계 최고 고객 경험 선사"

해킹 인질된 핀테크社 "몸값 줄 돈, 보안 연구 기부하겠다"

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.