• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
창간특집
인공지능
배터리
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'추론 모델'통합검색 결과 입니다. (8건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

앤트로픽, '클로드 3.7 소네트' 공개…하이브리드 AI 시대 연다

앤트로픽이 실시간 응답과 심층적인 추론을 하나로 통합한 인공지능(AI)을 출시해 거대언어모델(LLM)의 새로운 기준을 제시했다. 보다 직관적인 방식으로 인간과 상호작용하도록 함으로써 갈수록 치열해지는 AI 경쟁에서 우위를 점하려는 전략이다. 25일 테크크런치에 따르면 앤트로픽은 거대언어모델(LLM)과 추론 모델을 결합한 '하이브리드 AI'인 '클로드 3.7 소네트'를 공식 발표했다. 이 모델을 통해 사용자는 기존의 LLM을 활용했을 때처럼 즉각적인 응답을 받을 수도 있고 AI가 보다 깊이 사고하도록 추론을 하게 명령할 수도 있다. 앤트로픽은 '클로드 3.7 소네트'의 추론 기능을 유료 사용자에게만 제공한다고 밝혔다. 무료 사용자에게는 일반적인 답변 기능만 제공되나 전체적인 성능은 기존 모델인 '클로드 3.5 소네트'보다 개선됐다. 가격은 100만 개 입력 토큰당 3달러(한화 약 4천200원), 100만 개 출력 토큰당 15달러(한화 약 2만1천원)다. 오픈AI의 'o3-미니'나 딥시크의 'R1'보다 높은 수준이지만 '하이브리드 모델'이 업계에서 처음으로 도입된 점을 감안하면 향후 가격이 인하될 것으로 예측된다. '클로드 3.7 소네트'는 실전 활용성에도 초점을 맞췄다. 어려운 코딩 문제 해결과 에이전트 기반 작업에서 강력한 성능을 발휘하며 개발자가 추론 시간을 조절할 수 있는 기능도 포함됐다. 이 모델은 '소프트웨어 엔지니어링(Bench SWE)' 벤치마크 테스트에서 62.3% 정확도를 기록해 오픈AI의 'o3-미니'보다 높은 성능을 보였다. 또 AI의 애플리케이션 프로그램 인터페이스(API) 상호작용 능력을 측정하는 'TAU-벤치'에서도 오픈AI의 'o1'을 앞서는 성적을 거뒀다. AI 업계의 반응은 뜨겁다. 소셜미디어에서는 지금까지 출시된 AI 중 최고라는 업계 관계자들의 평가가 잇따르고 있다. 특히 개발자들은 클로드 3.7 소네트가 복잡한 코드베이스를 다루는 능력이 뛰어나다며 극찬하고 있다. 유명 AI 팟캐스터 렉스 프리드먼은 자신의 X 계정에서 "'클로드 3.7 소네트'는 프로그래밍에 가장 적합한 모델"이라며 "AI 경쟁이 정말 치열해지고 있어 살아 있는 것이 신나는 시대"라고 언급했다. '클로드 3.7 소네트'의 등장은 AI 산업의 새로운 흐름을 시사한다. 오픈AI 역시 최근 'GPT-5'를 마지막으로 추론모델인 'o' 시리즈를 폐기하고 기존 GPT 모델에 통합하는 방향을 예고했다. AI 업계가 '하이브리드 모델' 중심으로 재편될 가능성이 높아지고 있는 것이다. 테크크런치는 "앤트로픽의 모델 출시는 AI 연구소들이 신모델을 빠르게 내놓는 치열한 경쟁 속에서 이뤄진 결정"이라며 "오픈AI 등의 경쟁자들도 자체 하이브리드 모델을 내놓으려고 하는 상황에서 회사가 AI 경쟁에서 얼마나 오래 선두를 유지할 수 있을지는 지켜봐야 할 것"이라고 분석했다.

2025.02.25 09:42조이환

"앤트로픽, 클로드 새 모델 공개 임박?"…출시설에 AI 업계 촉각

앤트로픽이 추론과 신속 응답을 결합한 '하이브리드' 인공지능(AI) 모델을 개발하고 있는 것으로 보인다. 최근 AI 업계에서는 주요 기업들이 잇따라 신형 모델을 출시하며 기술 경쟁이 격화되고 있어 앤트로픽의 행보에도 관심이 집중되고 있다. 14일에 디인포메이션에 따르면 앤트로픽은 향후 몇 주 안에 차세대 AI 모델을 출시할 계획을 가지고 있는 것으로 알려졌다. 이번 모델이 도입할 가능성이 높은 핵심 기술 중 하나는 '슬라이딩 스케일' 기능이다. 이 기능을 활용하면 AI의 연산 모드를 조절해 성능을 최적화할 수 있다. 앤트로픽 내부 직원들은 신형 AI 모델이 일부 프로그래밍 작업에서 오픈AI의 'o3-미니-하이' 모델을 능가하는 성능을 보였다고 전했다. 이에 따라 이 모델은 대규모 코드베이스 분석 및 비즈니스 활용에서도 강점을 가질 것으로 예상된다. 앤트로픽의 이번 행보는 AI 업계의 치열한 경쟁 구도 속에서 나온 결정으로 보인다. xAI의 최고경영책임자(CEO)인 일론 머스크 역시 지난 13일 두바이에서 열린 행사에서 "우리 AI 모델 '그록 3'가 최종 개발 단계에 있다"며 "향후 1~2주 내 출시될 것"이라고 밝힌 바 있다. 다만 이번 보도는 내부 정보망을 기반으로 한 것으로, 출시 여부와 정확한 일정은 공식적으로 확인되지 않았다. 업계에서는 앤트로픽의 신형 AI 모델이 오픈AI, 구글, xAI를 비롯한 경쟁사들과의 기술 격차를 줄이는 계기가 될지 주목하고 있다. 다리오 아모데이 앤트로픽 대표는 최근 테크크런치와의 인터뷰에서 "우리는 자체적으로 더 차별화된 추론 모델을 만드는 데 집중하고 있다"며 "일반 모델과 추론 모델을 구분하는 기존 개념이 다소 이해하기 어렵다"고 밝혔다.

2025.02.14 10:04조이환

구글, 추론 전용 AI 공개…오픈AI 'o1' 시리즈와 경쟁

구글이 오픈AI 추론 모델과 경쟁할 새로운 인공지능(AI) 모델을 공개했다. 구글은 20일 공식 블로그를 통해 추론 전용 AI 모델 '제미나이 2.0 플래시 사고 실험(Gemini 2.0 Flash Thinking Experimental)'을 선보였다. 이 모델은 응답 속도와 출력 품질의 균형을 중시한 '제미나이 2.0 플래시(Gemini 2.0 Flash)'를 기반으로 추론 능력을 강화한 것이 특징이다. 이를 위해 프로그래밍, 물리학, 수학 등 다양한 분야에서 복잡한 문제를 해결할 수 있도록 '생각의 사슬(COT)' 추론 방식을 사용한다. 이 기술은 복잡한 작업을 간단한 하위 단계로 나눠 AI의 출력 품질을 높이는 방법으로, 2022년 구글 연구원들이 논문을 통해 소개한 바 있다. 구글의 제프 딘 수석 AI 과학자는 해당 모델이 문제를 추론하는 과정을 담은 데모 영상을 소셜 플랫폼 엑스(X)를 통해 공개했다. 당구공 4개에 쓰여진 숫자를 이용해 특정 값을 만들라는 논리 퍼즐을 받은 이 모델은 여러 접근 방식을 시도한 끝에 사진을 뒤집어야 한다는 결론에 도달하며 해답을 도출하는 데 성공했다. 이번 AI에 적용된 COT 방식은 오픈AI의 'o1' 시리즈에도 적용된 것으로 알려져 있다. 특히 'o1-프리뷰'는 미국 수학 올림피아드 예선에서 높은 성과를 달성한 바 있다. 구글은 제미나이 LLM 시리즈에 접근할 수 있는 서비스인 AI 스튜디오(AI Studio)를 통해 이 모델을 제공할 계획이다. 구글 수석 과학자인 제프 딘은 "해당 AI는 2.0 플래시의 속도와 성능을 기반으로, 생각을 활용한 추론을 강화하도록 훈련된 모델"이라며 "추론 시간이 늘어날수록 유망한 결과를 얻을 수 있다"고 언급했다.

2024.12.20 09:35남혁우

"오픈AI 능가하나"…中 딥시크, 'R1' 추론 모델 공개

중국의 오픈소스 스타트업 딥시크가 출시한 추론 인공지능(AI)이 오픈AI 최신 모델을 뛰어넘는 성능을 보였다. 20일 벤처비트에 따르면 딥씨크는 추론 기반 거대언어모델(LLM)인 'R1-라이트-프리뷰'를 자사의 웹 기반 AI 플랫폼 '딥시크 채팅'을 통해 공개했다. 이 모델은 논리적 추론과 수학적 문제 해결에 특화돼 오픈AI가 지난 9월 출시한 'o1-프리뷰'와 유사한 것으로 알려졌다. 딥시크 'R1-라이트-프리뷰'는 사용자의 질문에 응답하기 위해 사고 과정을 실시간으로 보여주는 '생각의 연쇄(CoT)' 방식을 채택했다. 사용자는 AI가 내리는 결론의 근거와 논리를 단계적으로 이해할 수 있어 기존의 결과 중심적인 AI 모델과 차별화된다. 딥시크는 이 모델이 미국 '수학 초청 시험(AIME)'이나 '인간 수학 적성 평가 시험(MATH)'과 같은 주요 벤치마크에서 오픈AI 'o1-프리뷰'를 능가하는 결과를 기록했다고 밝혔다. 특히 수학적 계산과 복잡한 논리를 요하는 문제에서 높은 정확도를 나타냈으며 AI 모델의 사고 깊이를 늘릴수록 성능이 크게 향상된다고 설명했다. 'R1'에는 고급 기능인 '딥 씽크 모드가 추가 돼 복잡한 문제를 처리하며 더 정밀한 결과를 도출할 수 있다. 다만 이 모드는 오픈AI 'o1'과 같이 하루 50개의 메시지만을 사용하도록 제한돼 사용자는 모델의 성능을 데모 형태로 체험할 수 있다. 회사는 이번 모델이 수학, 코딩 등의 응용 분야를 우선으로 기타 다양한 분야에서 활용 가능성이 크다고 밝혔다. 다만 독립적인 검증을 위한 코드와 세부 기술적 자료는 아직 공개되지 않아 외부 검증은 제한되는 상태다. 딥시크는 앞으로 'R1' 시리즈 모델과 애플리케이션 프로그램 인터페이스(API)를 오픈소스 형태로 공개할 계획이다. 이는 AI 접근성을 강화하고 개발자와 연구자들에게 새로운 도구를 제공하기 위한 회사의 장기적인 비전의 일환이다. 이전 모델인 'V2.5'도 언어 처리와 코딩 작업에서 높은 성능을 기록하며 오픈소스 AI의 선두주자로 자리 잡은 바 있다. 벤처비트는 "딥시크는 투명성과 성능을 모두 갖춘 AI 모델로 오픈소스 생태계의 새로운 기준을 세워 왔다"며 "이는 연구와 개발을 혁신적으로 변화시킬 가능성을 보여준다"고 분석했다.

2024.11.21 09:46조이환

"추론하는 법 배웠다"…오픈AI 'o1' 출시에 국내 업계 반응은?

오픈AI가 데이터 기반으로 답하는 것을 넘어 실제 추론까지 하는 생성형 인공지능(AI) 모델을 공개한 가운데, 생각의 사슬(CoT) 기법을 통한 추론 기술 고도화가 AI 업계에 필수 역량으로 자리할 것이라는 주장이 나왔다. 13일 오픈AI는 AI 추론 능력을 대폭 강화한 새로운 모델 'o1' 프리뷰 버전과 미니 버전을 블로그를 통해 공개했다. o1은 과거 오픈AI 내부에서 '스트로베리'라는 암호명으로 불렸던 모델이기도 하다. 이전 모델보다 더 복잡한 문제를 처리할 수 있으며 수학과 코딩 등 기술적 문제 해결에 강점을 보인다. 국제 수학 올림피아드 예선에서 'GPT-4o'는 13%의 문제를 해결했으나 'o1'은 83%의 문제를 정확히 풀어냈다. 현재 챗GPT 플로스 고객과 챗GPT 팀즈 고객만 o1을 이용할 수 있다. 이 모델은 챗GPT 기업 고객 대상으로는 제공되지 않는다. 질문 가능 횟수는 사용자당 일주일에 30회까지다. "생각의 사슬 필수요소...강화학습 뜬다" 전문가들은 AI 업계가 CoT를 필수 패러다임으로 갖출 것이라고 입을 모았다. 해당 과정에 포함된 강화학습(RL)방법이 재주목받을 것이라는 의견도 나왔다. 업스테이지 박찬준 수석연구원은 "앞으로 CoT를 다양하게 구성하고 이를 학습 과정에 잘 녹여내는 패러다임이 필수일 것"이라며 "이로 인해 강화학습이 다시 떠오를 것"고 강조했다. CoT는 생성형 AI가 복잡한 문제를 세분화해 오류를 수정하고 실수를 인정하며 해답 찾는 과정을 뜻한다. 복잡한 문제를 낱개로 잘라 하나씩 답을 푸는 형태다. 이를 통해 복잡한 문제도 차근차근 해결한다. 이는 마치 사람이 어려운 질문에 답하기 위해 오랫동안 생각하는 것처럼 생각의 꼬리를 무는 형식이다. 챗GPT-4o 등 기존 챗봇보다 답변 시간이 오래 걸리지만 더욱 자세하고 정확한 답변을 얻을 수 있는 이유다. CoT 기법에 RL방법론이 적용된 것으로 알려졌다. AI가 복잡한 문제를 세분화해 하나하나 차근차근 풀면서 최종 정답과 가장 가까운 방향으로 간다는 이유에서다. RL방법은 CoT을 통해 AI에 생산적으로 사고하는 방법을 모델에 가르치는 셈이다. 오픈AI는 RL을 통해 o1 성능이 지속적으로 향상되는 것을 발견했다고 설명했다. 오픈AI 미라 무라티 최고기술책임자(CTO)는 "o1의 추론 과정을 개선하기 위해 RL을 선택했다"며 "모델이 정답을 맞히면 긍정적인 피드백을, 틀릴 경우 부정적인 피드백을 주는 식으로 기능을 개선했다"고 설명했다. 김동환 포티투마루 대표는 "o1이 CoT 기법을 활용한 복합 추론 기술의 고도화를 통해 수학을 비롯한 과학, 생명공학 분야에서의 난제 해결에 기여할 것"이라고 밝혔다. 국내서 LLM을 개발하는 한 업계 관계자도 "생성형 AI가 CoT와 RL로 사람처럼 생각하는 법을 학습했다"며 "기존 데이터 기반으로 답변을 찾아내는 것에서 실제 추론 단계로 넘어갔는지에 대한 평가가 이어질 것"이라고 내다봤다. "B2B·B2C 사업 전략 뚜렷...상용화에 GPU 확보 관건" 업계 관계자들은 기업용 o1 정식 버전 가격이 상당할 것이라고 내다봤다. 이에 오픈AI B2C와 B2B 비즈니스에 대한 경계가 뚜렷해지면서 수익화에 다양성을 줄 것이라고 분석했다. 국내서 LLM 사업하는 한 관계자는 "앞으로 오픈AI 고객은 기존 비용으로 챗GPT-4o까지 사용하는 부류와 높은 비용으로 좋은 결과물을 얻고자 하는 부류로 나뉠 것"이라고 언급했다. 이어 "오픈AI 서비스가 다양화돼서 B2B·B2C 비즈니스 전략에 차별화가 생길 것"이라고 밝혔다. 최근 외신은 오픈AI가 o1 모델을 기업용으로 출시할 경우 가격을 매월 2천 달러(약 266만원)로 책정할 것이란 소식을 내부 관계자 말을 인용해 보도한 바 있다. 오픈AI가 모델 상용화를 위해 중앙처리장치(GPU) 확보에 혈안일 것이라는 분석도 나왔다. 박찬준 수석연구원은 "고도화된 추론으로 GPU 추가 확보가 불가피할 것"이라며 "샘 알트먼 오픈AI 최고경영자(CEO)가 GPU를 더 확보하려는 이유가 o1 상용화에 있을 것으로 본다"고 예측했다.

2024.09.13 14:39김미정

[써보고서] "정말 미쳤다"…오픈AI 新모델 'o1' 추론 능력에 '감탄'

"다른 인공지능(AI)에게 물어봐도 한 번도 맞힌 적 없는 문제들을 한글로 한 번에 해결하네. 이 모델은 정말 미쳤다." 13일 공개된 오픈AI의 인공지능(AI) 모델 'o1'에 대해 국내 관련 커뮤니티에서는 찬사가 이어졌다. 사용자들이 모델 성능을 비교하기 위해 넣었던 난해한 논리학 문제와 수학 문제들을 직접 생각하고 모두 해결했기 때문이다. 론칭 당일 새벽부터 모니터링하던 기자도 직접 다양한 테스트를 진행해 봤다. 추론과 수학 논리에 특화된 AI…뛰어난 문제 해결 능력 '눈길' 우선 간단한 실험으로 단어 내 특정 알파벳 개수를 세는 테스트를 진행했다. 기존의 거대언어모델(LLM) 대다수는 숫자 세기에 약점을 보였지만 'o1'은 'strawberry'에 포함된 'r'의 개수를 묻자 2초 만에 정확히 3개라고 대답했다. 논리학 문제에서도 뛰어난 성능을 보였다. 멘사 등에서 사용하는 '아이의 나이 맞추기' 문제를 제시하자 'o1'은 정확한 답을 도출했다. 문제는 러시아 수학자 이반과 이고르의 대화로, 아들들의 나이의 곱이 36이고 합이 오늘 날짜라는 힌트를 기반으로 아들들의 나이를 추론하는 것이었다. 기존 GPT-4 모델은 오답을 제시했지만 'o1'은 아들들의 나이가 1, 6, 6이며 오늘 날짜가 13일임을 정확히 맞혔다. 또 복잡한 추리 문제가 포함된 도난 사건에서도 'o1'은 정확한 범인을 지목했다. 여러 용의자의 진술과 거짓말이 섞인 상황에서 '찰리'와 '존무드'가 범인임을 밝혀내며 논리적 추론 능력을 입증했다. 일상에서 사용하지 않는 논리학 문제 대신 복잡한 문장의 해석 능력도 확인해 봤다. 한때 국내에서 밈이 됐던 "나 아는 사람 강다니엘 닮은 이모가 다시 보게 되는 게 다시 그때처럼 안 닮게 엄마 보면 느껴지는 걸 수도 있는 거임? 엄마도?"라는 난해한 비문을 제시하자 'o1'은 그럴듯한 해석을 내놓았다. 'o1'은 화자의 말을 "강다니엘을 닮은 이모를 다시 보았을 때 예전만큼 닮았다고 느끼지 못했다"며 "이런 느낌이 어머니를 본 후에 생긴 것일 수 있는데, 어머니도 같은 생각을 하시는지 궁금하다"는 뜻으로 해석했다. 이처럼 'o1'은 복잡한 문장의 의미를 자연스럽게 이해하고 해석하는 능력을 보여줬다. 막대한 토큰 사용 추정…응답 시간과 사용 횟수 제한은 아쉬워 일부 아쉬운 부분도 있었다. 간단한 질문에도 응답 시간이 10초 이상 소요되는 경우가 있어 실시간 활용에 제약이 있었다. 국내 커뮤니티 유저 한 유저는 '고맙다'는 답을 듣기 위해 10초가 소요됐다는 비판을 제기한 바 있다. 또 일주일에 30회로 제한된 사용 횟수는 실제 업무나 연구에 활용하기에는 부족한 면이 있었다. 실제로 기자가 15번 이상 'o1'을 사용하자마자 경고창이 떴다. "미리 보기의 응답이 15개 남았습니다. 한도에 도달하면 2024년 9월 20일로 재설정될 때까지 응답이 다른 모델로 전환됩니다." 마지막으로 일반 사용자들이 수학이나 복잡한 논리 문제를 자주 접하지 않는다는 점에서 이러한 고급 기능이 얼마나 대중적으로 활용될지는 지켜봐야 할 부분이다. 단 프로그래머나 수학 연구자 등 전문 분야에서는 큰 도움이 될 것으로 예상된다. 'o1' 출시로 AI의 추론 능력이 한 단계 도약한 것은 분명하다. 향후 응답 속도 개선과 사용 제한 완화가 이루어진다면 다양한 분야에서 혁신적인 활용이 기대된다. 특히 수학적 계산과 논리적 추론이 필요한 분야에서 큰 변화를 가져올 것으로 보인다. 샘 알트만 오픈AI 대표는 'o1'의 출시에 대해 "새로운 패러다임의 시작"이라며 "AI는 이제 다양한 목적으로 복잡한 사고를 할 수 있게 됐다"고 평가했다.

2024.09.13 11:01조이환

오픈AI, 더 똑똑한 AI 모델 내놓나…비밀리에 '스트로베리' 개발

오픈AI가 인공지능(AI) 모델 추론능력 향상을 위해 비공개 연구를 진행 중인 것으로 전해졌다. 성공 시 AI는 인터넷을 자율적으로 탐색하고 작업을 순차적으로 계획·수행 할 수 있게 된다. 15일 로이터에 따르면 오픈AI는 코드명 '스트로베리(Strawberry)'라는 모델을 개발 중인 것으로 알려졌다. 이 모델의 목표는 AI가 심층연구(Deep Research)를 수행하도록 하는 것이다. 심층연구란 AI가 자율적으로 인터넷을 탐색하고 문제를 해결하며 단계에 따라 계획을 수립·실행하는 능력이다. 스트로베리는 질의에 대한 답변만 생성하는 기존 AI모델과 달리 고도의 심층연구 능력을 달성하는 것을 목표로 한다. '챗GPT' 등 생성형 AI 서비스는 이미 인간보다 빠르게 텍스트를 요약하고 산문을 작성할 수 있다. 그러나 인간이 직관적으로 이해하는 상식적 문제나 논리적 오류를 해결하지는 못한다. 대신 거짓 정보를 내뱉는 '환각(Hallucination)' 문제가 발생한다. 로이터는 스트로베리가 성공적으로 개발된다면 현재 AI가 직면한 추론 능력 문제를 해결할 수 있을 것으로 분석했다. 전문가들은 향후 AI가 애플리케이션 개발과 과학적 발견에 중요한 역할을 하게 될 것으로 기대하고 있다. 로이터 소식통은 "스트로베리 개발은 진행 중인 사안"이라며 "모델의 작동원리는 오픈AI 내부에서도 철저한 기밀"이라고 말했다. 스트로베리는 지난해 '큐스타(Q*)'로 알려져 있었다. 이 모델은 기존 AI가 해결하지 못하던 과학 및 수학 문제에 대해 답을 하는 등 발전된 추론능력을 보였다. 오픈AI 관계자는 스트로베리에 대한 직접적인 언급을 피하며 "우리는 AI 모델이 인간처럼 세상을 보고 이해하기를 바란다"며 "AI 기능에 대한 지속적인 연구는 업계에서 일반적인 관행"이라고 밝혔다.

2024.07.15 14:19조이환

KAIST, 멀티모달 대형언어모델 '깃허브' 공개…GPT-4V 시각성능 "제꼈다"

국내 연구진이 오픈AI의 GPT-4V와 구글 제미나이-프로(Gemini-Pro)의 시각 성능을 능가하는 멀티모달 대형언어모델을 개발, 오픈소스 커뮤니티 깃허브(Github)에 공개했다. 최근 주목받는 생성형 AI 트랜드가 멀티모달화로 진화 중이어서 귀추가 주목됐다. KAIST는 전기및전자공학부 노용만 교수 연구팀이 GPT-4V 등 비공개 상업 모델의 시각 성능을 넘어서는 공개형 멀티모달 대형언어모델을 선보였다고 20일 밝혔다. 연구팀은 멀티모달 대형언어모델 시각 성능을 개선하기 위해 '콜라보(CoLLaVO)'와 '모아이(MoAI)' 2가지 기술을 자체 개발했다. 이병관 연구원(박사과정,제1저자)은 "GPT-4V나 제미나이-프로 등과 시각성능 만을 비교하면 점수나 정확도 면에서 최대 10% 더 우수하다"고 말했다. 인지추론성도 함께 따져봐야 하지만, 이는 이번 연구 주제에서 벗어나 나중에 생각할 부분이라는 것이 이 연구원 얘기다. 사실 인지추론성도 개별 검토한 결과 오픈AI나 구글 모델 대비 결코 뒤지진 않는다는 것이 이 연구원의 귀뜸이다. 연구팀은 '콜라보'를 개발하기 전 기존 공개형 멀티모달 대형언어모델 성능이 비공개형에 비해 떨어지는 이유를 1차적으로 물체 수준에 대한 이미지 이해 능력 저하에서 찾았다. 연구팀은 이를 개선하기 위해 이미지 내 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 직접 넣어주는 '크레용 프롬프트(Crayon Prompt)'라는 시각적 프롬프트를 새로 설계했다. 또 시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습시키는 획기적인 학습전략인 '듀얼 큐로라(Dual QLoRA)'를 제안했다. 이병관 연구원은 "이로 인해 이미지 내에서 배경 및 물체를 1차원적으로 구분하는 능력이 크게 향상됐다"고 덧붙였다. 대형언어모델인 모아이(MoAI)'도 개발했다. 인간이 사물을 판단하는 인지과학적 요소(물체 존재나 상태, 상호작용, 배경, 텍스트 등)에서 영감을 얻었다는 것이 연구팀 설명이다. 연구팀은 "기존 멀티모달 대형언어모델은 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용하기 때문에, 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면에 대한 이해가 모자란다고 판단했다"고 말했다. 연구팀은 △전체적 분할 △한계가 없는 물체 검출기 △상황 그래프 생성 △글자 인식 등 4가지 컴퓨터 비전 모델을 언어로 변환한 뒤 멀티모달 대형언어모델에 입력했다. 이를 연구팀이 실제 검증한 결과 '콜라보'는 Math Vista(대학수준 수학 및 물리문제)나 MM-벤치(영어 객관식 문제), MMB-CN(중국어 객관식 문제), AI2D(어학문제) 등의 풀이에서 기존 모델 대비 최대 10%까지 점수와 정확도가 우수했다. 또 '모아이'는 기존 공개형 및 비공개형 LLVMs(멀티모달 대형언어)와 비교한 결과 각 질문에 따라 점수가 20포인트 이상 우수하게 답변한 경우도 나타났다. 이병관 연구원은 "3개월전 깃허브에 올려놓은 '콜라보'(https://github.com/ByungKwanLee/CoLLaVO)와 '모아이'(https://github.com/ByungKwanLee/MoAI)에 관심을 가져달라"며 "박사학위가 마무리되면 멀티모달 대형언어를 아이템으로 창업할 생각도 있다"고 말했다. 박사과정 5년차인 이 연구원은 또 "개인적으로 향후 기회가 닿는다면, 핸드폰에 들어가는 사이즈로 현재 성능을 유지하는 멀티모달 대형언어모델을 만들어 볼 것"이라고 덧붙였다. 노용만 교수는 “연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문(Huggingface Daily Papers)에 추천됐다"며 "SNS 등을 통해 전세계에 점차 알려지는 등 관련분야 발전에 기여할 것"으로 기대했다. 연구에는 논문 제1저자 이병관 박사과정 연구원 외에도 박범찬 석박사통합과정, 김채원 박사과정이 공동 저자로 참여했다. 연구결과는 '콜라보'의 경우 자연어 처리(NLP) 분야 국제 학회 'ACL Findings 2024'(5월16일자)에 게재됐다. '모아이(MoAI)'는 컴퓨터 비전 국제 학회인 'ECCV 2024'에 논문을 제출하고 결과를 기다리고 있다. 한편 이 연구는 KAIST 미래국방 인공지능 특화연구센터 및 전기및전자공학부 지원을 받아 수행했다.

2024.06.20 14:26박희범

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

"요금 올리거나, 무료 풀거나"…OTT, 전략 분화

"책 대신 '아이패드'로 수업을"…디지털이 바꾼 교실 풍경은

과학자들, 납으로 금 만들었다…'연금술사의 꿈' 실현되나

[ZD브리핑] 아시아 IT 박람회 컴퓨텍스 개최...21대 대선 후보 첫 토론회

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현