• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
인공지능
배터리
양자컴퓨팅
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'수학 모델'통합검색 결과 입니다. (2건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

[써보고서] "정말 미쳤다"…오픈AI 新모델 'o1' 추론 능력에 '감탄'

"다른 인공지능(AI)에게 물어봐도 한 번도 맞힌 적 없는 문제들을 한글로 한 번에 해결하네. 이 모델은 정말 미쳤다." 13일 공개된 오픈AI의 인공지능(AI) 모델 'o1'에 대해 국내 관련 커뮤니티에서는 찬사가 이어졌다. 사용자들이 모델 성능을 비교하기 위해 넣었던 난해한 논리학 문제와 수학 문제들을 직접 생각하고 모두 해결했기 때문이다. 론칭 당일 새벽부터 모니터링하던 기자도 직접 다양한 테스트를 진행해 봤다. 추론과 수학 논리에 특화된 AI…뛰어난 문제 해결 능력 '눈길' 우선 간단한 실험으로 단어 내 특정 알파벳 개수를 세는 테스트를 진행했다. 기존의 거대언어모델(LLM) 대다수는 숫자 세기에 약점을 보였지만 'o1'은 'strawberry'에 포함된 'r'의 개수를 묻자 2초 만에 정확히 3개라고 대답했다. 논리학 문제에서도 뛰어난 성능을 보였다. 멘사 등에서 사용하는 '아이의 나이 맞추기' 문제를 제시하자 'o1'은 정확한 답을 도출했다. 문제는 러시아 수학자 이반과 이고르의 대화로, 아들들의 나이의 곱이 36이고 합이 오늘 날짜라는 힌트를 기반으로 아들들의 나이를 추론하는 것이었다. 기존 GPT-4 모델은 오답을 제시했지만 'o1'은 아들들의 나이가 1, 6, 6이며 오늘 날짜가 13일임을 정확히 맞혔다. 또 복잡한 추리 문제가 포함된 도난 사건에서도 'o1'은 정확한 범인을 지목했다. 여러 용의자의 진술과 거짓말이 섞인 상황에서 '찰리'와 '존무드'가 범인임을 밝혀내며 논리적 추론 능력을 입증했다. 일상에서 사용하지 않는 논리학 문제 대신 복잡한 문장의 해석 능력도 확인해 봤다. 한때 국내에서 밈이 됐던 "나 아는 사람 강다니엘 닮은 이모가 다시 보게 되는 게 다시 그때처럼 안 닮게 엄마 보면 느껴지는 걸 수도 있는 거임? 엄마도?"라는 난해한 비문을 제시하자 'o1'은 그럴듯한 해석을 내놓았다. 'o1'은 화자의 말을 "강다니엘을 닮은 이모를 다시 보았을 때 예전만큼 닮았다고 느끼지 못했다"며 "이런 느낌이 어머니를 본 후에 생긴 것일 수 있는데, 어머니도 같은 생각을 하시는지 궁금하다"는 뜻으로 해석했다. 이처럼 'o1'은 복잡한 문장의 의미를 자연스럽게 이해하고 해석하는 능력을 보여줬다. 막대한 토큰 사용 추정…응답 시간과 사용 횟수 제한은 아쉬워 일부 아쉬운 부분도 있었다. 간단한 질문에도 응답 시간이 10초 이상 소요되는 경우가 있어 실시간 활용에 제약이 있었다. 국내 커뮤니티 유저 한 유저는 '고맙다'는 답을 듣기 위해 10초가 소요됐다는 비판을 제기한 바 있다. 또 일주일에 30회로 제한된 사용 횟수는 실제 업무나 연구에 활용하기에는 부족한 면이 있었다. 실제로 기자가 15번 이상 'o1'을 사용하자마자 경고창이 떴다. "미리 보기의 응답이 15개 남았습니다. 한도에 도달하면 2024년 9월 20일로 재설정될 때까지 응답이 다른 모델로 전환됩니다." 마지막으로 일반 사용자들이 수학이나 복잡한 논리 문제를 자주 접하지 않는다는 점에서 이러한 고급 기능이 얼마나 대중적으로 활용될지는 지켜봐야 할 부분이다. 단 프로그래머나 수학 연구자 등 전문 분야에서는 큰 도움이 될 것으로 예상된다. 'o1' 출시로 AI의 추론 능력이 한 단계 도약한 것은 분명하다. 향후 응답 속도 개선과 사용 제한 완화가 이루어진다면 다양한 분야에서 혁신적인 활용이 기대된다. 특히 수학적 계산과 논리적 추론이 필요한 분야에서 큰 변화를 가져올 것으로 보인다. 샘 알트만 오픈AI 대표는 'o1'의 출시에 대해 "새로운 패러다임의 시작"이라며 "AI는 이제 다양한 목적으로 복잡한 사고를 할 수 있게 됐다"고 평가했다.

2024.09.13 11:01조이환

오픈AI 中 서비스 중단…알리바바 '큐원2'가 대안될까

오픈AI가 중국 내 서비스를 전면 차단한 가운데 알리바바가 대규모 언어 모델(LLM) '큐원2-수학(Qwen2-Math)'을 출시해 관심이 쏠린다. 현존하는 LLM 중 최상위권 수학 AI로 평가돼 현지 연구자와 개발자들의 대안으로도 각광 받고 있다. 9일 미국의 기술 매체 벤처비트에 따르면 알리바바의 '큐원2-수학'은 LLM용 수학 벤치마크 '매스(MATH)' 테스트에서 84%의 정확도를 기록했다. 벤치마크 성능 1위인 오픈AI의 'GPT-4 코드 인터프리터(GPT-4 Code Interpreter)'가 기록한 87.92%에 근접한 성과로, 알리바바의 기술력을 입증했다는 평가다. '큐원2'는 초등학교 수준의 수학을 테스트하는 'GSM8K'에서 96.7%, 대학 수준의 수학 테스트에서는 47.8%의 점수를 기록하며 눈에 띄는 성과를 거뒀다. 이는 오픈AI 'GPT-4o', 앤트로픽 '클로드 3.5 소네트', 구글 '수학-제미나이 스페셜라이즈드 1.5 프로(Math-Gemini Specialized 1.5 Pro)'와 같은 주요 경쟁 모델들을 능가하는 결과다. 이번 성과는 중국 유저들에게 의미가 크다. 오픈AI의 서비스 차단으로 중국 개발업계와 학계가 '챗GPT'를 사용하지 못하고 있기 때문이다. 지금까지 중국 개발자·연구자들은 가상사설망(VPN)을 통해 제한적으로 파인튜닝, 연구 및 벤치마킹을 진행해 왔으나 이마저도 지난 7월 전면적으로 차단돼 연구에 제약을 받아 왔다. 이런 상황에서 '큐원2'는 'GPT-4 코드 인터프리터'에 거의 준하는 수학 능력을 달성해 중국 유저들의 업무를 효율적으로 지원할 것으로 예측된다. 이에 맞춰 알리바바는 해당 모델의 광범위한 활용을 위해 배포를 계획하고 있다. 특히 월간 사용자 수가 1억 명 이하인 기업들에게 오픈소스로 제공해 스타트업과 중소기업이 사실상 무료로 사용할 수 있게 할 방침이다. 벤처비트는 "LLM 모델 경쟁이 매우 빠르게 진행되면서 '큐원'이 지금까지는 경쟁자들에게 밀려났었다"며 "이번 수학 능력의 비약적인 향상은 알리바바가 다시 경쟁력을 회복하는 계기가 될 수 있을 것"이라고 분석했다.

2024.08.09 15:28조이환

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

삼성전자, 브로드컴과 HBM3E 12단 공급 추진…ASIC서 기회 포착

메타의 공격적 AI 인재 사냥, 핵심은 '데이터 전쟁'

입점하면 서로 이득…유통가, ‘올다무’ 유치 경쟁 치열

새정부 독자AI 구축 의지...통신사, 자체 AI 모델 공개

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.