검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'o3 미니'통합검색 결과 입니다. (2건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

오픈AI, 기술적 한계 왔나…'o3' 등 최신 추론 AI 모델 '환각' 더 심해져

최근 새로운 인공지능(AI) 모델을 선보인 오픈AI가 할루시네이션(환각·왜곡) 현상을 해결하지 못하며 기술적 한계를 드러내고 있다. 20일 테크크런치 등 주요 외신에 따르면 오픈AI는 사람에 대한 모델의 지식 정확도를 측정하는 사내 벤치마크인 퍼슨(Person) QA에서 'o3'가 33%의 질문에 대해 환각을 일으킨다는 사실을 발견했다. 이는 각각 16%와 14.8%를 기록한 오픈AI의 이전 추론 모델인 'o1'과 'o3-미니' 대비 2배 이상 높은 것이다. 'o4-미니'는 무려 48%로, 더 낮은 성적을 기록했다. 또 'o3'와 'o4-미니'는 심지어 오픈AI의 비추론 모델인 'GPT-4o'보다도 더 자주 환각에 빠지는 것으로 드러났다. 오픈AI는 그동안 새 모델을 내놓을 때마다 환각 문제에 대해 꾸준히 개선된 결과를 내놨다. 그러나 이번에는 그렇지 못한 데다 "더 많은 연구가 필요하다"며 정확한 이유를 밝히기를 꺼렸다. 'o3' 및 'o4-미니' 관련 기술보고서에선 "전반적으로 더 많은 주장을 한다"며 "더 정확한 주장뿐만 아니라 더 부정확하거나 왜곡된 주장을 하게 된다"고 밝혔다. 앞서 오픈AI는 지난 16일 "이미지로 생각하고 판단할 수 있는 첫 번째 모델"이라는 설명과 함께 'o3'와 'o4-미니'를 출시했다. 단순히 이미지를 보는 것뿐 아니라 시각 정보를 추론 과정에서 직접 통합할 수 있다고 설명하며 자신감을 드러내기도 했다. 오픈AI에 따르면 사용자가 'o3'와 'o4-미니'에 화이트보드 스케치, PDF 다이어그램처럼 다양한 이미지를 업로드하면 모델은 이를 분석한 뒤 사고 흐름을 구성해 응답한다. 흐릿하거나 저해상도 이미지도 인식 가능해 시각 정보 기반 질문에도 안정적인 추론을 이어간다. 하지만 환각 현상이 심하면 기존 모델들보다 활용성이 떨어질 것이란 시각이 지배적이다. 비영리 AI연구소 트랜슬루스(Transluce)는 'o3'가 답변 도출 과정에서 자신이 취한 행동에 대해 짜맞추는 경향을 테스트를 통해 발견한 바 있다. 업계에선 이번 일을 두고 향후 추론형 모델의 신뢰성에 대한 의구심을 키우는 상황으로 이어질 수 있다고 보고 있다. 특히 세무나 회계, 법조계처럼 답변의 정확성이 다른 업종보다 중요한 분야에서는 환각 이슈가 해결되지 않을 경우 추론형 AI의 사용이 어려워질 가능성이 크다. 이에 대해 오픈AI 측은 "모든 모델에서 할루시네이션 문제를 해결하는 것은 지속적인 연구 분야"라며 "정확성과 신뢰성을 개선하기 위해 지속적으로 노력하고 있다"고 말했다.

2025.04.20 12:25장유미 기자

샘 알트먼 "o3 미니 출시 준비 끝…수주 내 공개"

오픈AI가 새 인공지능(AI) 모델 'o3 미니' 출시 준비를 완료해 몇 주 내 공개한다고 밝혔다. 19일 테크크런치 등 외신에 따르면 샘 알트먼 오픈AI 최고경영자(CEO)는 이런 소식을 소셜미디어 계정 '엑스(X, 구 트위터)'를 통해 알렸다. 알트먼 CEO는 이번 o3 미니에 사용자 피드백을 반영했으며, 챗GPT에도 접목할 계획이라고 설명했다. o3 미니용 API도 동시에 공개한다고 덧붙였다. 이를 통해 기업과 일반 사용자 모두 o3 미니를 이용할 수 있게 할 목표다. o3 미니 출시 후 o3 공식 버전을 공개할 예정이다. 오픈AI는 지난해 12월 추론 AI 모델 o3과 o3 미니를 테스트 중이라고 밝힌 바 있다. 당시 구글과 메타 등 경쟁사들과 차별화된 모델을 개발하려는 의지를 보였다. 알트먼 CEO는 "o3과 o3 미니는 이전에 출시된 o1 모델뿐 아니라 타사 모델보다 더 강력할 것"이라고 자신했다. 오픈AI는 지난달 열린 '쉽마스'에서 o3의 기능을 공개하기도 했다. 우선 AI의 도형 인식과 추론 적응 능력을 평가하는 '아크 AGI' 벤치마크에서 저성능 모드로 75.7%, 고성능 모드로 87.5% 수치를 기록했다. 이는 이전 모델인 'o1'(32%)과 경쟁사 앤트로픽의 '클로드 3.5'(53%)보다 높은 점수다. 이 모델은 코딩 분야에서도 대회 플랫폼 '코드포스'에서 2천700점을 기록해 글로벌 상위 0.2%에 들었다. 당시 오픈AI 내부에서도 o3가 조만간 3천점을 넘을 것이라고 기대했다. 앞서 오픈AI는 지난주 챗GPT에 '테스크(Tasks)' 베타 버전을 도입한다고 발표했다. 이를 통해 애플의 '시리'와 아마존의 '알렉사'와 가상비서 시장에서 경쟁할 의지를 내비쳤다.

2025.01.19 17:30김미정 기자