검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'AI 벤치마크'통합검색 결과 입니다. (16건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

AI 성능 검증은 국가 경쟁력…벤치마크, '인프라'로 키워야

인공지능(AI) 기술 패권 경쟁이 치열해지면서 AI 모델의 성능을 객관적으로 입증할 수 있는 평가 체계가 새로운 격전지로 떠올랐다. 모델을 개발하는 단계를 넘어, 우리 사회와 산업에 적합한지 검증하는 능력이 곧 국가 AI 경쟁력의 척도가 되고 있다. 18일 한국지능정보사회진흥원(NIA)은 '더 AI 리포트'를 통해 AI 성능 평가 핵심 열쇠로 '벤치마크 데이터셋'을 지목했다. 그러면서 이를 국가 차원의 필수 인프라로 구축해야 한다는 제언을 내놓았다. 과거 통계적 수치만으로는 최신 거대언어모델(LLM) 추론 능력과 문제 해결 역량을 정확히 파악하기 어렵다는 진단에서다. 보고서에 따르면 벤치마크 데이터셋은 표준화된 문제와 평가 기준을 통해 동일한 조건에서 여러 AI 모델의 성능을 비교·검증하는 테스트베드 역할을 한다. 이미 구글, 오픈AI 등 글로벌 빅테크 기업들은 범용 지식(MMLU), 수학(MATH), 진실성(TruthfulQA) 등 다양한 벤치마크 지표를 통해 자사 모델의 우수성을 입증하고 있다. 문제는 국내 평가 환경의 한계다. 현재 국내 벤치마크는 해외 유명 데이터셋을 한국어로 번역하거나 현지화하는 수준에 머물러 있는 경우가 많다. 최신 모델들의 성능이 상향 평준화되면서 기존 평가 도구의 변별력이 떨어졌지만, 법률·의료 등 전문 도메인이나 AI 안전성을 검증할 독자적인 평가 체계는 턱없이 부족한 실정이다. 특히 민간 기업이나 비영리 단체가 벤치마크 구축을 주도할 경우 구조적인 한계에 부딪힐 수밖에 없다고 보고서는 지적했다. 고품질 평가 데이터를 구축하고 유지하는 데 막대한 비용이 드는 데다, 기업 이해관계에 따라 데이터 편향이 발생할 우려가 있어서다. 이는 자본력이 부족한 스타트업이나 중소기업이 공정하게 기술력을 평가받을 기회를 박탈하는 결과로 이어질 수 있다. 보고서는 정부가 주도해 공신력 있는 '공공 벤치마크'를 마련해야 한다고 강조했다. 정부가 중립적인 위치에서 평가 인프라를 제공함으로써, 기업 규모와 상관없이 기술력만으로 공정하게 경쟁할 환경을 조성해야 한다는 것이다. 한국의 사회·문화적 특수성을 반영한 독자적 기준 마련도 시급한 과제로 꼽혔다. 글로벌 기준을 비판 없이 수용하기보다 한국 법·제도와 정서적 맥락을 이해하는 AI를 가려낼 평가 기준이 필요하다는 의미다. 이는 글로벌 AI 평가 시장에서 한국이 단순한 '기준 수용자'를 넘어 평가의 관점을 제시하는 주체로 도약하기 위한 전략적 선택이기도 하다. 보고서는 성공적인 벤치마크 생태계 조성을 위해 산·학·연이 협력하는 거버넌스 구축을 제안했다. 실제 산업 현장에서 필요한 평가 과제가 무엇인지에 대한 사회적 합의가 선행되어야 한다는 취지에서다. AI 발전 속도에 맞춰 데이터를 갱신하고, 평가 결과의 신뢰성을 담보할 수 있는 리더보드 운영 등 관리 체계 마련에도 정부의 역할이 요구된다. 정현영 NIA 인공지능정책실 미래전략팀 선임연구원은 "벤치마크는 단기 성과 비교를 넘어 정부가 책임지고 운영해야 할 국가 차원의 AI 평가 인프라"라며 "국내 AI 기술 고도화와 산업 경쟁력 강화를 뒷받침하는 기반으로 기능할 수 있다"고 말했다.

2026.02.18 09:01이나연 기자

'갤S26 탑재' 엑시노스 2600, 스냅드래곤 칩과 AI 성능 비교했더니

삼성전자의 최신 모바일 애플리케이션 프로세서(AP) '엑시노스 2600'과 퀄컴 '스냅드래곤 8 엘리트 5세대'의 인공지능(AI) 성능 비교 결과가 공개돼 관심을 모으고 있다. 샘모바일 등 외신은 10일(현지시간) IT 팁스터 @BairroGrande가 공개한 AI 벤치마크 '엠엘퍼프(MLPerf) 모바일 v5.0' 테스트 결과를 보도했다. 엠엘퍼프는 다양한 워크로드 환경에서 시스템이 AI 및 머신러닝 모델을 처리하는 속도를 측정하는 벤치마크로 ▲이미지 분류 ▲객체 탐지 ▲자연어 이해 ▲이미지 분할 ▲초해상도 등 여러 AI 작업을 평가한다. 일반적으로 점수가 높을수록 성능이 우수한 것으로 해석된다. 보도에 따르면 엑시노스 2600은 5개 테스트 항목 가운데 3개 부문에서 스냅드래곤 8 엘리트 5세대 칩을 앞섰다. 엑시노스 2600은 자연어 이해 부문에서 1185점, 객체 탐지 부문에서 4661점을 기록하며 스냅드래곤을 크게 앞질렀고, 이미지 분류에서도 근소한 우위를 보였다. 반면 이미지 분할과 초해상도 처리 부문에서는 스냅드래곤 칩이 더 높은 점수를 기록했다. 외신들은 이번 결과가 엑시노스 2600이 실시간 번역과 같은 AI 기반 언어 처리 기능과 실시간 객체 인식·추적 성능 향상에 기여할 가능성을 보여준다고 평했다. 동시에 두 칩이 전반적인 AI 성능 면에서 매우 근접한 수준임을 확인시켜주는 결과라고 덧붙였다. 한편 삼성전자는 이달 공개 예정인 갤럭시S26 울트라 모델에는 퀄컴 스냅드래곤 칩을 탑재하고, 갤럭시S26 일반 및 플러스 모델에는 일부 국가에서 엑시노스 2600을 적용할 것으로 전망되고 있다.

2026.02.11 16:32이정현 미디어연구소

韓 토종 AI, 세계 무대서 통했다…다큐브, 국제 기술 벤치마크 1위 달성

국내 토종 인공지능(AI) 스타트업 다큐브가 세계 최고 권위 기술 평가 무대에서 1위에 오르며 고난도 추론 능력을 입증했다. 다큐브는 국제 텍스트-투-SQL 성능 평가 지표인 '스파이더 2.0' 라이트 부문에서 세계 1위를 기록했다고 20일 밝혔다. 이는 지난해 7월 DBT 부문 1위에 이은 두 번째 성과로, 국내 기업 최초로 국제 무대에서 두 개 부문 정상을 차지했다. 미국 예일대학교 연구진과 글로벌 산업 파트너들이 공동 개발한 스파이더 2.0은 AI가 사람의 언어를 데이터베이스(DB) 언어로 얼마나 정확하게 변환하는지를 측정하는 지표다. 실제 기업 환경과 유사한 복잡한 데이터 구조를 다루기에 글로벌 빅테크 기업과 유수 연구기관들이 기술력을 검증받는 핵심 지표로 활용되고 있다. 다큐브가 이번에 1위를 차지한 라이트 부문은 지난 2년간 전 세계 AI 기업들이 치열하게 기술력을 겨뤄온 분야다. 다큐브는 이 평가에서 65.81점을 기록하며 스노우플레이크·삼성SDS·칭화대 등 주요 기업·기관을 넘어 가장 높은 기술 완성도를 인정받았다. 특히 이번 성과는 다큐브가 특정 DB 환경에 국한되지 않고 빅쿼리와 스노우플레이크 등 다양한 글로벌 상용 DB를 아우르는 범용성과 고난도 추론 능력을 갖췄음을 증명했다. 다큐브는 창립 후 약 4년간 NL2SQL 분야 기술에 집중 투자해왔다. 독자적인 자연어 처리 엔진과 AI 에이전트 구조를 고도화해 서비스에 적용했으며 금융과 회계, 데이터 플랫폼 전반으로 적용 범위를 넓히고 있다. 다큐브 김하정 최고기술책임자(CTO)는 "문제 해결, 결과 검증, 실패 분석을 담당하는 AI 에이전트를 병렬로 운용해 학습 효율과 처리 속도를 끌어올렸다"며 "거대언어모델(LLM)에 대한 이해와 AI 에이전트 설계 역량이 결합된 결과"라고 설명했다. 윤예지 다큐브 대표는 "DBT 부문이 신설 트랙이었다면 라이트 부문은 지난 2년간 글로벌 빅테크와 유수 연구기관이 경쟁해온 핵심 부문"이라며 "모든 문제 해결 과정을 AI 에이전트로 자동화한 구조가 반복적인 성과를 가능케 했다"고 말했다. 이어 "다큐브의 텍스트-투-SQL 솔루션 'QUVI'는 특정 DB에 종속되지 않고 다양한 환경에 즉시 적용 가능하다는 강점이 있다"며 "남은 스노우 트랙까지 도전해 스파이더 전 부문 1위 기록을 목표로 하겠다"고 덧붙였다.

2026.01.20 18:27한정호 기자

독파모 1차 통과 업스테이지 "글로벌 경쟁력 갖춘 모델 고도화"

독자 인공지능(AI) 파운데이션 모델(독파모) 프로젝트 1차 단계평가를 통과하며 기술 경쟁력과 실행력을 인정받은 업스테이지가 2차 단계에서 글로벌 수준의 모델 고도화에 집중하겠다는 입장을 밝혔다. 업스테이지는 15일 과학기술정보통신부가 발표한 독파모 프로젝트 1차 단계평가 결과에서 LG AI연구원, SK텔레콤과 함께 2차 단계에 진출한 3개 정예팀에 이름을 올렸다. 5개 정예팀 가운데 스타트업으로는 유일하게 2차 단계에 진출했다. 과기정통부에 따르면 업스테이지는 이번 평가에서 글로벌 개별 벤치마크 부문에서 높은 점수를 받았다. 특히 글로벌 최상위(SOTA) 모델과 비교하는 개별 벤치마크 평가에서 만점을 기록하며 비교적 적은 매개변수로도 대규모 모델 수준의 성능을 구현한 점이 경쟁력으로 평가됐다. 이번 1차 단계평가는 벤치마크 평가, 전문가 평가, 사용자 평가를 종합해 진행됐다. 업스테이지는 모델 성능뿐 아니라 실제 현장 활용 가능성과 비용 효율성 측면에서도 일정 수준 평가를 받은 것으로 알려졌다. 자체 개발한 언어모델 '솔라'를 기반으로 한 문서 이해·추론 등 실무 중심 기술이 강점으로 작용했다는 평가다. 업스테이지는 이번 프로젝트를 위해 민간·학계·연구기관이 참여하는 산학연 컨소시엄을 구성해왔다. 노타AI·래블업·플리토·오케스트로 등 기술 기업과 함께 카이스트, 서강대학교 교수진이 연구 협력에 참여하고 있으며 의료·제조·법률·공공·교육 등 다양한 산업 분야 기업들과도 협력 체계를 구축했다. 2차 단계에서는 컨소시엄을 더욱 확대해 연구 역량과 산업 적용 범위를 넓힐 계획이다. 업스테이지는 스탠퍼드대학교와 뉴욕대학교 연구진의 합류를 통해 핵심 모델 기술을 고도화하고 글로벌 시장을 겨냥한 프런티어급 모델을 완성한다는 목표다. 업스테이지는 독자적으로 설계·학습한 파운데이션 모델을 기반으로 한국어를 비롯한 다국어 추론 성능을 강화하고 공공·기업 현장에서 체감할 수 있는 AI 전환(AX) 사례를 확대한다는 전략이다. 이를 통해 기술 경쟁력과 실사용 성과를 동시에 입증하겠다는 구상이다. 김성훈 업스테이지 대표는 페이스북을 통해 "많은 분들의 응원으로 우리 컨소시엄의 솔라LLM은 계속 달려갈 것"이라며 "2차 단계부터는 스탠퍼드와 뉴욕대 연구진들이 합류해 글로벌에서 우뚝서는 모델을 만들어 갈 것"이라고 밝혔다.

2026.01.15 16:02한정호 기자

앤트로픽, 차세대 AI '클로드 오퍼스4.5' 출시…챗GPT·제미나이 제쳤다

앤트로픽이 차세대 인공지능(AI) 모델 '클로드 오퍼스4.5'를 선보이며 코딩·에이전트·사무 작업 자동화 등 다양한 영역에서 경쟁사 대비 우수성을 앞세워 시장 공략에 속도를 낸다. 특히 소프트웨어 엔지니어링(SWE) 벤치마크에서 세계 최고 수준의 성능을 기록하며 기업용 AI 시장 공략을 본격화한다. 앤트로픽은 자사 AI 모델 중 최상위 모델인 '오퍼스'의 최신 버전 클로드 오퍼스4.5를 24일(현지시간) 출시했다. 오퍼스4.5는 복잡한 추론과 고난도 전문 작업 수행에 최적화된 모델로, 기존 오퍼스 대비 코딩 자동화·버그 수정·다단계 작업 수행 능력이 크게 강화됐다. 국제 표준 벤치마크 결과에 따르면 SWE-벤치에서 80.9%의 정확도를 기록해 오픈AI GPT-5.1 코덱스 맥스(77.9%), 구글 제미나이 3 프로(76.2%)를 앞섰다. 또 기존 학습 데이터 없이 AI가 스스로 문제를 해결하는 ARC-AGI-2 평가에서도 37.6%를 기록하면서 경쟁 모델 대비 우수한 성능을 보였다. 앤트로픽은 "오퍼스4.5가 몇 주 전만 해도 우리의 '소넷4.5' 모델이 해결하지 못한 문제까지 풀어낸다"며 "실제 시험 환경에서 인간 지원자보다 높은 점수를 기록했다"고 설명했다. 아울러 내부 테스트에서도 SWE-벤치 다국어 테스트 8개 중 7개 부문에서 1위를 차지한 것으로 나타났다. 새 모델은 사무 자동화 기능도 강화됐다. 재무 분석, 프레젠테이션 작성, 스프레드시트 처리 등 사무용 워크플로우에 특화된 업데이트가 적용됐으며 마이크로소프트(MS) 엑셀 내에서 직접 클로드를 활용할 수 있는 기능도 추가됐다. 이를 통해 기업 고객은 엑셀 기반 데이터 분석과 문서 작업을 자연어로 수행하게 됐다. 개발자 도구도 확장됐다. 장기 실행형 에이전트 기능과 데스크톱·크롬 환경에서의 클로드 활용성 개선, 자동 요약을 통한 긴 대화 맥락 유지 기능 등을 추가했다. AI 연산량을 조절하는 '노력 매개변수'를 적용해 동일 성능 대비 필요한 토큰 수를 50% 가까이 줄인 것도 특징이다. API 가격 역시 대폭 인하됐다. 오퍼스4.5 API 요금은 100만 토큰당 입력 5달러·출력 25달러로 기존 대비 3분의 1 수준으로 낮아졌다. 모델은 클로드 앱, API, 아마존웹서비스(AWS)·애저·구글 클라우드를 통해 즉시 이용할 수 있다. 앤트로픽은 "오퍼스 4.5를 통해 다양한 산업에서 생산성과 문제 해결 능력을 한 단계 더 끌어올릴 수 있을 것"이라고 밝혔다.

2025.11.25 10:37한정호 기자

삼성전자, AI 업무 생산성 측정 지표 '트루벤치' 공개

삼성전자가 자체 개발한 AI 업무 생산성 벤치마크 '트루벤치(TRUEBench)'를 25일 공개했다. '트루벤치'는 삼성전자 DX부문 선행 연구개발조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 바탕으로 개발한 벤치마크로 AI 모델의 업무 생산성 성능을 평가한다. 삼성전자는 많은 기업들이 업무 전반에 AI를 도입하고 있지만, 기존 벤치마크로는 AI 모델의 업무 생산성 성능을 정확히 측정하기 어렵다는 점에 주목했다. 실제 시중에 공개되어 있는 대부분의 AI 벤치마크는 영어를 중심으로, 연속 대화가 아닌 한번 혹은 제한된 횟수로 대화를 평가하고 있다. 이번에 삼성전자가 공개한 '트루벤치'는 기존 벤치마크와 차별화해 업무 생산성에 대한 집중 평가를 진행하는 것이 특징이다. 실제 평가 항목은 10개 카테고리, 46개 업무, 2천485개의 세분화된 항목으로 구성돼 있다. 평가 항목은 기업에서 자주 사용하는 콘텐츠 생성, 데이터 분석, 문서 요약 및 번역, 연속 대화 등 실제 오피스 업무에서 활용되는 체크 리스트를 기반으로 완성됐다. 폭 넓은 데이터 기반 세밀한 평가 결과, 다국어 지원 차별화 '트루벤치'는 총 2485개의 평가 기준으로 사용자의 짧은 요청부터 최대 2만자의 긴 문서 요약까지 실제 업무 상황을 폭넓게 평가하게 된다. 평가 결과도 기존 벤치마크와 차별화했다. 사용자는 한 번에 최대 5개 모델을 선택해 비교할 수 있어 다양한 AI 모델의 성능을 한눈에 파악할 수 있다. 응답 결과에 대한 평균 길이 등도 공개해 성능과 효율성 지표를 동시에 비교할 수 있다. 전체 평가 점수뿐만 아니라 10개 카테고리에 대한 세부 항목별 점수도 공개해 기존 벤치마크보다 세밀한 평가 결과를 확인할 수 있다. 트루벤치는 영어·한국어·일본어·중국어·스페인어 등 총 12개 언어를 지원한다. 특히 글로벌 비즈니스 환경을 고려해 영어와 한국어 등 여러 언어가 혼합된 교차 언어의 번역 기능 평가도 가능하다. 삼성전자는 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 '트루벤치'의 데이터 샘플과 AI 모델들의 평가 결과가 표시된 리더보드(Leaderboard)를 공개했다. AI 교차 검증으로 효율성과 객관성 확보 AI 모델 성능 평가는 답변 생성 성능 외에도 AI 모델의 답변이 올바른지 판단하는 기준도 명확해야 한다. '트루벤치'는 답변의 정확성뿐만 아니라, 겉으로 드러나지 않는 사용자의 의도나 맥락까지 평가가 가능하도록 설계됐다. 또 평가 항목을 검증하는 방식에는 AI가 활용된다. 사람이 구축한 평가 기준을 AI가 검토해 오류나 모순, 불필요한 제약이 없는지 확인하며 지속적인 교차 검증의 반복을 통해 더욱 정교한 평가 기준을 완성하게 된다. 이러한 기준으로 완성된 AI 모델 자동 평가는 주관적 편향을 최소화하고 일관성 있는 결괏값을 제공하게 된다. 전경훈 DX부문 최고기술책임자(CTO) 겸 삼성리서치장(사장)은 "삼성 리서치는 다양한 실제 적용 사례를 바탕으로 차별화된 생산성 AI 기술 경쟁력과 노하우를 보유하고 있다"며, "트루벤치 공개를 통해 생산성 성능 평가 기준을 정립하고 삼성전자의 기술 리더십을 더욱 공고히 할 것"이라고 말했다.

2025.09.25 13:14전화평 기자

인핸스, 웹 AI 리더보드서 글로벌 3위…커머스 자동화 시장 노린다

인핸스가 웹사이트에서의 에이전트 성능을 평가하는 글로벌 벤치마크에서 독자 기술력으로 상위권 성적을 거뒀다. 전통적 스크린샷 제어 방식과 달리 웹 구조를 직접 제어하는 접근으로 기술력과 실효성 모두를 입증했다. 인핸스는 웹 인공지능(AI) 에이전트 벤치마크 '온라인-마인드투웹(Online-Mind2Web)' 리더보드에서 회사의 모델 '액트-1(ACT-1)'이 전체 3위, 도큐먼트 오브젝트 모델(DOM) 제어 방식 및 커머스 부문에서는 각각 1위를 차지했다고 22일 밝혔다. 해당 벤치마크는 전 세계 136개 실웹 도메인에서 300개 과제를 수행한 AI의 정밀성과 유효성을 인간 및 자동평가로 검증하는 시스템이다. '액트-1'은 클릭, 메뉴 선택 등 실제 사용자 인터페이스 기반의 복잡한 작업을 수행하는 행동형 AI로, 웹페이지 구조를 직접 분석해 조작하는 DOM 제어 기술을 기반으로 한다. 기존 좌표 기반 제어 방식보다 보안성과 신뢰성이 높고 응용프로그램 인터페이스(API) 접근이 막힌 환경에서도 자동화가 가능하다. 이 에이전트는 커머스 환경에서 특히 강점을 보였다. 실시간 가격 변동, 쿠폰, 재고 상태처럼 구조가 자주 바뀌는 영역에서도 정확하게 정보를 추출하고 제어하며 온라인 쇼핑 특유의 동적 요소를 안정적으로 처리했다. 현재 인핸스는 '액트-1'을 활용한 AI 기반 커머스 자동화 솔루션 '커머스OS'를 운영하고 있다. 이를 통해 반복적 웹 작업을 대체하고 실시간 대응력을 강화하는 자동화 체계를 제공하는 것이다. 크롤링, 테스트, 운영 등 다양한 웹 작업이 적용 대상이다. 기술 확장성 측면에서도 전략을 내놨다. 모방학습(Imitation Learning)을 '액트-1'에 접목해 사람만 할 수 있던 고차 작업을 대체하는 차세대 에이전트 개발에 착수했으며 이를 바탕으로 버티컬 커머스 분야 글로벌 1위를 목표로 기술 고도화를 지속할 계획이다. 기업 고객을 대상으로 한 B2B 웹 자동화 시장 공략도 본격화한다. 고객사의 도메인 환경에 맞춰 커스터마이징된 자동화 시스템을 구축하고 기존 글로벌 AI 기업들과는 다른 경쟁축을 제시하겠다는 구상이다. 이승현 인핸스 대표는 "오픈AI, 앤트로픽과 같은 글로벌 선도 기업들과 어깨를 나란히 할 수 있게 된 것은 큰 의미"라며 "웹 AI 에이전트 기술 개발을 지속 강화해 버티컬 산업 분야에서 글로벌 시장을 선도해 나가겠다"고 밝혔다.

2025.07.22 18:03조이환 기자

하정우 AI수석도 '주목'…세일즈포스, AI 에이전트 평가 시스템 공개

인공지능(AI) 에이전트 성능을 자동 평가하는 프레임워크가 등장했다. AI 모델 자체만을 평가하던 벤치마크 한계를 넘어 에이전트의 실질적 성능 분석이 가능한 프레임워크다. 20일 IT 업계에 따르면 세일즈포스는 지난 17일 '모델 컨텍스트 프로토콜 기반 평가 프레임워크(MCPeval): MCP 기반의 자동 심층 에이전트 평가' 논문을 통해 에이전트 문제 해결 능력을 자동 검증할 수 있는 새 벤치마크 프레임워크를 오픈소스로 공개했다. MCPeval은 MCP 기반으로 에이전트 성능을 검증한다. 사용자가 가상 업무 환경을 제시하면, 에이전트가 MCP를 이용해 필요한 도구 정보를 받아, 주어진 작업을 직접 수행하는 식이다. 이 과정에서 MCPeval은 에이전트의 과제 해결하는 과정을 추적할 수 있다. 프로토콜 상 상호작용 데이터도 체계적으로 수집한다. 이를 통해 에이전트 성능을 평가하는 셈이다. 에이전트 성능 개선에 활용할 수 있는 고품질 데이터까지 확보 가능하다. 해당 프레임워크는 작업 생성과 성능 검증도 모두 자동화됐다. 이때 생성된 과제 해결 기록은 모델을 미세 조정하거나 개선하는 데 활용된다. 또 MCPeval의 평가 리포트를 통해 에이전트가 플랫폼과 어떻게 소통했는지 세밀하게 분석 가능하다. 세일즈포스 AI 리서치 관계자는 "기업들은 내부 업무에 맞게 MCPeval로 자체 평가 기준을 만들 수 있다"며 "에이전트를 도입하기 전 실제 활용 가능성을 미리 점검하는 데 도움 될 것"이라고 밝혔다. 같은 날 하정우 대통령비서실 AI미래기획수석비서관도 세일즈포스의 연구 결과를 개인 소셜미디어에 공유했다. 하 수석은 "그동안 다수 파운데이션 모델 능력 평가 벤치마크가 태스크를 해결하는 에이전트로서의 능력보다는 정해진 지식이나 논증적 추론 능력 중심으로 평가하는 형태가 대부분이었다"고 지적했다. 그러면서 "세일즈포스 프레임워크는 에이전트가 MCP 같은 프로토콜로 다양한 외부 리소스에 접근해 해결한 태스트 결과를 평가한다는 측면에서 훨씬 현실적"이라고 덧붙였다. MCPeval로 모델·에이전트 평가했더니 실제 연구팀은 각 회사 모델과 모델별로 구축된 에이전트 성능을 MCPeval로 평가한 결과를 공개했다. 실험에서는 오픈AI가 만든 GPT 계열 모델들이 전반적으로 좋은 성능을 보였다. GPT 계열로 구축된 에이전트는 도구 사용 능력 평가에서도 높은 점수를 받은 것으로 나타났다. 연구팀은 "GPT-4 계열은 일의 흐름을 잘 계획하고 차근차근 진행하는 데서 강점을 보였다"며 "o3 모델은 작업을 완성하는 최종 결과가 특히 뛰어났다"고 분석했다. 알리바바가 만든 큐원(Qwen3) 모델은 기존 벤치마크에선 성적이 좋았지만, 실제 상황처럼 과제를 만들고 해결하는 평가에서는 기대만큼 성능을 내지 못했다. 특히 큐원3-32B 모델은 도구를 정확히 사용하는 능력이나 과제를 완성하는 데서 다른 모델보다 낮은 점수를 받았다. 세일즈포스는 "같은 모델이라도 어떤 방식으로 평가하느냐에 따라 성능이 다르게 보일 수 있다는 사실을 보여준다"며 "AI 모델이 아닌 '모델로 구성된 에이전트'가 실제 상황에서 태스크를 얼마나 잘 생성하고, 도구를 활용해 해결할 수 있는지를 종합적으로 평가해야 하는 시대가 왔다"고 강조했다.

2025.07.20 14:02김미정 기자

韓 AI 벤치마크 다시 쓴다…"이젠 변호사·의사 자격 시험이 기준"

한국어 거대언어모델(LLM)의 실무 능력을 측정하기 위한 새로운 벤치마크가 등장했다. 실제 국가전문자격시험 문제를 기반으로 구성돼 번역 기반 테스트가 놓치던 지역 특화 지식과 응용력의 격차를 그대로 드러낼 수 있게 됐다. 17일 업계에 따르면 LG AI연구원과 오픈소스 LLM 연구 커뮤니티 해례는 공동으로 새로운 한국어 고난도 벤치마크 '케이엠엠엘유-프로(KMMLU-Pro)'를 공개했다. 이 벤치마크는 최근 한 해 동안 시행된 변호사, 회계사, 의사 등 14개 국가 전문직 자격시험에서 출제된 실제 문제 2천822개로 구성됐으며 시험별 통과 기준까지 적용해 모델의 실무 적합성을 정량적으로 측정한다. 기존의 '케이엠엠엘유'는 고등학교 수준부터 전문가 시험까지 범위를 포괄했으나 문제의 중복·오염·정답 노출 등 품질 논란이 반복됐다. 연구진은 이를 보완하기 위해 문제를 전면 재구성한 리덕스 버전도 함께 공개했다. 해당 벤치마크는 산업기사 중심의 국가기술자격시험 100종에서 총 2천587개 문항을 추출해 구성됐다. 이번 벤치마크는 정답률만이 아니라 자격시험 합격 요건과 동일한 기준을 모델에 적용하는 방식으로 설계됐다. 평가 범주 또한 단답형이 아닌 실제 시험 포맷과 일치하도록 조정돼 인공지능(AI)의 단순 지식 암기보다 응용력과 분야별 편차를 명확히 드러낼 수 있도록 구성됐다. 결과적으로 앤트로픽의 '클로드 3.7 소넷'은 전체 14개 시험 중 12개를 통과하며 가장 고른 성능을 보였다. 오픈AI의 'o1' 모델은 평균 정확도 79.55%로 가장 높은 점수를 기록했지만 실제 시험 통과 기준에서는 10개 자격만 획득하는 데 그쳤다. 특히 한국 변호사시험을 통과한 모델은 '클로드 3.7'이 유일했다. 이 외에도 딥시크의 'R1', 메타의 '라마4 매버릭', xAI의 '그록' 등 다수의 글로벌 상용 모델들이 의료와 회계 등 영역에서는 상대적으로 높은 성과를 냈지만 법률·세무 영역에서는 기준점에 미달했다. 벤치마크는 허깅페이스를 통해 오픈소스로 배포됐으며 비상업적 사용과 재배포에 한해 이용할 수 있도록 했다. 연구진은 향후 매년 최신 시험 데이터를 반영해 버전을 주기적으로 갱신할 계획이다. 연구진은 "두 벤치마크의 결과를 종합적으로 분석한 결과 한국에 특화된 전문 지식을 기반으로 한 평가가 특히 중요하다는 점이 확인됐다"고 밝혔다.

2025.07.17 17:46조이환 기자

"구글 '제미나이 1.5'가 0점"…인텔 나간 팻 겔싱어가 만든 벤치마크, AI 윤리성 체크한다

"나뿐 아니라 많은 사람들이 인공지능(AI)이 미칠 영향력을 과소평가했습니다." 최근 일본 닛케이 아시아와의 인터뷰에서 이처럼 밝혔던 팻 겔싱어 전 인텔 최고경영자(CEO)가 AI 시장에서 새로운 기회를 엿보고 있다. AI 모델이 인간의 가치에 얼마나 잘 부합하는지를 테스트하는 벤치마크를 통해서다. 11일 테크크런치에 따르면 겔싱어 전 CEO는 미국 하버드대와 베일러대가 주도한 '글로벌 플로리싱 연구(The Global Flourshing Study)'를 기반으로 한 '플로리싱 AI(Flourishing AI, FAI)' 벤치마크를 공개했다. 글루라는 신앙 기반 기술과 협력해 개발한 것으로, 겔싱어 전 CEO는 약 10년 전 글루에 투자한 바 있다. 겔싱어 전 CEO는 지난 2021년 2월 15일 인텔 수장으로 합류한 후 3년 10개월만인 지난 해 12월 초 인텔을 퇴임했다. 이후 올 3월 말 플레이그라운드 글로벌의 반도체 부문 투자 책임자로 취임했다. 또 지난 6월에는 초전도 기술을 사용해 AI 컴퓨팅 칩을 개발하는 스타트업인 스노우캡 컴퓨트에도 투자했다. 글루와 연구팀은 인간의 삶의 질을 측정하는 6가지 핵심 요소를 선정해 'FAI' 연구를 진행했다. 핵심 요소는 ▲성격과 덕목 ▲사회적 관계 ▲행복과 삶의 만족 ▲의미와 목적 ▲정신 및 신체 건강 ▲경제적 안정성이 포함되며 추가적으로 신앙과 영성이 더해졌다. 현재 FAI 벤치마크는 GPT-4, 어니 X1(Ernie X1), 클로드 2.1(Claude 2.1), 제미나이 1.5(Gemini 1.5) 등 주요 AI 모델을 테스트하는 데 활용되고 있다. 결과는 다양하게 나타나고 있는데 특히 '신앙과 영성' 항목에서 일부 모델이 긍정적인 결과를 보였다. 하지만 구글 '제미나이 1.5'는 100점 만점에 0점을 기록해 논란이 되고 있다. 겔싱어 전 CEO는 "AI가 행복, 사회적 관계, 의미, 정신적·신체적 건강, 경제적 안정성 등 인간의 중요한 가치와 얼마나 잘 조화되는지를 측정하는 것이 중요하다"며 "FAI가 AI 기술의 윤리적 기준을 정립하는 데 중요한 역할을 할 것으로 보인다"고 말했다. 이어 "AI가 인간 중심의 가치를 지원하도록 지속적으로 평가하고 개선할 필요가 있다"고 덧붙였다.

2025.07.11 10:36장유미 기자

사내벤처서 세계 1위로…다큐브, 글로벌 SQL 벤치마크서 기술력 '증명'

웹케시그룹의 사내벤처로 출발한 다큐브가 글로벌 기술 역량을 입증하며 인공지능(AI) 기업으로의 비전을 구체화하고 있다. 다큐브는 국제 자연어·데이터 질의 변환(NL2SQL) 성능 평가인 '스파이더 2.0' 벤치마크에서 DBT 부문 세계 1위를 달성했다고 8일 밝혔다. 이번 성과는 다큐브의 자연어 기반 데이터 조회·분석 기술이 국제적 기술 기준에서도 최고 수준임을 입증한 것으로 평가된다. 특히 복수 테이블 간 조인, 중첩 조건 쿼리, 그룹핑·정렬 등 고난이도 항목에서 최고 점수를 기록하며 기술력을 공식적으로 인정받았다. 다큐브는 2021년 웹케시그룹의 사내벤처로 출발해 지난 4년간 NL2SQL 분야에 집중 투자해 왔으며 이 과정에서 고수준의 AI 인력과 독자적 기술 역량을 확보했다. 이러한 성과는 웹케시가 추진 중인 금융 AI 에이전트 기업으로 재창업 전략을 추진하는 데 중요한 기술적 동력으로도 기대를 모으고 있다. 현재 웹케시는 AICFO·브랜치Q·서울페이 등 다양한 금융 AI 에이전트를 출시하며 성공적인 레퍼런스를 확보하고 있다. 이 가운데 다큐브의 기술력은 국내를 넘어 글로벌 AI 기업으로 성장할 가능성을 보여주고 있다는 평가를 받고 있다. 스파이더 2.0에서의 성과는 글로벌 AI 3대 강국 도약을 목표로 하는 대한민국이 특정 분야에서 세계 1위 기술을 확보할 수 있다는 실증 사례로도 주목받고 있다. 소버린 AI와 같은 파운데이션 모델과 함께 특화 영역에 집중한 고도화 전략의 성공 가능성을 제시했다는 게 회사 측 설명이다. 윤예지 다큐브 대표는 "이번 스파이더 2.0 1위는 SQL을 몰라 데이터를 제대로 활용하지 못한다는 고객의 불편을 혁신하고자 하는 노력에서 출발했다"며 "기술을 통해 고객사에서 데이터 조회 시간이 획기적으로 줄었다는 긍정적 평가를 받고 있으며 다큐브 기술력이 국제 무대에서도 충분히 통할 수 있다는 자신감을 얻었다"고 밝혔다.

2025.07.08 11:06한정호 기자

"성능 개선했다더니"…GPT-4.1 출시한 오픈AI, 가격·정확도 논란

오픈AI가 차세대 인공지능(AI) 모델 'GPT-4.1' 시리즈를 회사 애플리케이션 프로그램 인터페이스(API) 중심 전략의 핵심으로 삼았다. 기존 고사양 모델의 부담을 줄이고 실사용 효율성을 높이려는 전략이지만 업계 일각에서는 기대와 우려가 엇갈리는 분위기다. 오픈AI는 'GPT-4.1' 기본형과 경량형 모델을 함께 제시하고 고비용 모델인 'GPT-4.5'는 오는 7월을 기점으로 단계적으로 퇴장시킬 계획이라고 15일 밝혔다. 새로운 '4.1' 시리즈에는 멀티모달 기능과 장문 대응 구조를 적용하며 사용자 범용성을 강화했다는 점을 강조했다. 다만 '4.1'의 실제 성능과 가격 구조를 놓고는 회의적인 시선도 제기된다. 일부 벤치마크 결과에서 경쟁 모델에 비해 정확도가 낮게 나타났고 지표 구성 방식에 대한 지적도 뒤따르며 향후 시장 내 경쟁력에 관심이 쏠린다. 멀티모달·장문 대응 갖춰…'4.5'는 5개월 만에 퇴장 오픈AI는 새로 출시된 'GPT-4.1' 시리즈가 프론트엔드 앱 생성, 코드 리뷰, 문서 분석, 고객 응대 등 실사용 환경에 더욱 적합하도록 최적화됐다고 설명했다. 특히 프로그래밍 업무의 생산성을 높이는 데 중점을 두고 개발됐으며 기존 'GPT-4o'보다 다양한 지시 유형과 포맷을 정확하게 따를 수 있다는 것이다. 'GPT-4.1' 시리즈의 입력당 가격은 모델별로 구분된다. 가장 성능이 높은 'GPT-4.1'은 입력 1백만 토큰당 2달러(한화 약 2천800원), 출력은 8달러(한화 약 1만1천200원)다. 'GPT-4.1 미니'는 입력 당 0.4달러(한화 약 560원), 출력 1.6달러(한화 약 2천200원)로 책정됐다. 가장 작은 'GPT-4.1' 나노는 입력 0.1달러(한화 약 160원), 출력 0.4달러(한화 약 640원)로 가격 접근성이 높다. 동일 프롬프트를 반복 사용하는 경우에는 최대 75%까지 입력 요금 할인이 적용된다. 이러한 'GPT-4.1'의 투입은 고성능 모델로 자리했던 'GPT-4.5'의 단계적 종료와 맞물린다. 오픈AI는 오는 7월을 기점으로 'GPT-4.5' 애플리케이션 프로그램 인터페이스(API) 제공을 종료하고 후속 제품인 'GPT-4.1'을 주력 모델로 대체한다고 밝혔다. 'GPT-4.5'의 연산 비용이 지나치게 높아 상용화 부담이 컸기 때문이라는 점이 교체의 배경으로 제시됐다. 'GPT-4.5'는 지난 2월 말 발표된 오픈AI 최대 규모 모델로, 보다 많은 학습량과 계산 자원을 투입해 설득력과 문장 구성 능력을 개선한 바 있다. 그럼에도 출시 5개월 만에 API 시장에서 퇴장 수순을 밟게 되면서 'GPT-4.1'이 향후 오픈AI의 API 전략을 실질적으로 이끌 주력 제품이 될 것으로 전망된다. "개선된 게 맞나"…벤치마크 해석·가성비 논란에 경쟁력 의문 이같이 오픈AI가 'GPT-4.1'이 향상된 명령 이행력과 코딩 성능을 가졌다고 전면에 내세웠지만 실제 성능을 두고는 업계 일각에서 회의적인 시선이 나온다. 실제로 'GPT-4.1'은 오픈소스 프로젝트의 코드 이슈를 해결하는 능력을 평가하는 SWE-벤치 베리파이드(SWE-bench Verified) 기준 54.6%의 정확도를 기록했지만 같은 지표에서 구글의 제미니 2.5 프로는 63.8%, 앤트로픽의 클로드 3.7 소넷은 62.3%로 오히려 더 높은 수치를 보였다. 자연어 기반 코드 수정과 리팩토링 성능에서 오픈AI가 경쟁사보다 앞서 있다고 보긴 어려운 수치다. 가격 대비 성능에서도 의문이 제기된다. 'GPT-4.1'은 입력 1백만 토큰당 2달러, 출력은 8달러로 책정돼 가격이 높은 편이다. 같은 범주의 제품인 구글 '제미나이 2.5 프로'는 출력 단가는 10달러(한화 약 1만4천원)로 다소 높지만, 입력 요금은 1.25달러(한화 약 1천500원)로 저렴하다. SWE-벤치 코딩 성능에서 입력 단가가 낮은 '제미나이 2.5' 모델이 더 높은 정확도를 기록한 만큼, 가성비 면에서는 오픈AI가 밀린다는 평가다. '미니' 모델도 상황은 비슷하다. 입력 비용이 경쟁 프로덕트인 구글 '제미나이 플래시'보다 2배 이상 비싸지만 성능은 오히려 낮다는 분석이 뒤따른다. 컨텍스트 캐싱을 적용하지 않는 경우에는 가격 차이가 더 벌어져 규모가 작은 프로젝트에서 선택하기 어려운 구조다. 오픈AI의 벤치마크 구성 방식에 대한 지적도 나온다. 'GPT-4.1'의 성능을 보여주는 공식 차트에는 고난도 문제와 논리 추론 항목이 포함된 공신력 있는 벤치마크인 표준 MMLU 대신 다국어 MMLU(M-MMLU)가 사용됐기 때문이다. MMLU는 다양한 학문 분야의 지식과 추론 능력을 평가하는 대표적 지표로, 표준 MMLU는 영어 기반으로 구성되며 M-MMLU는 이를 여러 언어로 번역한 버전이다. 원본보다 번역된 문항이 많아 모델에 유리하게 작용할 가능성이 있다는 분석도 나온다. 고난도 문제를 포함한 MMLU-프로 성능은 아예 공개되지 않았다. 이외에도 오픈AI가 공개한 차트의 y축 수치가 표시되지 않아 모델 간 실제 성능 격차를 시각적으로 축소하려는 의도가 아니냐는 해석도 있다. 점수 차이가 적음에도 불구하고 동일한 막대 높이로 표시돼 상대적 우위를 부각시키는 방식이 아니냐는 지적이다. 테크크런치는 "'GPT-4.1'은 SWE-벤치 기준으로만 보면 전작보다 향상된 결과를 보이지만 실제 활용 환경에서는 여전히 보완이 필요하다"고 평가했다.

2025.04.15 17:14조이환 기자

新 LLM 내놓은 메타, 벤치마크 모델 성능 조정 의혹…"일반 버전과 달라"

메타가 새 인공지능(AI) 모델 성능 테스트에 사용한 모델과 실제 일반 버전이 다른 정황이 포착됐다. 7일 테크크런치에 따르면 메타가 챗봇 성능을 비교하는 'LM 아레나' 테스트에서 2위를 차지한 모델 '매버릭'이 일반 매버릭 버전과 다르다는 의혹이 개발자들 사이에서 나왔다. 테스트 버전과 일반 개발자가 다운로드할 수 있는 버전 구성이 다른 셈이다. 현재 LM 아레나에 적용된 매버릭 버전은 '실험적인 챗 전용 버전'으로 명시됐다. 반면 배포용 버전은 정교한 대화 조정이 적용되지 않은 것으로 드러났다. 결과적으로 LM 아레나에 등록된 모델은 공개 모델보다 더 사람처럼 반응할 수 있도록 설계된 셈이다. 실제 사용 환경에서 두 버전은 성능 차이를 보일 수 있다. 다수 외신은 벤치마크용 모델과 실제 공개 모델이 다를 경우 생기는 혼란을 우려했다. 특정 벤치마크에 맞춰 성능 높인 모델이 실제로 제공되지 않거나, 동일한 이름으로 배포될 때 사용자 혼동이 발생한다는 지적이다. 실제 개발자들도 LM 아레나에 올라간 매버릭은 공개 다운로드 버전과 크게 다르다고 입을 모았다. LM 아레나에 올라간 버전은 이모티콘을 과도하게 쓰거나 응답이 지나치게 길었다는 의견이 이어졌다. 이들은 해당 버전이 대화 특화형 조정을 거친 것으로 파악했다. 미국 AI 정보 플랫폼 세마포어 관계자는 "메타가 테스트용 버전을 숨긴 채 일반 버전과 구분하지 않고 공개한 것은 큰 오해를 불러올 수 있다"며 "벤치마크는 다양한 작업에서 장단점을 파악할 수 있는 기준이 돼야 한다"고 지적했다.

2025.04.07 10:48김미정 기자

"GPU 72장 돌려야 답 나온다"…엔비디아, AI 추론 '끝판왕' 내놔

엔비디아가 복잡한 사고력 기반 AI 모델 확대에 맞춰 새로운 추론 성능 전략을 공개한다. 점점 더 많은 연산을 요구하는 AI 모델 등장에 따른 글로벌 평가 기준 변화에 선제 대응하려는 조치다. 3일 업계에 따르면 엔비디아는 지난 1일 정오 온라인으로 진행한 프리브리핑에서 AI 성능 벤치마크인 '엠엘퍼프(MLPerf)' 추론 AI 부문의 변화에 대응하기 위한 기술 전략을 공개했다. 이번 행사는 국제 컨소시엄 엠엘커먼스(MLCommons)가 '사고 기반 AI'인 추론 모델을 평가 항목에 포함하려는 움직임에 초점을 맞췄다. 엠엘퍼프는 AI 모델의 훈련(training)과 추론(inference) 성능을 하드웨어·소프트웨어 통합 기준으로 측정하는 글로벌 표준 벤치마크다. 엠엘커먼스가 주도하는 이 평가 항목은 업계 기술 흐름에 따라 주기적으로 갱신된다. 최근에는 단순 예측을 넘어 복잡한 추론과 의사결정을 요구하는 리즈닝 모델이 AI 기술의 중심으로 떠오르면서 해당 항목의 공식 도입 논의가 본격화되고 있다. 엔비디아는 아직 리즈닝 모델 항목이 공식 도입되지는 않았지만 차기 엠엘퍼프 버전에서는 채택 가능성이 높다고 판단하고 있다. 이를 선제적으로 대비하기 위해 회사는 중국의 AI 스타트업인 딥시크가 개발한 생성형 AI 모델을 활용해 복잡한 사고 기반 작업에서의 추론 성능을 시연했다. 이처럼 복잡한 추론 모델이 확산되면서 AI 추론 환경 전반에도 근본적인 변화가 일고 있다. 추론 연산량이 전례 없이 폭증하고 있는 상황에서 과거에는 단일 그래픽처리장치(GPU)나 단일 노드에서 충분했던 작업들이 이제는 다수 GPU를 동시 투입하는 복잡한 병렬 연산 없이는 처리할 수 없다는 것이 엔비디아의 분석이다. 이에 더해 추론 모델의 확산은 AI 개발의 모든 단계에서 연산 자원의 수요를 급격히 증가시키고 있다. 엔비디아는 모델 재학습(retraining), 도메인 맞춤화(post-training), 테스트 시점 확장(test-time scaling) 등에서 연산량이 기하급수적으로 늘고 있다고 분석했다. 특히 테스트 단계에서도 추론 정확도를 높이기 위한 병렬 연산 수요가 계속해서 증가하고 있다는 점을 강조했다. 이에 이날 엔비디아는 고성능 시스템 예시로 'GB200 MBL'을 제시했다. 해당 시스템은 총 72개의 GPU를 동시 연동하며 복잡한 추론을 빠르게 처리할 수 있도록 설계됐다. 회사는 이러한 대규모 병렬 환경이 향후 추론 표준이 될 것으로 보고 있다. 엠엘커먼스 역시 추론 모델을 엠엘퍼프의 공식 평가 항목에 포함하기 위한 논의를 본격적으로 시작한 상황이다. 현재 다양한 기술 커뮤니티와 협업을 통해 평가 기준과 워크로드 확장을 준비하고 있다. 공식 도입 시점은 아직 정해지지 않았으나 실증 사례와 모델 테스트가 계속 이어지고 있어 연내 도입이 확정될 가능성도 있다. 엔비디아 관계자는 "모델의 크기와 지능이 커짐에 따라 연산량이 모든 단계에서 폭증하고 있다"며 "재학습, 도메인 최적화, 테스트 시점 스케일링 모두 고성능 GPU를 요구한다"고 설명했다. 이어 "72개의 GPU처럼 다수의 칩을 동시에 작동시켜야 하는 이유가 바로 이 때문"이라고 덧붙였다.

2025.04.03 01:00조이환 기자

통신사가 만든 AI 모델, 벤치마크로 품질 평가

세계이동통신사업자연합회(GSMA)가 MWC25 개막을 앞두고 '오픈 텔코 LLM 벤치마크'를 출범한다고 밝혔다. 통신사들이 개발하고 있는 AI 언어 모델을 자체적으로 평가할 수 있는 도구를 내놓고 AI 서비스의 고도화를 이끌겠다는 전략이다. 25일(현지시간) GSMA에 따르면 오픈 텔코 LLM 벤치마크는 오픈소스 커뮤니티 형태로 AI 모델을 평가하기 위한 통신업계 최초의 프레임워크로 고안됐다. 공식 출범은 MWC25 기간에 이뤄질 예정이다. GSMA가 주도하고 주요 산업 파트너들이 지원하는 벤치마크를 통해 AI 모델을 실제 통신 사용 사례와 비교해 평가하게 된다. 산업 전반의 협력을 촉진시키고 통신 AI 서비스의 정확성,효율성, 안전성을 높이겠다는 전략이다. 루이스 파월 GSMA AI이니셔티브 책임자는 “현재 AI 모델은 통신사별 쿼리에 어려움을 겪으며 부정확하거나 오해 소지가 있거나 비현실적인 추천을 생성하는 경우가 많다”며 “벤치마크 세트로 AI 모델 성능을 향상시키는 것을 넘어 통신사의 AI가 안전하고 신뢰할 수 있고 실제 운영 요구 사항에 부합하도록 보장할 것”이라고 말했다. 이같은 오픈소스 이니셔티브 개발에는 허깅페이스와 리눅스재단 외에 국내 통신사인 SK텔레콤과 LG유플러스가 직접 참여했다.

2025.02.26 18:05박수형 기자

"AI, 역사 시험은 빵점"…거대언어모델, 전문 시험서 한계 드러내

인공지능(AI)이 고급 역사 질문에서는 신뢰할 만한 답변을 내놓지 못한다는 연구 결과가 나왔다. 21일 테크크런치에 따르면 오스트리아 연구기관 복잡성 과학 허브(CSH)는 최근 발표한 연구에서 'GPT-4', '라마', 구글 '제미나이' 같은 거대언어모델(LLM)들이 역사적 전문성을 테스트하는 벤치마크인 '히스트-LLM(Hist-LLM)'에서 낮은 성과를 보였다고 밝혔다. 가장 높은 성과를 보인 'GPT-4 터보'도 정확도가 46%에 불과했다. 이번 테스트는 '세샤트 글로벌' 역사 데이터베이스를 바탕으로 진행됐으며 고대 이집트와 같은 특정 역사적 상황을 포함한 고급 질문을 포함했다. 이 질문에서 LLM은 대부분의 질문에 대해 부정확하거나 과장된 답변을 내놓으며 한계를 드러냈다. 일례로 연구진은 고대 이집트에 특정 시기에 찰갑 갑옷이 존재했는지 물었다. 'GPT-4'는 "예"라고 답했지만 실제로 찰갑은 해당 시기로부터 1천500년 뒤에 등장했다. 또 다른 질문에서는 고대 이집트에 상비군이 있었는지를 물었으나 모델은 잘못된 정보를 바탕으로 "있었다"고 답했다. 연구팀은 이런 오류의 원인으로 AI가 널리 퍼진 데이터를 우선적으로 학습하는 특성을 지적했다. 페르시아 같은 제국의 상비군에 대한 정보가 풍부한 반면 고대 이집트와 같은 특정 시기와 관련된 희귀 데이터는 학습이 부족하다는 것이다. 또 AI 모델은 특정 지역에 대한 역사적 지식의 성능이 더 낮은 경향도 보였다. 특히 사하라 이남 아프리카와 같은 지역에 대한 데이터의 부족과 편향이 더 큰 문제로 작용했다. 연구진은 이번 결과가 LLM의 역사적 한계와 개선 가능성이 있다는 점을 동시에 보여준다고 강조했다. 향후에는 대표성이 부족한 지역의 데이터를 추가하고 보다 복잡한 질문을 포함하는 방향으로 기준을 개선할 계획이다. 피터 투르힌 CSH 교수는 "AI는 기본적인 역사적 질문에는 유용하지만 고급 질문에서는 아직 전문성을 갖추지 못했다"며 "향후 기술 개선을 통해 역사 연구를 보조할 수 있는 가능성은 충분하다"고 말했다.

2025.01.21 09:57조이환 기자

Prev 1 Next