대학 연구팀이 만든 AI, 채점 방식 바꿨더니 GPT-5 이겼다...의료 분야 세계 1등
AI 챗봇이 얼마나 똑똑한지 정확하게 평가하는 것은 여전히 어려운 문제다. 특히 "좋은 에세이를 써줘" 같은 정답이 정해지지 않은 질문에 AI가 얼마나 잘 대답했는지 판단하기 어렵다. 해당 논문에 따르면, 중국 전기차 기업 리 오토(Li Auto Inc.)와 중국 홍콩 중문대학교(The Chinese University of Hong Kong, Shenzhen), 저장대학교(Zhejiang University), 싱가포르 난양공과대학교(Nanyang Technological University) 공동 연구팀이 이 문제를 해결할 새로운 방법을 내놨다. 연구팀이 만든 '루브릭허브(RubricHub)'라는 평가 자료를 사용해 훈련한 AI 모델은 의료 분야 테스트에서 69.3점을 받아 오픈AI의 최신 모델 GPT-5(67.2점)를 제쳤다. 기존 AI 평가 방식의 한계, 세밀한 기준 부재가 문제 현재 대규모 언어모델(LLM)의 평가는 두 가지 방식으로 나뉜다. 수학이나 코딩처럼 정답이 명확한 분야에서는 검증 가능한 보상을 활용한 강화학습(RLVR)이 효과적이지만, 실제 사용자 질문의 대부분은 정답이 정해지지 않은 개방형이다. 기존 평가 기준(rubric)은 사람의 전문성에 의존하거나 특정 분야에만 국한되어 확장성이 떨어진다. 더 큰 문제는 평가 기준이 너무 포괄적이고 모호해서 우수한 응답과 뛰어난 응답을 구별하지 못한다는 점이다. 예를 들어 "시를 잘 썼는가"라는 기준만으로는 어떤 시가 진정으로 훌륭한지 판단하기 어렵다. 연구팀은 이러한 조악한 기준이 AI 훈련에 '천장 효과(supervision ceiling effect)'를 만들어 모델 개선을 가로막는다고 지적했다. GPT-5.1· 제미나이 3 프로 등 최신 AI 총동원해 평가 기준 만들었다 루브릭허브의 핵심은 단계적으로 점점 더 까다로운 평가 기준을 만드는 방법이다. 첫 번째 단계는 '원칙 기반 및 응답 기반 생성'이다. 질문만으로 기준을 만들면 너무 일반적이거나 실제 답변과 동떨어진 기준이 나올 수 있다. 연구팀은 실제 AI 응답을 참고하면서 일관성, 명확성, 평가 가능성 등의 메타 원칙을 적용해 구체적이고 관련성 높은 기준을 생성했다. 두 번째 단계는 '여러 AI 모델을 활용한다. 한 가지 AI만 사용하면 편향될 수 있어서 GPT-5.1, 제미나이 3 프로 같은 여러 최신 모델이 만든 기준을 합쳐서 균형을 맞췄다. 세 번째이자 가장 중요한 단계는 '난이도 진화'다. 보통 수준의 기준은 합격과 불합격은 구별하지만, 우수한 답변과 최고의 답변을 구별하지 못한다. 예를 들어 시험에서 80점과 100점 모두 '합격'으로만 평가하면 둘의 차이를 알 수 없는 것과 같다. 연구팀은 최고 수준의 답변 두 개를 비교 분석해서 미묘한 차이를 찾아냈다. 그래서 "코드가 제대로 작동하나요?"라는 단순한 기준을 "특수한 경우에도 빠르고 효율적으로 작동하나요?"처럼 훨씬 까다롭게 바꿨다. 11만 개 질문에 평균 30개 기준… 최고 AI도 60점밖에 못 받아 루브릭허브는 약 11만 개의 질문과 그에 맞는 평가 기준으로 이루어져 있다. 의료(Medical), 과학(Science), 지시 따르기(Instruction Following), 작문(Writing), 대화(Chat) 등 5개 주요 분야를 아우른다. 의료와 과학 분야가 각각 27.1%로 가장 큰 비중을 차지하며, 지시 따르기 20.9%, 작문 15.9% 순이다. 특히 작문과 의료 같은 복잡한 분야에서는 질문 하나당 평균 30개 이상의 세밀한 평가 기준을 제공한다. 이는 기존 데이터셋과 차별화되는 점이다. 더 중요한 것은 이 기준들의 변별력이다. 뛰어난 AI 모델인 Qwen3-235B도 평균 0.6점(만점 1점 기준) 정도밖에 못 받았다. 이는 루브릭허브의 기준이 충분히 어렵고, AI가 개선될 여지가 많다는 뜻이다. 의료 분야 69.3점으로 GPT-5(67.2점) 제치고 세계 1등 연구팀은 루브릭허브가 실제로 효과가 있는지 확인하기 위해 2단계 훈련 방법을 사용했다. 1단계 'RuFT(Rubric-based Rejection Sampling Fine-Tuning)'에서는 평가 기준을 필터로 써서 좋은 답변만 골라냈다. 하나의 질문에 대해 여러 AI 모델이 여러 개 답변을 만들면, 그중에서 평가 점수가 일정 기준(0.6점) 이상인 최고 답변만 훈련 자료로 사용했다. 2단계 'RuRL(Rubric-based Reinforcement Learning)'에서는 평가 기준 점수를 보상으로 활용해 AI를 더 발전시켰다. 각 평가 항목을 통과하면 가중치만큼 점수를 주고, 이 점수를 최대화하도록 AI를 학습시켰다. 이 방법을 Qwen3-14B 모델에 적용한 결과가 놀랍다. 의료 분야 HealthBench 테스트에서훈련 전 기본 상태(22.8점)에서 69.3점으로 46.5점 상승했고, GPT-5(67.2점)를 넘어선 69.3점으로 세계 최고 성능을 달성했다. 대화 능력을 측정하는 Arena-Hard V2에서도 기본 모델이 5.2점에 불과했는데 74.4점으로 급등했다. 사람 평가와 90% 일치, 대화 능력은 14배 상승 연구팀은 각 단계가 실제로 효과가 있는지 하나씩 확인했다. 기본 규칙을 적용하고 답변을 참고해서 기준을 만들자 의료 분야 AI 평가 벤치마크인 HealthBench 2.9점, LLMeval-Med에서 2.4점 올랐다. 여러 모델의 기준을 합치자 단일 모델 편향이 줄어들며 성능이 더 좋아졌다. 난이도를 높이는 3단계까지 완성하니 LLMeval-Med에서 79.5점까지 도달했다. 답변 후보를 1개에서 12개로 늘렸을 때도 훈련 데이터 품질이 63.45점에서 79.51점으로 향상돼 필터링 효과가 입증됐다. 또한 사람 평가자와 AI 채점 결과를 비교한 결과, 일정 규모(30B) 이상의 AI는 사람과 90% 이상 일치하는 판단을 내려 평가 기준의 신뢰성을 확인했다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 루브릭허브가 뭐고 왜 중요한가요? A. 루브릭허브는 AI 답변의 품질을 평가하는 약 11만 개의 까다로운 기준을 모아놓은 자료다. 기존 방식은 "괜찮은 답변"과 "최고의 답변"을 구별하지 못했는데, 루브릭허브는 30개 이상의 구체적 기준으로 미묘한 차이까지 포착해서 AI를 더 똑똑하게 훈련시킬 수 있다. Q2. 이 방법으로 훈련한 AI 성능은 어느 정도인가요? A. 루브릭허브로 훈련한 Qwen3-14B 모델은 의료 분야 테스트에서 69.3점을 받아 오픈AI의 최신 GPT-5(67.2점)를 이겼다. 대화 능력 테스트에서도 기본 모델 5.2점에서 74.4점으로 14배 이상 뛰어올라 효과가 확실히 입증됐다. Q3. 일반 사용자에게 어떤 의미가 있나요? A. 더 까다로운 기준으로 AI를 훈련하면 의료 상담이나 작문 도움처럼 정답이 없는 복잡한 질문에도 AI가 훨씬 신뢰할 만한 답변을 준다. 일상에서 AI를 더 안전하고 유용하게 쓸 수 있게 된다는 의미다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)