"수능 1등이 일을 제일 잘 하나...LLM 평가 관점 다양해야"
[바르셀로나(스페인)=박수형 기자] 정부의 독자 AI 파운데이션 모델 개발 프로젝트에서 벤치마크 점수와 함께 실제 산업에서 활용될 수 있는 모델을 중요하게 살펴야 한다는 의견이 제기됐다. 정석근 SK텔레콤 AI CIC장은 스페인 바르셀로나에서 열린 MWC26 현장에서 기자들과 만나 “수능을 제일 잘 본다고 일을 제일 잘 하는 것은 아니다”며 “정부가 엑사원이 제일 좋다고 얘기했지만 모든 분야, 실생활에서 특히 산업에서 쓰기에 그게 가장 모델이라고 보이지는 않는다”고 말했다. 정 CTO는 “LLM 성능을 평가하는 기준은 매우 다양하다”며 “현재 경연 특성상 벤치마크 점수로 평가하고 있지만, 하나의 기준만 갖고 적절하지 않아 (다양성을 추구하는) 그런 관점에서 봐야 된다고 본다”고 강조했다. 과거 대입 시험을 학력고사나 수능 점수 한 번에 따지는 게 아니라 정시와 수시 등 여러 절차를 사례로 들기도 했다. 그는 또 “3개 회사가 각자의 특징을 가지고 해야 된다라고 생각한다”며 “벤치마크라고 하는 어떤 주어진 문제를 누가 제일 잘 푸느냐를 가지고 끝장을 봤을 때, 또 과연 그게 그러면 그걸 3강에 들어간다고 하면 전 세계 AI 3강이냐 할 때 그렇게 보이지는 않는다”고 말했다. 이어, “평가라는 게 자칫 잘못해 어려운 문제를 푸는 데가 오히려 더 어려운 시험을 보게 되는, 어려운 모델을 만든 데가 더 어려운 시험을 보게 되는 건 좀 이상한 것 같다”며 “그렇다고 해서 쉬운 문제를 가지고 그 문제만 족보만 달달 외워서 그 시험을 잘 보는 게 과연 우리가 지향하는 목표냐 그건 좀 의문은 있다”고 덧붙였다. 그러면서 ”정부에서도 그런 것들을 고려한 평가 기준이 고려했으면 좋겠다고 생각한다“며 ”저희는 그런 면에서 실제로 저희가 잘 쓸 수 있는 SK텔레콤이 그리고 SK하이닉스 혹은 그 외에 산업 현장에서 잘 쓸 수 있는 모델을 만드는 데 집중하려고 한다“고 했다.