[인터뷰] AWS는 생성형AI 환각 어떻게 극복하고 있나
[라스베이거스(미국)=김미정 기자] "기업은 인공지능(AI) 모델을 선택할 때 정확도와 비용, 속도를 가장 많이 봅니다. 이중 정확도가 낮으면 나머지는 무용지물입니다. '아마존베드락'에 자동화 추론 기능을 추가한 이유입니다. 이는 타사 AI 시스템에 없는 정확도 측정 기술입니다. 이 기술은 답변 정확도 측정뿐 아니라 명확한 답변을 위한 명령어까지 추천합니다." AWS 셰리 마커스 생성형 AI 기술개발 총괄은 2~6일 미국 라스베이거스에서 열린 'AWS 리인벤트'에서 인터뷰를 통해 이같이 밝혔다. 마커스 총괄은 AWS 생성형 AI 제품 뒷단에 들어가는 가드레일, 에이전트, 검색증강생성(RAG) 등 기술 개발을 총괄하고 있다. 그는 '아마존베드락 추론 체크 자동화' 기능을 설명했다. 이번 AWS 리인벤트에서 처음 소개된 기능이다. 이 기술은 생성형 AI가 사용자 질문에 대한 답에 오류가 있는지 수학적으로 평가하고 명령어를 교정해 줄 수 있다. 해당 기능은 답변에 핵심 참조 내용이 포함됐는지, 질의 내용과 답변이 통일성 있는지, 답변과 질문 관련성이 얼마나 높은지를 동시에 측정한다. 답변에 오류가 섞이거나 답변 품질이 일정 기준 미만이면 사용자에게 답을 제공하지 않는다. 또 정확한 답변을 생성하기 위한 프롬프트를 사용자에게 추천해 주기도 한다. 자체적으로 명령어가 부실하다고 평가됐을 때 추가 정보를 요구하기도 한다. 마커스 총괄은 "생성형 AI를 통한 답변 정확도는 프롬프트 내용에 달렸다"며 "단순히 답변 수준을 체크하는 것을 넘어 프롬프트까지 교정해 준다"고 강조했다. 앞서 AWS는 아마존베드락 내 AI 모델에서 발생할 수 있는 환각현상 극복을 위해 노력해 왔다. 지난 8월 미국 뉴욕서 열린 AWS 행사에서 생성형 AI 결과물에 정확도 점수를 매기는 문맥 그라운딩 체크를 아마존베드락에 탑재한 바 있다. 베드락이 답변에 신뢰성·정확성 점수를 자체적으로 매겨 답변 품질을 평가하는 식이다. 마커스 총괄은 "문맥 그라운딩 체크는 답변 품질만을 평가하지만 신규 기능은 정확도 높은 답변을 위한 프롬프트까지 추천해 준다"며 "타사 AI 플랫폼에선 제공되지 않는 독보적 기능"이라고 설명했다. 이어 "고객은 의료, 금융, 방산 등 미션 크리티컬한 애플리케이션에 생성형 AI를 적용할 때 이 기능을 유용하게 사용할 것"이라며 "향후 아마존베드락 유스케이스가 늘어날 것으로 본다"고 내다봤다. "갓 태어난 '아마존 노바' 성능 객관적으로 증명할 것" 마커스 총괄은 이번 리인벤트서 공개된 새 AI 모델 시리즈 '아마존 노바'와 모델 신뢰성 향상을 위한 방안을 공유했다. 그는 "아마존 노바는 자사 거대언어모델(LLM) '타이탄' 확장판"이라며 "성능을 객관적으로 증명할 수 있도록 노력할 것"이라고 강조했다. 마커스 총괄은 노바를 비롯한 AI 모델 성능 검증 방식을 바꿔야 한다고 주장했다. 그동안 벤치마크 점수로 모델을 평가하는 시대는 끝났다는 설명이다. 대신 모델에 고객 데이터를 넣은 후 성능 평가하는 것이 진정한 성능 검증이라고 강조했다. 그는 "고객이 기대하는 정확성을 충족시키기 위해서는 모델 자체 성능만을 검증하면 안 된다"며 "고객 데이터를 모델에 넣고 정확도와 신뢰도를 측정해야 진짜다"고 재차 강조했다. 현재 마커스 총괄은 정확한 모델 성능 비교를 할 수 있는 도구를 개발하는 것을 목표로 잡았다. 그는 "고객은 AI 모델을 선택할 때 속도와 비용, 정확도를 가장 많이 본다"며 "이를 기준으로 성능 비교 가능한 도구 개발에 힘쓸 것"이라고 말했다.