GPT-4, 게임실력은 어떨까...둠 실행시켜보니
사전학습 없이 GPT-4로 1인칭 슈팅 게임인 둠을 플레이하는 연구가 진행됐다. 연구 결과 기존 강화학습에 비해 낮은 성능을 기록했지만 추가 학습 없이도 스스로 게임을 진행하는 등 잠재적인 발전 가능성을 확인했다. 11일(현지시간) 더레지스터 등 외신에 따르면 마이크로소프트의 수석 응용 과학자이자 영국 요크 대학의 연구원인 아드리안 드 윈터는 연구 논문 'GPT-4가 둠을 플레이할 수 있을까(Will GPT-4 Run DOOM?)'를 아카이브를 통해 공개했다. 이번 연구는 GPT-4가 둠을 실행하고 플레이할 수 있는지에 대해 조사한 것이다. 대규모 언어 모델(LLM)이 복잡한 환경과 상호작용하며 계획하고 추론할 수 있는지를 탐구하기 위해 수행됐다. 고전 게임인 둠을 선택한 이유는 소스코드가 공개되어 활용이 쉽고, 다양한 분야에서 테스팅 툴로 사용되는 등 개발분야에서 널리 쓰이기 때문이다. 이에 연구팀은 GPT-4가 둠을 플레이하는 능력을 수치화해 이를 LLM의 추론 및 계획 능력을 측정하는 비공식 벤치마킹 수치로 활용하는 방안도 제시했다. 연구팀은 테스트를 진행하기전 GPT-4에 별도의 학습 등은 진행하지 않았다. 대신 GPT-4가 게임의 시각적 상태를 이해할 수 있도록, 게임의 이미지나 스크린샷을 텍스트 설명으로 변환했다. 텍스트 설명은 게임 내의 객체, 상황, 적의 위치 등 게임 상태에 대한 정보를 제공한다. 또한 GPT-4에서 생성한 텍스트가 게임 내 액션으로 변환할 수 있도록 별도의 툴을 개발해 적용했다. 조사 결과 연구팀은 GPT-4의 추론 및 계획 능력이 둠을 실행하고 몇 가지 기본 지침과 게임 상태에 대한 텍스트 설명만으로 게임을 플레이할 수 있음을 발견했다. GPT-4는 게임을 클리어하진 못했지만 문을 열고, 적과 싸우며, 경로를 따라 목표를 찾아갈 수 있었다. 게임 실행 중 보다 복잡한 목표를 수행할 수 있도록 프롬프트를 입력한 결과 이를 상당 부분 수행할 수 있는 것도 확인했다. 연구팀은 게임에 주로 활용하던 강화 학습에 비해 GPT-4가 더 나은 결과를 기록하진 못했지만 몇 가지 잠재적 이점을 가지고 있다고 밝혔다. 사전 훈련된 지식을 기반으로 행동하는 만큼 새로운 작업이나 도메인에 빠르게 적용할 수 있으며 프롬프트를 이용한 미세조정으로 목표를 조정하거나 성능을 유지할 수 있다는 장점이 있다. 또한 복잡한 문제 상황에서 추론을 수행하고, 여러 단계에 걸쳐 목표를 달성하기 위한 계획을 세울 수 있어 전략적 사고나 장기 계획이 요구되는 분야에 유리할 것으로 연구팀은 분석했다. 아드리안 드 윈터 연구원은 “강화학습에 비해 성능이 다소 낮게 나왔지만 GPT-4가 사전 교육 없이도 자체 추론 및 관찰 능력만으로 둠을 플레이할 수 있다는 점이 놀랍다”며 “이를 활용한다면 강화학습과 LLM의 방식을 보완하거나 향상시킬 수 있을 것으로 기대된다”고 말했다.