GPT-5, 공간 감각 테스트했더니…"거리 측정은 사람보다 정확"
오픈AI(OpenAI)에서 내놓은 GPT-5가 '공간을 이해하는 능력'에서 놀라운 발전을 보였지만, 여전히 사람만큼은 못 한다는 연구 결과가 나왔다. 홍콩 인공지능 회사 센스타임 연구소에서 진행한 대규모 실험에 따르면, GPT-5는 공간 이해 분야에서 지금까지 나온 AI 중 가장 뛰어난 성능을 보여줬지만, 여러 작업에서 사람의 능력에는 아직 미치지 못하는 것으로 나타났다. 10억 개 데이터로 테스트했지만, 여전히 부족한 AI의 공간 이해력 공간을 이해한다는 것은 3차원 공간에서 물체의 위치나 모양, 움직임을 파악하고 생각하는 능력을 말한다. 이는 진정한 인공지능을 만들기 위해 꼭 필요한 핵심 능력이다. 연구진은 이번 연구를 위해 10억 개가 넘는 데이터를 사용해 8개의 주요 테스트에서 최신 AI 모델들을 평가했다. 연구 결과, GPT-5는 '크기 측정'과 '위치 관계 파악' 분야에서 사람 수준의 성능을 보였다. 특히 거리를 재는 일에서는 사람과 비슷한 수준을 보였고, 물체 크기나 방 크기를 추정하는 일에서는 오히려 사람보다 더 정확했다. 이는 GPT-5가 많은 학습을 통해 공간에 대한 감각을 익혔음을 보여준다. 하지만 '머릿속으로 모양 만들기', '시점 바꿔 생각하기', '물체 변형하고 조립하기', '복합적 추론하기' 같은 복잡한 작업에서는 여전히 사람과 큰 차이를 보였다. 연구진은 "GPT-5가 기본적인 공간 계산에서는 사람과 비슷하거나 더 뛰어나지만, 복잡하고 변화가 많은 추론 작업에서는 여전히 사람보다 부족하다"고 설명했다. 일부 테스트에서는 우수하지만, 어려운 테스트에서는 여전히 고전 연구진이 실시한 8개 테스트 중 VSI-Bench에서 GPT-5는 가장 좋은 성과를 거뒀다. 특히 크기나 거리를 재는 부분에서 사람과 AI 사이의 성능 차이를 크게 줄였으며, 거리 측정에서는 사람과 같은 수준을, 물체와 방 크기 추정에서는 사람보다 나은 결과를 보였다. SITE 테스트에서도 GPT-5는 다른 모든 공개 AI 모델을 크게 앞섰고, 여러 시점에서 이미지를 비교하는 작업에서 강한 실력을 보였다. 물체 개수 세기, 3차원 정보 이해, 공간 관계 파악에서는 사람 수준의 성능을 달성했다. 반면 MMSI 테스트에서는 유료 AI 모델과 무료 공개 모델 간 차이가 별로 없었으며, 전체적으로 사람 수준에 훨씬 못 미치는 결과를 보였다. 특히 시점을 바꿔서 생각해야 하는 작업에서 뚜렷한 한계를 드러냈다. 연구진은 "현재 AI 모델들이 특정 물체 옆에 서서 그 물체의 관점에서 생각해야 하는 작업에서 지속적인 약점을 보인다"고 지적했다. GPT-5의 '생각하는 방식'별 성능 차이, '보통' 수준이 가장 효율적 흥미롭게도 연구진이 GPT-5의 다양한 '생각하는 방식'을 테스트한 결과, 재미있는 패턴을 발견했다. 최소, 낮음, 보통, 높음의 4단계 생각 방식 중 '보통' 방식에서 56.78%로 가장 높은 정확도를 기록했다. '높음' 방식에서는 118개 문제 중 28개가 15분 시간 제한을 넘기거나 처리할 수 있는 데이터 양을 초과해서 52.54%의 정확도를 보였다. 하지만 이런 실패를 제외하면 68.89%의 정확도로 가장 우수한 성과를 보였다. 연구진은 "높음 방식이 보통 최고 성능을 보이지만, 훨씬 많은 시간과 비용이 들고 시간 초과 위험을 신중히 고려해야 한다"며 "보통 방식이 성능과 비용 면에서 더 균형 잡힌 선택"이라고 분석했다. 비싼 AI와 무료 AI, 가장 어려운 문제에서는 비슷한 수준 연구 결과 중 놀라운 점은 비싼 유료 AI 모델들이 가장 어려운 공간 이해 과제에서는 무료 공개 모델들보다 크게 뛰어나지 않았다는 것이다. 특히 머릿속으로 모양 만들기, 시점 바꿔 생각하기, 물체 변형하고 조립하기, 복합적 추론하기 같은 가장 도전적인 영역에서는 유료 모델의 장점이 사라졌다. MMSI, OmniSpatial, STARE, SpatialViz 같은 테스트에서 유료 모델과 무료 모델 모두 비슷한 성능을 보였으며, 사람 수준에는 훨씬 못 미쳤다. 연구진은 "가장 어려운 작업에서 이런 비슷함은 연구자들이 무료 공개 모델을 바탕으로 발전을 이룰 수 있는 좋은 기회를 제공한다"고 평가했다. 이는 현재 가장 앞선 AI 모델들조차 공간 이해의 근본적인 어려움 앞에서는 비슷한 한계를 보인다는 뜻이다. 특히 3차원 공간에서의 복잡한 생각과 여러 단계의 논리적 추론이 필요한 작업에서는 모델의 가격이나 크기보다는 근본적인 구조와 학습 방법의 개선이 필요함을 보여준다. FAQ Q1: GPT-5가 공간을 이해하는 능력에서 사람 수준에 도달했다고 볼 수 있나요? A1: 일부분에서만 그렇습니다. GPT-5는 크기 측정이나 위치 관계 파악에서는 사람 수준에 도달했지만, 머릿속으로 모양 만들기, 시점 바꿔 생각하기, 물체 변형하고 조립하기 등 더 복잡한 공간 이해 작업에서는 여전히 사람보다 상당히 떨어집니다. Q2: 공간을 이해하는 능력이 인공지능에게 중요한 이유는 무엇인가요? A2: 공간을 이해하는 능력은 3차원 공간에서 물체의 위치, 모양, 움직임을 파악하고 생각하는 능력으로, 로봇, 자율주행차, 증강현실 등 실제 물리적 세계에서 작동하는 AI 시스템에 꼭 필요합니다. 또한 진정한 인공지능을 만들기 위한 핵심 요소로 여겨집니다. Q3: GPT-5의 생각하는 방식 중 어떤 것이 가장 효율적인가요? A3: 연구 결과에 따르면 '보통' 방식이 가장 균형 잡힌 성능과 비용을 제공합니다. '높음' 방식에서 가장 높은 정확도를 보이지만 시간 초과 위험과 높은 비용을 고려할 때, '보통' 방식이 실용적인 최선의 선택으로 평가됩니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)