"사람100점·최첨단 AI 60점"...시야각 회전시키면 못 푸는 비전 LLM
테이블에서 시작해 오른쪽으로 90도 돌고, 다시 왼쪽으로 180도 돌면 무엇이 보이는가. 초등학생도 풀 수 있는 이 문제를 챗GPT(ChatGPT)나 클로드(Claude) 같은 최첨단 AI에게 글로 묘사해 던지면, 절반 정도밖에 못 맞힌다. 베이징이공대 연구진이 2026년 4월 발표한 해석가능성 논문에 따르면, 사람은 100% 정확도를 보이는 텍스트 시점 회전 이해(VRU, Viewpoint Rotation Understanding) 과제에서 SOTA(State-of-the-Art, 최고 성능) 모델인 큐원3-VL-32B(Qwen3-VL-32B)도 약 70% 수준에 그쳤다. 시점 회전 이해란 글로 주어진 회전 동작 여러 단계를 머릿속에서 시뮬레이션해 마지막에 무엇이 보이는지를 추론하는 능력이다. AI가 일상 명령을 공간적으로 해석해야 하는 로봇, 가상현실, 자율주행에서 이 빈틈은 곧 사고로 이어진다. ■ 사람 100점 대 최첨단 AI 60점, 17개 모델 일제 평가 연구팀은 자체 제작한 1만 9591개 시나리오 데이터셋 VRU벤치(VRUBench)에서 LLM 8종과 VLM 7종, 총 15종 모델을 평가했다. 라마2-7B(LLaMA2-7B)는 평균 18.9%, 큐원2.5-7B(Qwen2.5-7B)는 41.89%, 큐원3-8B(Qwen3-8B)는 41.02%로 절반에도 못 미쳤다. 모델 크기를 키운 큐원2.5-32B는 72.84%까지 올라왔지만, 같은 사람이 단 한 번도 틀리지 않는 100% 기준선과는 여전히 30점 가까이 벌어졌다. 가장 최근 모델인 제미나이3 플래시(Gemini3-Flash)에 사고(thinking) 모드를 켰을 때만 평균 86.32%로 올라왔고, 큐원3-VL-32B에 사고 모드를 켜면 96.55%까지 도달했다. 이 데이터가 의미하는 바는 분명하다. AI는 이미지 한 장 없이 단순한 좌우 회전 문장만 따라가는 일조차 사고 과정을 강제로 켜야 겨우 사람 수준에 근접한다는 것이다. ■ 시각 학습이 텍스트에도 도움, 듀얼 코딩 이론과 일치 이번 논문에서 가장 흥미로운 발견은 같은 크기의 LLM과 VLM(Vision-Language Model, 이미지와 텍스트를 함께 학습한 모델)을 비교했을 때 나온다. 큐원2.5-VL-7B는 48.67%인 반면 같은 뼈대를 공유하는 큐원2.5-7B는 41.89%였다. 추론 시점에는 양쪽 모두 글자만 입력받는데도, 학습 단계에서 이미지를 본 모델이 글자만으로 공간을 추론하는 능력에서 더 앞섰다. 연구진은 이것을 인지심리학의 듀얼 코딩 이론(Dual-Coding Theory)과 연결지었다. 듀얼 코딩 이론이란 인간이 언어와 시각을 별개의 통로로 처리하지만 두 통로가 서로 강화한다는 가설이다. 차이가 7점 정도로 작아 보일 수 있지만, 시각 데이터를 학습 과정에 한 번 거치게 하는 것만으로 텍스트 공간 추론이 일관되게 좋아진다는 사실은 설계자에게 보내는 신호다. 모델을 글자만으로 학습시키는 것은 비용은 적지만 공간감각이라는 복지를 포기하는 셈이다. ■ 방향과 각도는 99% 정확, 그런데 '내 위치'를 모르는 AI 연구팀은 모델이 왜 이렇게 못 푸는지를 알아보기 위해 레이어별 프로빙(layer-wise probing) 분석을 수행했다. 프로빙이란 모델 안쪽 각 층에 어떤 정보가 담겨 있는지를 별도 분류기로 알아내는 해석가능성 기법이다. 결과는 의외였다. AI는 매 단계마다 '왼쪽 90도', '오른쪽 180도' 같은 방향과 각도 정보를 99% 이상 정확하게 표현하고 있었다. 무너지는 지점은 그다음이다. 회전을 누적해 '지금 내가 어느 방향을 보고 있는가'에 해당하는 절대 방향(absolute orientation) 정보는 초중반 레이어(1-20층)에서 잠시 또렷해졌다가 후반 레이어(21-28층)에서 다시 흐려졌다. AI는 회전 동작 하나하나는 정확히 알아듣지만, 그것을 누적해 자기 위치를 갱신하고 그 위치에 대응하는 사물을 골라내는 결합 단계에서 환각을 일으킨다. 방향과 각도라는 부품은 만들었지만 위치라는 조립품을 끝까지 들고 가지 못한 것이다. ■ 답을 정하는 어텐션 헤드 3개의 정체 연구팀은 후반부 레이어에서 무슨 일이 벌어지는지를 보기 위해 패스 패칭(path patching)이라는 인과 개입 기법을 적용했다. 패스 패칭이란 특정 어텐션 헤드의 활성값을 다른 입력의 값으로 바꿔치기해 모델 출력에 미치는 인과 영향을 측정하는 기법이다. 큐원2.5-VL-7B 모델 안에서 시점 회전 이해를 좌우하는 핵심 어텐션 헤드는 단 몇 개에 불과했고, 모두 21층에서 28층 사이에 모여 있었다. 22.1번 헤드는 입력에 등장한 모든 후보 답안에 골고루 주의를 기울이는 '제안 헤드(Proposal Head)'였다. 26.14번 헤드는 그중 하나를 골라 집중도를 끌어올리는 '답변 결정 헤드(Answer Decision Head)' 역할을 했다. 즉 모델은 후반부에서 위치 인식을 멈추고 답 고르기 모드로 전환되는데, 이 전환이 매끄럽지 못해 잘못된 사물을 답으로 내놓는다는 것이다. 그런데 진짜 문제의 헤드는 따로 있었다. ■ '몰라요'를 강요하는 27.14번 헤드와 정렬 학습의 부작용 27.14번 헤드는 답이 이미 결정된 뒤에도 'unknown(모름)' 토큰에 강하게 주의를 기울이는 특이한 헤드였다. 영어 unknown을 중국어 不知道로 바꿔도 같은 패턴이 재현됐고, 의미 없는 다른 단어로 바꾸면 패턴이 사라졌다. 즉 이 헤드는 단순히 특정 단어를 좋아하는 것이 아니라 '잘 모를 땐 모른다고 답해라'라는 행동을 학습하고 있었다. 이 헤드를 제거하자 모델이 'unknown'이라고 답하는 비율이 65.78%에서 40.73%로 급락했다. 연구진은 이를 정렬 학습(alignment training)의 부작용으로 해석했다. 정렬 학습이란 AI가 거짓말 대신 모른다고 답하도록 후처리 학습시키는 안전장치다. 그런데 이 안전장치가 공간 추론에서는 자신감을 과도하게 떨어뜨려, 추론을 끝까지 밀고 가지 못하고 중간에 'unknown'으로 도망치게 만든 셈이다. 안전을 위해 가르친 겸손함이 능력의 천장을 만든 것이다. ■ 핵심 헤드 32개만 골라 학습, GPU 50%로 30점 끌어올려 연구진은 이 발견을 바탕으로 핵심 헤드 32개의 파라미터만 미세조정(selective fine-tuning)하는 실험을 진행했다. 큐원2.5-VL-7B의 시점 회전 정확도는 48.7%에서 78.7%로 30점 올랐고, GPU 시간은 모델 전체를 학습할 때의 절반만 들었다. 더 중요한 점은 일반 능력 손실이 거의 없었다는 것이다. 모델 전체를 학습한 풀 SFT는 시점 회전을 96.3%까지 끌어올렸지만 일반 추론 벤치마크 BBH 점수가 49.2점에서 35.8점으로 13.4점이나 떨어지는 파국적 망각(catastrophic forgetting)을 겪었다. 반면 핵심 헤드만 골라 학습한 경우 BBH 손실은 0.8점에 그쳤다. 또한 텍스트로만 학습했음에도 시각 공간 데이터셋 스핀벤치(SpinBench)에서 점수가 함께 올랐다. 이는 텍스트 학습이 시각 능력에도 전이된다는 본 논문의 두 번째 시사점(Takeaway II)을 뒷받침한다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 시점 회전 이해(VRU)가 왜 중요한가요? 시점 회전 이해는 사람이 머릿속으로 공간을 회전시켜 그려보는 능력에 해당합니다. 로봇이 사람의 자연어 지시를 따라 움직이거나, 자율주행차가 음성 안내를 해석할 때, 가상현실 비서가 사용자 시점을 추적할 때 이 능력이 필수적으로 요구됩니다. 사람에게는 너무 쉬워서 잘 보이지 않는 빈틈이 AI에게는 큰 사고로 이어질 수 있습니다. Q2. 사고(thinking) 모드를 켜면 정확도가 올라가는데, 그냥 항상 켜놓으면 되지 않나요? 사고 모드는 모델이 답하기 전에 단계별로 추론하는 방식이라 응답 시간이 몇 배 길어지고 비용도 늘어납니다. 그리고 본 논문에서 다룬 핵심은 사고 모드 없이 즉답을 요구했을 때 모델 내부에서 어떤 메커니즘 결함이 일어나는지를 밝히는 것입니다. 사고 모드를 켠다고 결함이 사라지는 것이 아니라 다른 경로로 우회하는 셈입니다. Q3. 핵심 어텐션 헤드만 학습시키는 방법은 일반 사용자에게 어떤 의미가 있나요? 이 방식이 보편화되면 AI 서비스 개발사가 비용을 크게 줄이면서도 특정 능력만 강화한 모델을 만들 수 있게 됩니다. 예를 들어 공간 인식이 중요한 로봇 비서, 수학 추론이 중요한 학습 도우미처럼 분야별로 특화된 모델을 더 빠르고 저렴하게 출시할 가능성이 열립니다. ▶ 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. 리포트명: How Do LLMs and VLMs Understand Viewpoint Rotation Without Vision? An Interpretability Study ▶이미지 출처: AI 생성 콘텐츠 ▶ 해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)