챗GPT가 운전대를 잡으면…한 대는 겁쟁이, 한 대는 폭주족 됐다
같은 도로 위에 오픈AI(OpenAI) o3와 구글(Google) 제미나이(Gemini) 2.5 프로를 앉혔더니, 한쪽은 충돌이 단 한 번도 없었고 다른 한쪽은 네 번 중 한 번 꼴로 사고를 냈다. 2026년 3월 델프트공과대학교(Delft University of Technology) 연구진이 발표한 논문은 범용 대형언어모델(LLM, Large Language Model)이 인간 운전자처럼 판단할 수 있는지 실험한 결과를 공개했다. 범용 LLM 운전자 행동 모델이란 별도 학습 없이도 다양한 교통 상황에서 인간 운전자의 판단을 모사하는 AI를 말한다. 이 실험은 자율주행차(AV, Automated Vehicle)의 안전성을 가상으로 평가할 때 '사람처럼 반응하는 가상 운전자'로 LLM을 쓸 수 있느냐는, 앞으로 운전자 없는 차량 기술의 검증 방식을 좌우할 질문을 정면으로 건드린다. 같은 시나리오, 정반대의 운전 성격을 보인 두 AI 델프트공과대 연구진은 오픈AI o3와 구글 제미나이 2.5 프로에게 Y자 형태의 합류 도로에서 다른 차와 만나는 상황을 던졌다. 우선권이 정해져 있지 않은 합류 구간에서 누가 먼저 갈지, 누가 양보할지를 차량 움직임만으로 결정해야 하는 과제다. 흥미로운 점은 두 AI가 같은 과제에서 완전히 다른 '운전 성격'을 보였다는 사실이다. o3는 단 한 번도 충돌하지 않은 초보수 운전자였고, 제미나이 2.5 프로는 평균적으로는 인간과 비슷해 보였지만 위험한 순간에 실제로 부딪혔다. 같은 프롬프트, 같은 도로, 같은 조건에서도 어떤 LLM을 선택하느냐에 따라 운전 스타일이 극과 극으로 갈린 셈이다. 그림1. LLM 기반 운전자 에이전트 프레임워크 충돌률 0%와 25.45%, 숫자로 드러난 두 AI의 간극 논문이 제시한 수치는 두 모델의 차이를 선명하게 보여준다. 오픈AI o3의 충돌률은 0%로 인간 운전자의 2.83%보다도 낮았지만, 합류 시점의 평균 차량 간격은 9.28미터로 인간의 3.85미터보다 2.4배 넓었다. 반면 구글 제미나이 2.5 프로의 평균 간격은 3.84미터로 인간과 거의 같았지만, 충돌률은 무려 25.45%에 달했다. 네 번 중 한 번은 실제로 부딪혔다는 뜻이다. 숫자만 보면 제미나이가 '인간 같은' 운전자로 보이지만, 이는 평균값의 함정이다. 인간 운전자는 평균 3.85미터를 유지하면서도 충돌을 거의 내지 않는다. 평균이 비슷하다고 해서 운전 실력이 비슷한 것은 결코 아니다. o3 역시 속도 변화의 크기(초기 속도 대비 편차)가 1.34m/s로 인간의 0.66m/s보다 두 배 이상 컸고, 양쪽 운전자 모두 합류를 위해 속도를 크게 바꾼 비율이 94.5%로 인간의 53%보다 훨씬 높았다. 충돌을 피하려고 지나치게 과민하게 반응한다는 의미다. 공간은 읽지만 속도는 못 읽는 LLM의 공통 한계 두 모델 모두 인간처럼 '공간 단서'는 잘 읽었지만 '속도 단서'는 제대로 해석하지 못했다. 공간 단서란 합류 지점까지 남은 거리나 두 차 사이의 간격처럼 정적인 위치 정보를 뜻하고, 속도 단서는 상대방 차가 얼마나 빨리 다가오는지 같은 동적인 움직임 정보를 뜻한다. 인간 운전자는 상대 차가 빠르게 접근할수록 먼저 들어가기를 망설이지만, o3는 상대 속도에 유의미하게 반응하지 않았고(p=0.253) 제미나이 2.5 프로는 오히려 반대로 반응했다. 상대가 빨리 오면 더 먼저 끼어들려고 한 것이다. 연구진은 이 실패의 원인을 텍스트 기반 상태 표현의 한계로 추정한다. 숫자와 문장으로 변환된 속도 정보는 LLM이 시간 흐름 속에서 실시간으로 해석하기에 충분하지 않다는 뜻이다. 연구진은 프롬프트의 구성 요소를 하나씩 빼보는 실험(총 7가지)도 진행했는데, 같은 요소를 제거해도 모델마다 반응이 전혀 달랐다. o3에서 '과거 가속 계획'을 빼자 인간과 유사한 반응이 돌아왔지만, 같은 조작을 제미나이에 적용하자 오히려 충돌률이 16.36%로 낮아지는 대신 다른 지표가 무너졌다. 한 모델에 맞춘 프롬프트가 다른 모델에 옮겨 가지 않는다는 사실은, 'LLM 운전자 모델'이라는 하나의 범주로 묶어 다룰 수 없음을 시사한다. 자율주행 안전 평가 시장에 던지는 무거운 질문 이 연구가 겨냥하는 진짜 무대는 자율주행차 안전 평가 현장이다. 자율주행차를 실제 도로에 내놓기 전에 개발사와 규제 기관은 가상 시뮬레이션에서 수많은 위험 상황을 돌려본다. 이때 '주변에 있는 사람 운전자 역할'을 누가 맡느냐가 평가의 신뢰도를 좌우한다. 지금까지는 인간 행동을 정교하게 수식화한 기계적 모델이나 대규모 주행 데이터를 학습한 전용 모델이 이 역할을 했는데, 각각 유연성과 해석 가능성 사이에서 한계를 지닌다. 범용 LLM은 별도 학습 없이도 다양한 상황에 바로 투입할 수 있다는 매력 때문에 대안으로 주목받아왔다. 그러나 이 논문은 현재 시점에서 범용 LLM을 검증된 인간 운전자 모델로 간주하기는 어렵다고 결론짓는다. 일부 질적 패턴은 재현하지만, 운전의 핵심인 동적 판단과 안전 성능에서 일관성이 없기 때문이다. 자율주행차 기술에 투자하거나 관심을 두는 독자라면, 'AI가 AI를 평가하는' 구조에서 어떤 AI를 고르느냐가 결과를 얼마나 흔들 수 있는지 이 숫자들이 단서가 될 수 있다. 'AI가 인간처럼 운전한다'는 말의 함정 이 연구는 자율주행 업계가 종종 쓰는 '인간처럼 운전하는 AI'라는 표현이 얼마나 모호한지를 보여준다. 평균 지표가 인간과 가까운 것과 실제 상황마다 인간처럼 판단하는 것은 다른 문제다. 다만 실험은 1차원 단순 합류라는 매우 제한된 환경에서 진행됐고, 테스트한 반복 횟수도 인간 데이터(962회)에 비해 적다(o3 109회, 제미나이 82회). 2차원 합류나 차선 변경 같은 복잡한 상황에서는 결과가 달라질 가능성이 있다. 또한 이번 실험이 쓴 o3와 제미나이 2.5 프로는 2025년 중반 버전으로, 이후 공개된 모델들에서 속도 단서 해석 능력이 어떻게 달라졌는지는 별도 검증이 필요하다. 연구진 스스로도 "현재 범용 LLM의 유효성은 조건부이며, 더 풍부한 시나리오에서 추가 검증이 필요하다"고 선을 그었다. '어떤 AI가 가장 사람처럼 운전하는가'라는 질문에 성급한 답을 내기보다는, 모델마다 어떤 장면에서 무너지는지를 확인해가는 과정이 당분간 필요해 보인다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 범용 LLM을 실제 자율주행차에 직접 탑재하는 연구인가요? 아닙니다. 이 연구는 자율주행차를 직접 운전하는 AI를 만드는 연구가 아닙니다. 자율주행차를 가상 환경에서 시험할 때 '주변 차량을 모는 사람 운전자' 역할을 LLM이 대신할 수 있는지를 확인하는 연구입니다. 자율주행차의 안전성을 평가하려면 현실적인 주변 교통 상황이 필요한데, 그 안에 등장하는 '가상의 사람 운전자'를 LLM으로 구현할 수 있을지를 살핀 것입니다. Q2. o3가 충돌을 0% 기록했다면 가장 안전한 AI 운전자 아닌가요? 겉으로는 그렇게 보이지만 연구진은 o3를 '안전한 운전자'로 평가하지 않습니다. o3는 다른 차와 거의 2.4배 넓은 간격을 유지하고, 속도 변화도 인간보다 두 배 이상 커서 실제 도로에서는 비현실적입니다. 인간 운전자의 평가 기준은 사고가 없는 것만이 아니라 자연스럽게 흐르는 교통 속에서 적절한 간격과 속도를 유지하는 것이기 때문에, 지나치게 보수적인 o3는 '사람 같은 운전자'로는 부적합하다는 것이 이 연구의 관점입니다. Q3. 프롬프트를 잘 만들면 이 문제를 해결할 수 있지 않나요? 쉽지 않습니다. 연구진이 프롬프트 구성 요소를 하나씩 빼며 실험해 본 결과, 어떤 요소를 제거하면 특정 모델은 개선되지만 다른 모델은 오히려 나빠지는 현상이 관찰됐습니다. 즉 '모든 LLM에 통하는 좋은 프롬프트'는 존재하지 않으며, 모델마다 프롬프트에 반응하는 방식이 근본적으로 다릅니다. 이는 단순한 프롬프트 튜닝으로는 해결하기 어려운 구조적 한계로 볼 수 있습니다. 기사에 인용된 리포트 원문은 아카이브(arXiv)에서 확인할 수 있다. 리포트명: General-purpose LLMs as Models of Human Driver behavior: The Case of Simplified Merging ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)