"나는 로봇이 아닙니다" 무너지다…AI가 캡차 83.9%까지 풀어냈다
"나는 로봇이 아닙니다"를 클릭하게 하고, 신호등을 고르게 하고, 바둑돌 패턴을 맞추게 만드는 캡차(CAPTCHA)는 인간과 봇을 구별하려고 설계된 보안 장치다. 그런데 그 장치를 AI가 직접 풀기 시작했다. 컬럼비아 대학교(Columbia University) 컴퓨터과학과 연구팀이 2025년 11월 발표한 논문에 따르면, 단계적 추론 과정을 밟는 AI 에이전트가 7가지 유형의 캡차에서 평균 83.9%의 정확도를 달성했다. 캡차가 AI를 막기 위해 설계됐다는 전제가 흔들리고 있다. 그림3. 비전 언어 모델 파이프라인 캡차가 AI를 막는다는 전제의 균열 캡차(CAPTCHA)란 "완전 자동화된 공개 튜링 테스트(Completely Automated Public Turing Test to tell Computers and Humans Apart)"의 약자로, 사람은 풀 수 있지만 기계는 풀기 어려운 문제를 제시해 봇을 걸러내는 기술이다. 초창기 캡차는 흐릿하게 왜곡된 텍스트를 읽게 했지만, 컴퓨터 비전 기술이 발전하면서 기계도 이를 해독하게 되자, 최근에는 바둑판 위의 패턴 완성, 아이콘 찾기, 공간 위치 파악 같은 훨씬 복잡한 시각적 공간 추론 과제로 진화했다. 연구팀은 기존 캡차 벤치마크(benchmark, AI 성능을 비교하는 기준 테스트)에 결정적인 공백이 있다는 점을 발견했다. 지금까지 대부분의 연구는 AI가 캡차를 맞혔는지 틀렸는지만 기록했을 뿐, 어떤 추론 과정을 거쳐 정답에 도달했는지는 분석하지 않았다. 연구팀은 이 공백을 메우기 위해 CAPTCHA-X를 개발했다. CAPTCHA-X는 지트테스트 고뱅(GeeTest Gobang), 구글 리캡차(Google reCAPTCHA V2), hCaptcha 등 7가지 유형의 실제 캡차 1,839개 문제로 구성된 최초의 추론 주석(annotation) 포함 벤치마크다. 문제마다 단계별 풀이 과정과 마우스 클릭 좌표가 함께 기록되어 있어, AI가 정답을 맞혔는지뿐 아니라 어떻게 생각했는지까지 평가할 수 있다. 그림1. AI가 바둑판 형태의 캡차를 풀며 생성한 추론 단계와 마우스 클릭 경로를 시각화한 이미지 추론 없이는 15.7%, 추론이 붙으면 38.75% 도약 컬럼비아 대학교 연구팀의 실험에서 가장 충격적인 수치는 15.7%다. 추론 없이 캡차 이미지를 보고 바로 답을 출력하도록 했을 때, 제미나이(Gemini), 클로드(Claude), GPT 등 주요 상용 시각-언어 모델(VLM, Vision-Language Model)의 평균 정확도가 고작 15.7%에 머물렀다. 시각-언어 모델이란 이미지와 텍스트를 동시에 처리할 수 있는 AI 모델을 가리킨다. 실험 결과는 캡차가 아직 AI의 상당한 장벽으로 작동한다는 것을 보여주는 동시에, 그 장벽이 어디서 뚫리는지도 함께 드러냈다. AI에게 답을 바로 내놓지 말고 단계적으로 생각한 뒤 최종 클릭 좌표를 출력하도록 유도하자, 평균 정확도가 38.75% 상승했다. 통계적으로 유의미한 개선임을 연구팀은 맥네마 검정(McNemar's test, p < 0.001)으로 확인했다. 단순히 더 많이 맞힌 것에 그치지 않았다. 클릭 위치의 공간 오차(L2 거리, 예측 위치와 정답 위치 사이의 픽셀 거리)도 14.6% 줄어들었다. 추론이 정확도와 위치 정밀도를 동시에 끌어올린 것이다. 이것이 매일 수천 건의 자동화 요청을 처리하는 시스템에 누적되면, 보안 방어선의 실질적인 약화로 이어질 수 있다. 모델별로 살펴보면 제미나이-2.5-프로(Gemini-2.5-Pro)가 모든 카테고리에서 가장 높은 정확도와 가장 작은 공간 오차를 기록하며 상용 모델 중 1위를 차지했다. 클로드-4-오퍼스(Claude-4-Opus)는 추론의 질과 복잡성 측면에서는 2위를 기록했지만, 주어진 추론 길이 대비 정확도 효율은 하위권에 머물렀다. 추론을 잘한다고 해서 반드시 효율적으로 추론하는 것은 아니라는 점을 보여주는 결과다. 어려운 문제일수록 추론 효과가 더 크다 컬럼비아 대학교 연구팀이 이번 논문에서 발견한 '추론 스케일링 법칙(Reasoning Scaling Law)'은 AI 성능 예측에 새로운 기준을 제시한다. 추론 스케일링 법칙이란 AI의 추론 능력과 문제 풀이 성능 사이에 예측 가능한 수학적 관계가 존재한다는 개념이다. 연구팀은 세 가지 패턴을 발견했다. 첫째, 추론의 깊이와 추론의 길이, 사고 경로의 복잡성 사이에는 선형(linear) 비례 관계가 있었다. 추론을 잘할수록 더 길고 복잡하게 생각하며, 그것이 정확도로 이어진다. 둘째, 추론 효율성과 정확도 사이에는 초선형(superlinear) 관계가 나타났다. 조금 더 효율적으로 추론하는 모델이 최종 성능에서는 훨씬 큰 차이를 벌린다는 의미다. 셋째이자 가장 반직관적인 패턴은 '난이도-성능 향상 스케일링'이다. 문제가 어려울수록 추론을 추가했을 때 얻는 성능 향상 폭이 훨씬 커졌다. 스피어만 상관 분석(Spearman's rank correlation) 결과 ρ = 0.93, p = 0.0025로 통계적으로 매우 강한 관계가 확인됐다. 일상으로 치환하면 이렇다. 누군가 쉬운 곱셈 문제를 풀 때는 노트에 풀이 과정을 적어도 암산과 크게 다르지 않지만, 복잡한 방정식 앞에서는 풀이 과정을 적는 것이 결정적인 차이를 만든다. AI도 마찬가지였다. 어려운 캡차에서는 추론이 없으면 거의 풀지 못하지만, 추론을 붙이면 성능이 극적으로 올라간다. 연구팀은 그 이유로 AI가 문제 난이도를 감지하면 자동으로 더 긴 추론 시퀀스를 생성하는 경향이 있음을 확인했다. 난이도와 추론 길이 사이의 회귀 분석(R² = 0.92)이 이를 뒷받침한다. AI가 문제의 복잡성에 맞게 스스로 연산 자원을 배분하는 셈이다. AI 에이전트가 캡차를 83.9%까지 풀어내는 방식 연구팀은 추론만으로 해결되지 않는 실패 사례도 분석했다. 크게 세 가지였다. 논리 오류(추론 단계가 서로 모순되는 경우), 구조 오류(5×5 바둑판을 3×3으로 잘못 인식하는 경우), 위치 오류(추론은 맞았지만 최종 클릭 좌표가 틀린 경우)다. 이를 해결하기 위해 연구팀이 개발한 것이 추론 중심 에이전트(reasoning-centered agentic pipeline)다. 에이전트는 캡차를 격자형과 비격자형으로 분류하는 판별기, 격자 구조를 기호로 변환하는 매핑 전문가, 공간 좌표를 정밀하게 잡아주는 공간 이해 전문가, 추론의 일관성을 검증하는 판단기 등 여러 전문화된 모듈로 구성된다. 각 모듈이 이전 단계의 오류를 교정하는 구조다. 로봇 제어 분야의 '세이캔(SayCan)' 프레임워크에서 착안한 설계로, 언어 모델의 고수준 추론과 실제 행동 실행을 연결하는 방식을 캡차 풀기에 적용한 것이다. 결과적으로 이 에이전트는 CAPTCHA-X의 7개 유형에서 평균 83.9%의 정확도를 달성했다. 공간 오차 기준에서는 인간보다도 정밀했다. 학습에 포함되지 않은 외부 캡차 유형인 도형 클릭에서 100%, 순서 클릭에서 85%, 동물 인식에서 90%를 기록했다. 기존 최고 성능인 평균 40%와 비교하면 두 배 이상의 차이다. 한 번 추론 능력을 갖추면 본 적 없는 캡차 형식에도 강하게 전이된다는 것을 데이터가 보여준다. 다만 연구팀은 중요한 선을 그었다. CAPTCHA-X는 AI의 시공간 추론 능력을 연구하기 위한 학술 벤치마크이며, 실제 인증 시스템을 우회하는 것을 목적으로 하지 않는다. 공개 데이터에는 정적 이미지와 익명화된 주석만 포함되며, 특정 웹사이트 접근을 위한 자동화 스크립트는 제공하지 않는다. 캡차 너머로 보이는 것 이 연구가 보여주는 것은 캡차 풀기 그 이상일 가능성이 있다. 사람이 "나는 로봇이 아닙니다"를 증명하는 방식이 본질적으로 공간 인식과 단계적 추론에 기반한다면, AI가 그 능력을 갖추기 시작했다는 것은 인증 보안 설계 전반을 재검토해야 한다는 신호로 읽힐 수 있다. 캡차 설계자 입장에서는 AI가 추론을 통해 난이도 장벽을 극복한다는 사실이 새로운 과제를 제시한다. 단순히 더 어렵게 만드는 방식만으로는 충분하지 않을 가능성이 있다. AI 활용자 입장에서도 이 연구는 시사점을 던진다. 단계적 추론 능력이 시각적 공간 문제에서도 결정적 변수라는 사실이 확인됐기 때문이다. AI를 선택할 때 단순히 정확도 수치뿐 아니라 그 AI가 얼마나 논리적 단계를 밟아 문제를 푸는지도 따져야 한다는 것이 이 연구가 남기는 교훈이다. 캡차의 완전한 무력화를 단정하기는 이르지만, 인간-기계 경계선에 분명한 균열이 생겼다는 사실은 두고 볼 필요가 있다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q. 캡차(CAPTCHA)가 정확히 무엇인가요? 캡차(CAPTCHA)는 사람과 자동화 봇을 구분하기 위해 사용하는 보안 기술입니다. "신호등이 있는 칸을 모두 클릭하세요"처럼 사람은 쉽게 풀지만 AI는 어렵다고 여겨지는 시각적 과제를 제시합니다. 최근에는 단순 이미지 인식을 넘어 공간 추론이 필요한 복잡한 퍼즐 형태로 진화했습니다. Q. 이 연구가 인터넷 보안에 미치는 영향은 무엇인가요? 이 연구는 AI가 단계적 추론 능력을 갖추면 기존 캡차의 상당 부분을 풀 수 있다는 사실을 보여줍니다. 연구팀은 학술 목적으로만 연구를 진행했으며, 실제 인증 시스템을 우회하는 도구는 배포하지 않았습니다. 다만 보안 업계에서는 AI에 강한 새로운 인증 방식의 필요성을 논의하게 될 것으로 예상됩니다. Q. AI가 캡차를 잘 풀기 위해 가장 중요한 능력은 무엇인가요? 이 연구에 따르면 단계적 추론(step-by-step reasoning) 능력이 가장 결정적입니다. 이미지를 보고 바로 답을 내면 정확도가 15.7%에 그치지만, 논리적 단계를 밟아 생각한 뒤 답을 내면 평균 38.75% 더 정확해집니다. 특히 어려운 문제일수록 추론의 효과가 극적으로 커집니다. 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. 리포트명: Reasoning under Vision: Understanding Visual-Spatial Cognition in Vision-Language Models for CAPTCHA ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)