사진 설명을 텍스트 한 줄로 바꾸는 순간 AI 에이전트 정확도가 7.7%로 추락한다
AI 에이전트끼리 더 잘 소통하게 만들면 결과가 좋아질까. 데이터는 "그것만으로는 아무 차이가 없다"고 답한다. 스탠퍼드 공대의 바순드라 스리니바산(Vasundra Srinivasan)이 2026년 4월 공개한 논문 「Modality-Native Routing in Agent-to-Agent Networks」는 AI 에이전트끼리 음성과 이미지를 원본 그대로 주고받게 하면 과업 정확도가 20%p 올라간다고 밝혔다. 단, 결정 단계가 키워드 매칭이면 효과는 정확히 0이다. 이 보고서는 멀티 에이전트 시스템에서 무엇을 바꿔야 성능이 실제로 올라가는지, 그리고 어디서 비용이 발생하는지를 통제된 실험으로 측정해 답한다. 음성·이미지를 텍스트로 바꾸지 않을 때 정확도 32%에서 52%로 상승 모달리티 네이티브 라우팅(Modality-Native Routing)이란 AI 에이전트 사이에서 음성과 이미지를 텍스트로 변환하지 않고 원래 형식 그대로 전달하는 방식을 말한다. 스리니바산은 50개의 고객 서비스 과업으로 구성된 크로스모달 CS(CrossModal-CS) 벤치마크에서 두 가지 방식을 비교했다. 모든 비텍스트 신호를 텍스트로 변환해 전달하는 '텍스트 병목(Text-Bottleneck)' 방식은 과업 완수 정확도(TCA) 32%를 기록한 반면, 음성과 이미지를 원본 그대로 전달하는 MMA2A 방식은 52%를 기록했다. 차이는 정확히 20%p다. 같은 제미나이 2.5 플래시(Gemini 2.5 Flash) 모델, 같은 과업, 같은 지식 베이스를 쓰고 오직 라우팅 방식만 바꿨다. 통계 검정에서도 맥니마 검정 p값 0.006으로 우연이 아니었다. 통념상 '잘 전달하기'는 평범한 엔지니어링 개선처럼 보이지만, 실제로는 의사결정 품질 자체를 1.6배 끌어올리는 첫 번째 설계 변수였던 셈이다. 키워드 매칭 시스템에서는 정확도 차이 0%p, LLM에서만 20%p 등장 이 논문에서 가장 흥미로운 발견은 라우팅 자체로는 아무 효과가 없다는 점이다. 스리니바산이 결정 단계의 추론 엔진을 LLM 대신 단순 키워드 매칭으로 바꾸자 양쪽 방식 모두 36% 정확도를 기록했다. 음성과 이미지를 원본으로 전달해도 무용지물이었다는 뜻이다. 라우팅을 그대로 둔 채 추론 엔진만 LLM(제미나이)으로 교체하자 비로소 52% 대 32%의 격차가 벌어졌다. 이 결과는 '2계층 요구 조건(Two-Layer Requirement)'이라는 개념을 만들어낸다. 프로토콜 계층에서 원본 모달리티를 보존하는 것과, 추론 계층에서 그 풍부한 증거를 활용할 수 있는 능력이 동시에 갖춰져야 효과가 나타난다는 뜻이다. 어느 한쪽만 있어도 격차는 0이다. 이는 챗봇·상담 시스템에 LLM을 도입했지만 체감 효과가 미미했다고 느낀 현장 담당자에게 의미가 깊다. LLM이 받아보는 증거 자체가 이미 텍스트 요약으로 깎여 있다면, 아무리 똑똑한 모델을 깔아도 위에 천장이 씌워진 셈이다. 제품 결함 보고에서 정확도 7.7%에서 46.2%로, 가장 큰 점프 성능 향상은 모든 영역에서 같은 비율로 일어나지 않았다. 시각 정보가 핵심인 과업에서 차이가 가장 컸다. 고객이 사진을 찍어 보낸 제품 결함 보고(Product Defect Report) 과업에서 텍스트 병목 방식은 정확도 7.7%에 그쳤지만, MMA2A는 46.2%까지 올라 38.5%p 차이가 났다. 사진을 문장으로 변환하는 순간 '균열', '휘어진 커넥터', '눌어붙은 자국' 같은 결정에 필요한 시각적 단서가 일반적 설명으로 뭉개진다. 시각 트러블슈팅(Visual Troubleshooting)은 75%에서 91.7%로 16.7%p 올랐다. 음성 위주의 조립 가이드(Assembly Guidance)는 41.7%에서 58.3%로 16.6%p 향상됐는데, 음성을 텍스트로 바꾸는 과정에서 제품 이름 자체가 뭉개져 시스템이 엉뚱한 제품으로 인식한 뒤, 그 잘못된 결정을 100% 확신을 가지고 전문가에게 이관해 버리는 사례가 벤치마크 안에서 실제로 발견됐다. 흥미로운 점은 보증 청구(Warranty Claim) 과업에서는 차이가 7.7%p에 그쳤다는 사실이다. 보증 결정은 정책 조항과 날짜 계산처럼 구조화된 데이터를 끄집어내는 일이라, 음성과 이미지의 풍부함만으로는 해결되지 않았다. 모달리티 네이티브 라우팅은 만능 해법이 아니라 '지각적 단서가 의사결정의 핵심일 때' 가장 큰 보상을 준다. 1.8배 더 느려지는 비용, 그리고 임계점이 어디인지가 핵심 정확도 향상은 공짜가 아니다. MMA2A 방식은 응답 시간이 평균 7.19초에서 13.04초로 늘었다. 약 1.8배 느려진 셈이다. 특히 이미지 처리가 들어가는 제품 결함 보고는 3.96초에서 16.55초로 4배 이상 늦어졌다. 음성과 이미지를 원본으로 다루려면 제미나이가 실제로 이미지와 음성을 분석해야 하기 때문이다. 텍스트 요약본을 받는 쪽은 그저 빠른 문장 처리만 하면 된다. 보고서는 이를 두고 "1.8배 더 느려지지만 1.6배 더 정확해지는 절충"이라고 표현한다. 이 절충점이 어디에서 의미가 있는지는 과업의 성격에 달려 있다. 실시간 채팅처럼 속도가 중요한 서비스라면 텍스트 병목이 합리적일 수 있고, 보증 심사나 안전 관련 결함 판정처럼 한 번의 오판이 큰 손실로 이어지는 영역이라면 추가 5~6초는 받아들일 만한 비용이다. 스리니바산은 과업의 중요도(priority)에 따라 라우팅 방식을 동적으로 바꾸는 적응형 라우팅을 후속 연구 방향으로 제시했다. 남은 실패의 83%는 추론 계층, 결국 라우팅보다 모델이 문제 MMA2A가 여전히 절반에 가까운 24개 과업에서 실패한다는 점도 보고서는 솔직하게 짚는다. 그러나 실패 원인을 계층별로 뜯어보면 결과는 분명하다. 24건 중 20건(83%)이 추론 계층의 한계에서 발생했고, 라우팅 계층에 단독으로 책임이 있는 실패는 3건 안팎(12% 수준)에 그쳤다. 정확한 증거는 전달됐지만, 모델이 그 증거로 올바른 정책 조항을 찾아내거나 적절한 행동을 선택하지 못한 경우다. 그중 흥미로운 사례는 '과잉 시각 단정(Overconfident Visual Grounding)'이라 부르는 4건이다. 코팅이 벗겨진 프라이팬은 회사 정책상 전문가에게 보내야 하지만, 풍부한 이미지를 받은 MMA2A는 너무 자세히 결함을 묘사한 나머지 자신만만하게 교체를 진행해 버렸다. 흐릿한 텍스트 설명을 받은 텍스트 병목 방식은 오히려 안전하게 에스컬레이션했다. 더 좋은 입력이 항상 더 좋은 결과로 이어지지는 않으며, 회사의 절차적 제약이 우선시되어야 하는 영역에서는 풍부한 정보가 오히려 독이 될 수도 있다는 뜻이다. 그림1. 텍스트 병목과 MMA2A의 정보 토폴로지 비교, 그리고 실패 원인의 계층별 분포 실무자에게 던지는 메시지: 라우팅은 부차적인 배관이 아니라 1차 설계 변수 이 논문이 멀티 에이전트 시스템을 구축하려는 실무자에게 주는 메시지는 단순하지만 강하다. 라우팅은 단순한 데이터 운반 문제가 아니라 '어떤 증거가 누구에게 어떤 충실도로 도달하는가'를 결정하는 정보 구조 그 자체라는 것이다. A2A 프로토콜은 이미 음성·이미지 원본 전달을 지원하지만 현장 배포에서는 거의 활용되지 않고 있다. 보고서는 A2A 도구와 오케스트레이션 프레임워크가 기본값으로 모달리티 네이티브 라우팅을 채택해야 한다고 제안한다. 다만 결과는 50개 과업이라는 작은 벤치마크에서 나왔고, 고객 서비스라는 한 도메인에 국한된다. 의료 영상이나 제조 검사 같은 다른 영역에서도 동일한 패턴이 나타날지는 두고 볼 필요가 있다. 또한 모든 에이전트가 동일한 모델(제미나이 2.5 플래시)을 사용한 환경이라, 약한 비전 모델과 강한 텍스트 모델이 결합되는 실제 운영 환경에서는 절충점이 달라질 가능성도 열려 있다. 실무 차원에서 우선 확인해 볼 만한 질문은 분명하다. 우리 시스템의 의사결정 단계는 LLM이 받아볼 만한 증거를 받고 있는가, 아니면 그 전 단계에서 이미 정보가 깎여 있는가. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 모달리티 네이티브 라우팅이 무엇인가요? AI 에이전트끼리 음성이나 이미지 같은 데이터를 텍스트로 바꾸지 않고 원래 형태 그대로 전달하는 방식입니다. 예를 들어 고객이 보낸 사진을 다른 에이전트에 전달할 때 '갈색 얼룩이 있는 제품'이라는 문장 대신 사진 파일을 그대로 넘겨주는 것을 말합니다. Q2. 정확도가 20%p 올라가면 실제로 어느 정도 차이인가요? 보고서 기준으로 보면, 같은 50개 과업 중 텍스트 변환 방식은 16개를 맞췄고 모달리티 네이티브 방식은 26개를 맞췄습니다. 제품 결함 보고처럼 사진이 중요한 영역에서는 정답률이 7.7%에서 46.2%로 6배 가까이 뛰었습니다. 고객 한 명의 보증 결정을 잘못 내렸을 때 발생하는 비용을 생각하면 실무적으로 큰 차이입니다. Q3. 응답이 1.8배 느려지는데 그래도 도입할 만한가요? 서비스 성격에 따라 다릅니다. 실시간 채팅처럼 속도가 중요한 경우에는 빠른 텍스트 방식이 유리할 수 있고, 보증 심사나 결함 판정처럼 정확도가 비용을 좌우하는 영역에서는 5~6초 추가 비용이 충분히 의미 있습니다. 보고서도 과업 중요도에 따라 두 방식을 섞어 쓰는 적응형 라우팅을 제안하고 있습니다. 기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다. 리포트명: Modality-Native Routing in Agent-to-Agent Networks: A Multimodal A2A Protocol Extension 이미지 출처: AI 생성 콘텐츠 해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)