제미나이 로봇, 공장 계기판 93% 정확도로 읽기 시작했다
로봇이 공장을 돌아다니며 압력계 바늘을 직접 읽고 값을 기록한다. 사람이 뒤에서 지시하지 않는다. 구글 딥마인드(Google DeepMind)가 2026년 4월 14일 공개한 제미나이 로보틱스 ER 1.6(Gemini Robotics-ER 1.6)은 로봇이 물리 세계를 스스로 해석하는 능력을 한 단계 끌어올렸다. 특히 아날로그 계기 판독 성공률은 직전 모델 대비 23%에서 93%로 뛰었다. AI가 말을 잘하는 수준을 넘어 현장에서 '눈'과 '판단'을 갖추기 시작했다는 신호다. 제미나이 로보틱스 ER 1.6 공개와 체화된 추론의 도약 구글 딥마인드는 추론에 특화된 로보틱스 모델인 제미나이 로보틱스 ER 1.6(Gemini Robotics-ER 1.6)을 공개하며 로봇의 공간 추론과 다중 시점 이해 능력을 대폭 강화했다고 밝혔다. 체화된 추론(Embodied Reasoning)이란 로봇이 카메라로 본 장면을 단순히 인식하는 데 그치지 않고, 그 장면이 물리 세계에서 어떤 의미인지 해석하고 행동 계획으로 연결하는 능력을 뜻한다. 이 모델은 로봇의 고수준 추론 모델 역할을 하며, 구글 검색이나 비전 언어 행동 모델(VLA), 사용자 정의 함수 같은 도구를 직접 호출해 과제를 수행한다. 쉽게 말해 로봇에게 '두뇌'를 달아주고, 그 두뇌가 스스로 필요한 도구를 골라 쓰게 만든 구조다. 개발자는 오늘부터 제미나이 API와 구글 AI 스튜디오(Google AI Studio)에서 이 모델을 바로 테스트할 수 있다. 계기 판독 23%에서 93%로 뛴 성공률 가장 극적인 변화는 산업 현장의 계기 판독 정확도에서 나타났다. 제미나이 로보틱스 ER 1.5는 계기 판독 성공률이 23%에 그쳤으나, ER 1.6은 86%로 뛰었고 에이전틱 비전(agentic vision)을 적용하면 93%까지 올라간다. 비교군인 제미나이 3.0 플래시(Gemini 3.0 Flash)의 67%와도 큰 격차가 있다. 이 수치 차이는 단순한 벤치마크 숫자가 아니다. 화학 공장에서 사이트 글라스(sight glass) 안의 액체 높이를 매일 수백 번 확인해야 하는 현장을 떠올려보면 의미가 명확해진다. 성공률 23%라면 네 번 중 세 번은 사람이 다시 확인해야 하지만, 93%라면 예외 상황만 사람이 점검하면 된다. 이 유즈케이스는 보스턴 다이내믹스(Boston Dynamics)와의 긴밀한 협력을 통해 발굴됐으며, 로봇 스팟(Spot)이 시설 내부를 돌며 계기 이미지를 촬영한다. 보스턴 다이내믹스 스팟 사업부 부사장인 마르코 다 실바(Marco da Silva)는 계기 판독과 같은 기능이 스팟이 현실 세계의 과제를 완전히 자율적으로 인식하고 반응하도록 해줄 것이라고 평가했다. 그림1. Gemini Robotics-ER 1.6 Gemini Robotics-ER 1.5 Gemini 3.0 Flash 모델 벤치마크 결과 비교 포인팅과 다중 시점으로 확장된 공간 추론 성공률 도약의 밑바탕에는 포인팅(pointing)과 성공 감지(success detection) 기능의 고도화가 있다. 포인팅이란 모델이 이미지 속 특정 지점을 좌표로 가리키는 능력으로, 물체 개수를 세거나 이동할 위치를 지정하거나 최적의 잡기 지점(grasp point)을 찾는 데 쓰인다. 제미나이 로보틱스 ER 1.6은 이미지 속 망치 2개, 가위 1개, 붓 1개, 펜치 6개를 정확히 식별하고, 존재하지 않는 외바퀴 손수레와 료비(Ryobi) 드릴은 가리키지 않는 반면, 이전 모델인 ER 1.5는 망치와 붓 개수를 틀리고 가위를 놓쳤으며 외바퀴 손수레를 환각으로 만들어냈다. '있는 것과 없는 것'을 구분하는 능력은 로봇이 잘못된 행동을 하지 않도록 막는 첫 관문이다. 다중 시점 추론도 핵심이다. 현대 로보틱스 시스템은 머리 위 카메라와 손목 장착 카메라처럼 여러 시점을 동시에 사용하는데, ER 1.6은 이들을 하나의 일관된 장면으로 통합해 이해한다. 계기 판독에서는 모델이 먼저 이미지를 확대해 바늘과 눈금을 자세히 본 뒤, 포인팅과 코드 실행으로 비율과 간격을 추정해 최종 수치를 읽어낸다. 이는 에이전틱 비전이라 불리는 방식으로, 시각 추론과 코드 실행을 결합한 단계적 문제 해결 구조다. 다른 모델 대비 공구 개수를 정확하게 식별하는 ER1.6 물리 제약을 이해하는 안전성 개선 구글 딥마인드는 이번 모델을 '지금까지 출시한 가장 안전한 로보틱스 모델'로 규정했다. 제미나이 로보틱스 ER 1.6은 적대적 공간 추론 과제에서 제미나이 안전 정책을 이전 세대보다 잘 준수하며, '액체를 다루지 말 것', '20kg 이상 물체를 들지 말 것'과 같은 물리적 제약을 이해하고 지킨다. 단순히 금지 명령을 따르는 수준이 아니라, 어떤 물체가 그리퍼의 성능이나 소재 특성상 안전하게 다룰 수 있는지를 공간적으로 판단한 뒤 그 결과를 포인팅으로 출력한다. 실제 부상 보고서를 기반으로 한 텍스트·영상 시나리오에서 안전 위험을 인식하는 정확도는 제미나이 3.0 플래시 대비 텍스트에서 6%, 영상에서 10% 향상됐다. 공장에서 일하는 사람 입장에서 보면, 로봇 옆을 지나갈 때 그 로봇이 '지금 내가 드는 이 통은 위험하다'고 스스로 판단해주는 장치가 한 겹 더 생긴 셈이다. 피지컬 AI 경쟁의 본격 개막 제미나이 로보틱스 ER 1.6이 던지는 질문은 '로봇이 얼마나 똑똑해졌는가'보다 '언어 모델이 물리 세계로 건너가는 속도가 얼마나 빨라졌는가'에 가깝다. 모델 자체가 로봇 하드웨어를 제어하는 비전 언어 행동 모델(VLA)이 아니라 그 위에서 지시를 내리는 상위 추론층이라는 점은 중요한 설계 선택이다. 딥마인드는 로봇 제조사가 자사 하드웨어와 VLA를 쓰면서도 제미나이를 '두뇌'로 얹도록 유도하고 있는데, 이는 안드로이드가 스마트폰 제조사에 OS를 공급한 구조를 로보틱스로 옮기려는 시도일 가능성이 있다. 다만 실제 산업 현장의 다양한 조명, 먼지, 카메라 흔들림 조건에서 벤치마크만큼 성능이 유지될지는 두고 볼 필요가 있다. 보스턴 다이내믹스 사례처럼 특정 파트너와 공동 튜닝된 환경에서 나온 93%라는 수치가 다른 제조사 로봇에서도 재현되는지, 앞으로의 현장 배치 사례가 답해줄 부분이다. 한 가지 분명한 것은 '언어 모델 경쟁'의 다음 전장이 계기판, 창고 선반, 공장 바닥으로 이미 옮겨가고 있다는 사실이다. FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 체화된 추론(embodied reasoning)이 무엇인가요? 체화된 추론은 로봇이 카메라로 본 장면의 의미를 스스로 해석하고 다음 행동을 계획하는 능력입니다. 단순한 이미지 인식과 달리, 물체의 위치·크기·관계를 종합해 '어떤 순서로 무엇을 해야 하는지 ' 판단하는 수준의 지능을 뜻합니다. Q2. 이 모델을 쓰면 로봇이 완전히 혼자 움직일 수 있나요? 제미나이 로보틱스 ER 1.6은 로봇의 두뇌 역할을 하지만, 실제 팔과 바퀴를 움직이는 동작 제어는 별도의 비전 언어 행동 모델(VLA)이 담당합니다. 이번 모델은 '무엇을 해야 하는지 '를 판단하는 상위 계층이고, 실행 계층과 결합돼야 자율 작업이 완성됩니다. Q3. 일반 개발자도 이 모델을 사용할 수 있나요? 네. 구글 딥마인드는 발표 당일부터 제미나이 API와 구글 AI 스튜디오를 통해 제미나이 로보틱스 ER 1.6을 개발자에게 공개했고, 모델 설정과 프롬프트 예시가 담긴 콜랩(Colab) 노트북도 함께 제공합니다.기사에 인용된 리포트 원문은 구글 딥마인드 블로그에서 확인할 수 있다. 리포트명: Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning 이미지 출처: 구글 딥마인드 ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)