구글, 직접 학습하고 개선하는 로봇 훈련도구 공개
로봇이 주변 환경을 인식하고 스스로의 행동을 분석해 작업을 개선하는 대규모 인공지능(AI) 모델 기반 학습도구를 구글에서 공개했다. 5일 테크크런치 등 외신에 따르면 구글 딥마인드 로보틱스는 로봇 학습모델 '오토RT'와 'RT-트레젝토리' 등을 공개했다. 오토RT는 로봇에게 주어지는 다양한 환경과 목적에 따라 명령을 자연스럽게 수행할 수 있도록 개발된 기본 학습모델이다. 대규모 언어모델(LLM)과 비전 언어모델(VLM)과 로봇 제어 모델을 결합해 사전에 설정되지 않은 환경을 스스로 분석 후 주어진 목표를 적합하게 수행하기 위한 방안을 도출하고 수행한다. 예를 들어 '책상 위의 캔을 들어'라는 명령이 주어지면 언어모델이 주변 환경을 스캔한 후 모든 객체에 따른 정보를 텍스트 데이터화 한다. 이후 LLM이 책상과 캔과 관련된 데이터를 확인 후 명령을 수행하기 위한 작업 프로세스을 생성한다. 작업 프로세스는 환경을 고려해 다양하게 생성되며 부적절한 방식과 실제 업무에 필요한 작업 등을 분류하는 과정을 거친다. 실제 유효하다고 판단된 작업만이 업무 프로세스로 샘플링 된 후 로봇에 적용되어 수행된다. 또한, 수행 과정과 결과에 대한 데이터를 수집 후 분석해 이후 작업을 개선할 수 있는 기능도 갖췄다. 구글 측에 따르면 오토RT는 로봇이 얼마나 자율적으로 명령을 수행할 것인지 원하는 정도에 따라 설정할 수 있다. 또한 얼마나 안전하고, 자율적으로 업무를 수행하는지 판단하기 위해 테스트를 진행했다. 7개월에 걸쳐 한 번에 최대 20대의 로봇을 다양한 환경을 조성하며 테스트를 실시한 결과 6천650개의 고유한 언어 지침을 다루는 7만7천 개 이상의 사례를 수집할 수 있었다고 밝혔다. 구글은 로봇이 업무를 수행하는 과정에서 가장 적합한 물리적 동작을 수행하기 위한 RT-트레젝토리라는 학습모델도 도입했다. 로봇의 동작 궤도를 시각화해 반복 학습 과정에서 어떤 동작으로 업무를 수행했을 때 더 좋은 결과를 얻을 수 있는지 확인하고 개선할 수 있도록 지원한다. 훈련 데이터를 지원하지 않은 41개 작업으로 테스트한 결과 작업 성공률이 29%에서 63%로 2배 이상 향상됐다고 밝혔다. 또한 보다 안전한 로봇 활용을 위해 자체 필터링 기능 외에도 추가적인 안전조치 계층을 구성했다. 관절에 가해지는 힘이 주어진 임계값을 초과하면 자동으로 멈추도록 설정했다. 더불어 작동 중인 모든 로봇은 사람이 직접 중단한 수 있는 물리적 비활성화 스위치가 눈에 잘 띄는 곳에 위치하도록 구성할 것을 권했다. 구글 딥마인드 로보틱스 팀은 “우리는 여러 환경에서 다양한 명령을 자연스럽게 수행하기 위한 다목적 로봇개발을 목표로 하고 있다”며 “이번에 공개한 대규모 AI모델과 시스템 등을 통해 더욱 효율적인 로봇을 선보일 수 있을 것으로 기대한다”고 말했다.