훈련없이 명령 수행하는 범용 로봇 AI 공개
구글이 업무를 사전 훈련 없이 수행하는 범용 로봇 AI 모델을 공개했다. 비전과 언어를 통합한 멀티모달 생성AI로 매개변수(파라미터)가 5천620억개에 달한다. 최근 구글은 베를린공과대학 AI연구원과 함께 멀티모달 구현 시각언어모델(VLM)인 'PaLM-E'를 공개했다. 'PaLM-E'는 구글에서 공개했던 대규모 언어 모델(LLM)인 PaLM에 비전 모델과 로봇 제어을 추가한 것이다. 2월 공개된 비전 트랜스포머 모델인 ViT-22B에서 가져왔다. ViT-22B는 이미지 분류, 물체 감지, 의미론적 분할, 이미지 캡션 등 다양한 비전 작업을 학습받았다. 실제 세계의 센서 데이터를 언어 모델에 통합해 단어와 이미지 사이의 접점을 인지하고 추론함으로써 작업흐름과 행동 방식을 생성한다. 높은 수준의 명령을 받은 후 카메라로 주위 사물을 인식하고 순차적 작업 게획을 스스로 만들어 수행한다. 예를 들어 '서랍에서 쌀가루 가져와' 같은 명령을 내리면 팔을 가진 로봇이 사전에 정해진 훈련을 받지 않아도 작업을 실행할 수 있다. 로봇 카메라는 비전 데이터를 분석해 이를 수행한다. 사람이 사전에 데이터를 처리하거나 주석을 달아주지 않아도 되고, 자율적인 로봇 제어를 구현할 수 있다. 다양한 용도의 범용 로봇 AI는 만들기 힘들다. 기존 로봇은 인간에게 특정 작업 흐름을 안내받아 작동하고, 고도의 AI라 해도 사람의 데이터 입력과 훈련을 거쳐야 했다. PaLM-E는 복잡한 시퀀스를 가진 작업도 로봇 스스로 만들 수 있다. 인간의 지시를 따라 일련의 탐색과 조작 작업을 계획한다. '음료수를 쏟았는ㄴ데 치울 것을 가져다 줄래?'란 지시를 받으면 로봇이 '스폰치 찾기-스폰지 집기-가져오기-스폰지 내려놓기' 등의 시퀀스를 계획한다. PaLM-E는 주변 환경에 탄력적으로 반응하고 적응한다. 애초 개획된 흐름을 방해하는 상황을 만나면 즉시 새로운 행동을 계획해 수행할 수 있다. 가령, 부엌에서 쌀가루를 가져오라는 명령을 받아 수행하다 사람이 로봇에게서 쌀가루를 뺏어 내려놓으면 이를 다시 집을 수 있다. 연속된 센서 데이터 정보는 언어 토큰과 유사한 방식으로 언어 모델에 주입된다고 한다. 이를 통해 언어를 처리하는 것과 동일한 방법으로 센서 정보를 이해할 수 있다. PaLM-E는 구글로보틱스에서 개발한 모바일 로봇 플랫폼에서 시연됐다. 연구진은 PaLM-E의 대규모 언어모델을 사용해 나타나는 몇가지 효과를 발견했다. 하나는 긍정적 전이(Positive tranfer)다. 한 작업에서 배운 지식과 기술을 다른 작업으로 이전할 수 있어 하나의 로봇으로 여러 작업을 훌륭히 수행한다. 구글 연구원은 "가정 자동화, 산업용 로봇 공학 등의 실제 시나리오를 위한 PaLM-E의 더 많은 애플리케이션을 탐색할 계획"이라며 "PaLM-E가 멀티모달 추론 AI 연구에 더 많은 영감을 주기를 바란다"고 밝혔다.