"유튜브 영상 한 번만 보면 농구 척척"… 단 1개 영상으로 10가지 기술 배우는 로봇
홍콩과기대(The Hong Kong University of Science and Technology)와 상하이 AI연구소(Shanghai AI Laboratory)가 공동 개발한 휴먼엑스(HumanX)는 사람이 촬영한 영상 하나만으로 휴머노이드 로봇에게 복잡한 상호작용 기술을 학습시키는 획기적인 시스템이다. 해당 논문에 따르면, 이 시스템은 농구 슛, 축구 킥, 배드민턴 타격부터 화물 운반, 심지어 사람과의 격투 대응까지 다양한 기술을 마치 사람처럼 자연스럽게 구사한다고 밝혔다. 특히 단 한 편의 시연 영상만으로도 해당 기술을 학습하고, 상황에 맞게 응용할 수 있다는 점에서 기존 로봇 학습 방식의 한계를 뛰어넘었다는 평가를 받는다. 영상 하나로 수십 가지 연습 데이터 자동 생성하는 비결 휴먼엑스는 두 가지 핵심 기술로 구성된다. 첫 번째는 엑스젠(XGen)이라는 데이터 생성 시스템이다. 엑스젠은 사람이 찍은 영상에서 로봇이 연습할 수 있는 데이터를 만들어낸다. 기존 방식들은 영상을 정확하게 따라하려다 보니 물리적으로 불가능한 동작이 만들어지는 문제가 있었다. 엑스젠은 접근 방식을 바꿨다. 영상을 정확히 재현하기보다는 물리 법칙에 맞는 그럴듯한 동작을 만드는 데 집중한 것이다. 구체적으로 엑스젠은 세 단계로 작동한다. 먼저 GVHMR이라는 기술로 영상에서 사람의 동작을 추출한다. 그 다음 GMR이라는 시스템을 통해 사람의 동작을 로봇 몸에 맞게 변환한다. 사람과 로봇은 팔다리 길이나 관절 구조가 다르기 때문에 이런 변환 과정이 필요하다. 마지막으로 물리 시뮬레이션을 통해 공이나 물체가 어떻게 움직일지 계산한다. 손과 공이 닿는 순간에는 힘의 균형을 고려해 로봇의 자세를 최적화한다. 더 중요한 건 한 편의 영상에서 수십 가지 연습 데이터를 자동으로 만들어낸다는 점이다. 예를 들어 농구 슛 영상 하나를 보여주면, 시스템이 공의 크기를 바꾸거나 다양한 거리와 각도에서 쏘는 데이터를 스스로 생성한다. 이렇게 만들어진 다양한 데이터 덕분에 로봇은 원래 영상에 없던 상황에도 대처할 수 있게 된다. 눈 감고도 공 다루는 로봇... 비밀은 '몸의 감각' 두 번째 핵심 기술은 XMimic이다. 이것은 엑스젠이 만든 데이터로 로봇을 학습시키는 시스템이다. XMimic의 가장 흥미로운 특징은 두 가지 방식으로 작동한다는 점이다. 첫 번째는 NEP 방식이다. 이 방식에서는 카메라나 센서 없이 로봇 자체의 몸 감각만으로 동작한다. 사람으로 치면 눈을 감고도 손의 느낌만으로 공을 다루는 것과 같다. 로봇은 관절의 위치, 움직이는 속도, 관절에 가해지는 힘 등의 정보만으로 공이나 물체의 상태를 파악한다. 이 방식으로 농구 슛, 공 튀기기, 레이업, 심지어 속임수 동작을 섞은 복잡한 슛까지 해낸다. 카메라나 센서가 필요 없어서 배치가 간단하고 안정적이다. 두 번째는 MoCap 방식이다. 노이톰(Noitom)이라는 움직임 추적 시스템으로 공이나 물체의 위치를 실시간으로 파악한다. 이 방식은 날아오는 공을 받거나 사람과 계속 주고받는 동작에 필요하다. 연구진은 실제 환경에서 자주 발생하는 신호 끊김 현상까지 학습 과정에 반영했다. 덕분에 실제 사용할 때도 신호가 잠깐 끊겨도 로봇이 안정적으로 작동한다. 기존 방식보다 성공률 27배 높아... 단일 영상으로 10회 연속 패스 실험 결과는 놀라웠다. 농구공을 받아서 골대에 넣는 과제에서 휴먼엑스는 64.7퍼센트의 성공률을 기록했다. 이는 기존 최고 성능 방법인 HDMI의 2.4퍼센트보다 27배나 높은 수치다. 배드민턴에서는 90.6퍼센트, 화물 들어올리기에서는 96.3퍼센트의 성공률을 보였다. 실제 유니트리 G1(Unitree G1)이라는 휴머노이드 로봇으로 실험했을 때도 결과가 좋았다. 카메라 없이 몸 감각만으로 농구 슛 10번 중 8번 성공, 공 튀기기 10번 중 8번 성공, 복잡한 속임수 슛 10번 중 9번 성공했다. 움직임 추적 시스템을 사용한 과제는 더욱 인상적이었다. 사람과 농구공을 주고받는 동작을 10회 이상 연속으로 성공시켰다. 축구공 차서 주고받기는 14회 연속 성공했다. 각 기술을 배울 때 시범 영상을 단 한 편만 보여줬다는 점을 생각하면 놀라운 결과다. 단순히 따라하기만 하는 게 아니다... 스스로 판단하고 대응 휴먼엑스가 배운 기술은 단순히 영상을 그대로 따라하는 수준이 아니다. 연구진이 공개한 영상을 보면 로봇이 상황을 판단하고 대응하는 모습이 나온다. 물건을 들고 있을 때 사람이 강하게 밀어도 균형을 잡는다. 누군가 물건을 빼앗아서 바닥에 놓으면 로봇이 스스로 걸어가서 다시 집어든다. 격투 대응 실험에서는 더 재미있는 모습이 나타난다. 사람이 펀치 흉내만 내면 로봇은 가볍게 놀라는 반응만 보인다. 하지만 진짜 공격이 들어오면 제대로 막고 반격한다. 이는 로봇이 실시간으로 상황을 구분하고 적절히 대응한다는 뜻이다. 이런 적응 능력은 세 가지 방법으로 만들어진다. 첫째, 엑스젠이 다양한 데이터를 생성해서 여러 상황을 미리 경험하게 한다. 둘째, 학습할 때 로봇과 물체의 시작 위치를 매번 무작위로 바꿔서 더 많은 경우의 수를 연습시킨다. 셋째, 상호작용을 성공시키는 것을 최우선 목표로 설정해서 단순히 동작만 흉내내는 것을 방지한다. 작업마다 따로 프로그래밍 필요 없어... 하나의 학습 방식으로 모든 동작 습득 기존 로봇 학습 방식의 큰 문제는 각 작업마다 복잡한 보상 설계를 일일이 해야 한다는 점이었다. 예를 들어 농구를 가르치려면 '공을 이렇게 잡으면 몇 점', '골대에 이만큼 가까이 가면 몇 점' 같은 규칙을 세세하게 정해줘야 했다. 휴먼엑스는 이 문제를 하나의 통합된 학습 방식으로 해결했다. 이 시스템은 몸 동작, 물체 움직임, 몸과 물체의 상대적 위치, 어느 순간에 접촉하는지, 동작이 부드러운지 등을 모두 고려하는 단일 평가 방식을 사용한다. 특히 AMP라는 기술을 포함해 동작이 자연스러운지도 평가한다. 이 평가 방식은 농구부터 축구, 배드민턴, 물건 옮기기, 격투 대응까지 모든 작업에 똑같이 적용된다. 연구진은 선생-학생 방식의 2단계 학습 구조를 사용했다. 먼저 모든 정보를 볼 수 있는 '선생 로봇'을 PPO라는 학습 방법으로 훈련시킨다. 그 다음 선생 로봇의 지식을 실제 로봇에서 사용 가능한 '학생 로봇'에게 전달한다. 학생 로봇은 선생의 지식을 물려받되, 실제 환경에서 얻을 수 있는 제한된 정보만으로 작동한다. 여러 동작 패턴을 배울 때 이 방식이 특히 효과적이다. 축구공 차기와 배드민턴공 치기 실험에서 각각 3가지 다른 동작 패턴을 학습시켰다. 선생-학생 구조를 사용하니 성공률이 축구는 74.2퍼센트에서 93.1퍼센트로, 배드민턴은 52.4퍼센트에서 84.3퍼센트로 크게 올랐다. FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) Q1. 영상 하나로 어떻게 여러 상황에 대응할 수 있나요? A. 엑스젠 시스템이 한 편의 영상에서 물체의 크기, 위치, 움직임을 자동으로 바꿔가며 수십 가지 연습 데이터를 만들어냅니다. 농구 슛 영상 하나로 여러 거리와 각도의 슛 데이터를 생성하는 식입니다. 또한 학습할 때 로봇과 물체의 시작 상태를 매번 다르게 하고, 물체의 무게나 탄성 같은 물리적 특성도 무작위로 바꿔가며 다양한 상황을 연습시킵니다. Q2. 카메라 없이 로봇이 공을 다룰 수 있는 원리는 무엇인가요? A. 로봇은 관절의 위치, 움직이는 속도, 관절에 가해지는 힘 등의 정보로 외부에서 오는 힘을 추정할 수 있습니다. 사람이 눈을 감고도 손의 감각만으로 물건을 다루는 것과 같은 원리입니다. 로봇 물리 법칙에 따르면, 명령한 힘과 실제 관절 움직임의 차이로 외부 접촉을 계산할 수 있습니다. 휴먼엑스는 이런 정보들을 학습 과정에 포함시켜 로봇이 몸 감각만으로도 공이나 물체를 다룰 수 있게 했습니다. Q3. 이 기술이 실용화되면 어떤 분야에 쓰일 수 있나요? A. 작업마다 복잡한 프로그래밍이 필요 없고 시범 영상 하나면 되기 때문에 활용 범위가 넓습니다. 공장의 조립 작업, 물류 창고의 물건 옮기기, 재활 치료 보조, 서비스 로봇의 물건 전달 등에 빠르게 적용될 수 있습니다. 특히 새로운 작업을 가르칠 때마다 코딩할 필요 없이 시범만 보여주면 되기 때문에 로봇 활용이 훨씬 쉬워질 것으로 기대됩니다. 기사에 인용된 논문 원문은 arXiv에서 확인 가능하다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)