"로봇 조작, 기존 RFM만으로 안 된다…다른 길 찾아야"
[평창(강원)=신영빈 기자] "지금 로보틱스 파운데이션 모델(RFM) 접근에는 한계가 있습니다. 조작 데이터는 희소한데 대규모 수집이 어렵고, 물리 시뮬레이터는 마찰과 변형을 포함한 복잡한 접촉 현상을 정확히 모델링하기에 제약이 있습니다." 박종우 서울대학교 기계공학부 교수는 5일 제21회 한국로봇종합학술대회(KRoC 2026) 기조강연에서 최근 글로벌 로봇 연구 주류로 떠오른 로보틱스 파운데이션 모델(RFM) 전략에 의문을 제기하며, 새로운 접근 방식을 고민해야 할 시점이라고 강조했다. 최근 로봇 학계에서는 대규모 데이터와 트랜스포머 기반 인공지능(AI) 모델을 확장하면 로봇 조작 문제도 자연스럽게 해결될 것이라는 기대가 확산되고 있다. 박 교수는 이에 대해 "로봇은 언어와 비전과 달리 물리적 접촉과 힘, 변형이 본질인 영역"이라며 "같은 방식이 그대로 통할 것이라는 가정 자체가 위험하다"고 지적했다. 그는 현재 주목받는 시각-언어-행동(VLA) 모델과 데이터 중심 접근에 대해 구조적인 한계를 짚었다. 로봇 조작은 마찰, 변형, 예기치 않은 접촉 등 불확실성이 크고, 조작 데이터 자체가 희소하고 하드웨어 의존적이어서 대규모 수집과 일반화가 어렵다는 것이다. 또 물리 시뮬레이터 역시 실제 접촉 현상을 정확히 재현하기 어렵고, 대부분의 VLA 모델이 위치 중심 출력 구조에 머물러 있어 조작의 핵심인 접촉 기반 특성을 충분히 반영하지 못한다고 평가했다. 박 교수는 "트랜스포머에 기능을 하나씩 덧붙이며 로봇 문제를 해결하려는 접근은 연구적으로도 생산적인 방향이라고 보기 어렵다"며 "로봇 문제는 로봇답게 풀어야 한다"고 말했다. 박 교수가 제시한 해법의 핵심은 로봇 도메인에 특화된 '귀납적 편향'를 내재한 새로운 계층적 아키텍처다. 합성곱 신경망(CNN)이 시프트 불변성, 트랜스포머가 단어 간 관계 구조라는 가정을 기반으로 설계된 것처럼, 로봇 조작 역시 힘·변위·접촉·프레임 변환·계층적 제어와 같은 물리·역학 원리가 아키텍처 차원에서 표현돼야 한다는 설명이다. 박 교수는 "기존 AI 모델을 그대로 가져오는 방식이 아니라, 로봇 계획과 제어, 역학, 인간 운동 제어에서 축적된 지식을 통합해야 한다"며 "그 위에서 조작 파운데이션 모델이 의미를 가질 수 있다"고 강조했다. 강연에서 반복적으로 강조된 또 하나의 키워드는 '컴플라이언스'다. 박 교수는 "로봇 조작은 위치 제어만으로는 절대 해결되지 않는다"며 "힘과 변위를 통합적으로 조절하는 컴플라이언스가 조작의 본질"이라고 설명했다. 컴플라이언스는 단순한 제어 파라미터가 아니라, 작업과 환경에 따라 학습돼야 할 대상이며, 이를 고려하지 않은 파운데이션 모델은 현실 세계에서 작동하기 어렵다는 지적이다. 그는 "컴플라이언스는 하드웨어와 소프트웨어 양쪽에서 모두 다뤄져야 한다"고 덧붙였다. 박 교수는 막대한 자본과 인프라를 앞세운 해외 빅테크식 접근을 그대로 따라가는 전략에는 한계가 있다고 지적했다. 기존 접근의 구조적 문제를 정확히 이해하고, 로봇 물리와 제어 원리에 기반한 새로운 방법을 제시하는 연구자들에게 더 많은 기회가 열릴 수 있다고 강조했다. 박종우 교수는 서울대 기계공학부 교수로 로봇 조작과 제어 분야의 세계적 석학이다. MIT에서 전기컴퓨터공학 학사를, 하버드대에서 응용수학 박사 학위를 받았으며, 미국 UC 어바인 교수를 거쳐 1995년부터 서울대에서 재직 중이다. 2022~2023년 국제로봇자동화학회 회장을 역임했다.