리얼월드, 독자 로보틱스 파운데이션 모델 'RLDX-1' 공개..."로봇손 중 최고"
리얼월드(대표 류중희)가 독자 로보틱스 파운데이션 모델(Robotics Foundation Model, RFM) 'RLDX-1'을 7일 공개했다. RLDX-1은 고자유도 5지(5-finger) 로봇 손에 인간 수준의 정교한 조작 능력을 부여하기 위해 설계된 'Dexterity-First' 파운데이션 모델이다. 시각과 언어뿐 아니라 손에 가해지는 힘(토크)·촉각·작업 기억까지 단일 모델에서 함께 처리한다는 점에서, 시각·언어 중심의 기존 범용 VLA(Vision-Language-Action) 모델과 구조적으로 차별화된다. 업계 통념 뒤집는 'Dexterity-First' 설계 철학 업계는 흔히 '지능이 먼저 만들어지면 손재주는 자연히 따라온다'고 본다. 리얼월드의 관점은 정반대다. 손재주는 지능 다음에 오는 것이 아니라, 지능이 물리 세계에서 행동할 때 반드시 거치는 경로 그 자체라는 것이 리얼월드가 RLDX-1으로 제시한 명제다. 힘(토크)·촉각·접촉 시점 등 시각만으로는 잡히지 않는 신호를 다룰 수 있어야 비로소 산업 현장의 정교한 작업이 자동화된다는 문제의식이다. 리얼월드는 이를 입증하기 위해 산업 현장에서 반복적으로 마주치는 손 조작 과제를 자체 벤치마크 'DexBench'를 통해 ▲파지 다양성(Grasp Diversity) ▲공간 정밀도(Spatial Precision) ▲시간 정밀도(Temporal Precision) ▲접촉 정밀도(Contact Precision) ▲맥락 인지(Context Awareness) 등 5가지 손 조작 영역으로 정의했다. 엔비디아·피지컬 인텔리전스 등 글로벌 공개 모델 모두 제쳐 RLDX-1은 글로벌 공개 벤치마크 8종에서 엔비디아의 그루트(GR00T), 피지컬 인텔리전스의 파이제로(π0) 등 기존 최고 성능(State-of-the-Art, SOTA) 모델을 모두 앞섰다. 장기·접촉 중심 과제로 설계된 'RoboCasa Kitchen'에서는 70.6점을 기록해 70점대를 돌파한 VLA 모델이 됐고, 휴머노이드 전용 평가 'GR-1 Tabletop'에서는 58.7점으로 차순위 모델인 엔비디아 GR00T N1.6 대비 10.7%p의 격차를 만들었다. 카메라·조명·언어·배경 등 7개 변수에 대한 강건성 평가 'LIBERO-Plus'에서도 86.7%를 기록하며 비교 대상을 모두 앞섰다. 실제 로봇 환경에서의 격차는 더 크다. 리얼월드가 개발에 참여한 위로보틱스의 휴머노이드 ALLEX 기반 평가에서, 동적 무게 변화를 다뤄야 하는 '커피 따르기' 과제 성공률은 70.8%를 기록했다. 비교 대상 모델들이 30%대 후반에 머문 것을 고려하면 약 두 배에 달하는 수치다. 핵심 아키텍처 'MSAT'…보고, 느끼고, 기억하고, 적응 리얼월드 기술적 핵심은 멀티-스트림 액션 트랜스포머(Multi-Stream Action Transformer, MSAT) 구조다. 시각·언어·행동·촉각·메모리 등 서로 다른 신호를 단일 스트림의 트랜스포머에서 처리하는 기존 VLA와 달리, MSAT는 각 모달리티에 독립된 스트림을 부여한 뒤 모달리티 간 조인트 어텐션으로 통합한다. 힘(토크)·촉각 등 시각으로는 잡히지 않는 물리 신호와 장기 기억 또한 별도 모듈(Physics Module·Memory Module)에서 처리해, 단일 모델이 보고, 느끼고, 기억하고, 적응할 수 있도록 설계됐다. 배재경 리얼월드 CTO는 "각 모달리티가 자기 자리에서 충분히 표현될 수 있도록 구조를 분리한 것이 RLDX-1의 핵심"이라며 "토크 신호로 접촉 순간을 정확히 포착하고 시간 축의 동적 변화를 추론하는 능력은 기존 VLA가 구조적으로 다루기 어려웠던 영역"이라고 설명했다. 실제 산업 적용 염두에 둔 모델 설계… 한일 주요 대기업과 데이터 파이프라인 확보 RLDX-1의 또 다른 차별점은 처음부터 산업 현장에서 실제로 필요한 작업을 가장 잘 수행할 수 있도록 구조화됐다는 점이다. 리얼월드는 수십 개 산업 파트너사와의 협력을 통해 제조·물류 현장의 작업을 직접 관찰하고 분석했으며, 이 결과를 담은 자체 벤치마크 'DexBench'를 RLDX-1과 함께 공개했다. DexBench는 현장 니즈에서 출발한 손 조작 과제를 정량화한 평가 체계로, 리얼월드는 이를 덱스테리티 분야의 산업 표준으로 자리매김시킨다는 방침이다. 리얼월드는 SK텔레콤, LG전자, CJ대한통운, 롯데, KDDI, ANA Holdings, Mitsui Chemicals, Shimadzu Corporation 등 한국과 일본의 주요 대기업로부터 투자를 유치했다. 또 10여 개 한·일 대기업과 벤치마크 공동 개발, PoC(개념검증), RX(Robotics Transformation) 프로젝트를 활발히 진행 중이다. 앞으로도 리얼월드는 이들 산업 파트너와의 긴밀한 협업과 데이터 파트너십을 통해 구조적 해자(moat)를 더욱 단단히 구축해 나간다는 계획이다. 글로벌 휴머노이드 하드웨어 스타트업과 협업…RFM 중심 피지컬 AI 생태계 본격화 미국에서 13일에 진행되는 'Dexterity Night' 출시 행사에는 한국·미국·일본의 휴머노이드 하드웨어 기업들이 참여해 '왜 로봇 산업의 다음 변곡점이 손인가'를 주제로 한 패널 토론도 진행될 예정이다. 이번에 공개된 RLDX-1은 사전학습 체크포인트(RLDX-1-PT)와 두 종의 플랫폼별 미드-트레이닝 체크포인트(RLDX-1-MT-ALLEX, RLDX-1-MT-DROID) 등 총 3종(각 8.1B 파라미터)으로 구성된다. 모델 가중치·학습 코드·기술 문서는 깃허브와 허깅페이스를 통해 외부 연구자에게도 공개됐다. 리얼월드가 개발에 참여한 위로보틱스의 ALLEX, 협동로봇 팔 Franka Research 3, 오픈소스 로봇 플랫폼 OpenArm까지 모두 단일 백본에서 구동된다. 또 특정 하드웨어에 종속되지 않는 크로스-임바디먼트(cross-embodiment) 구조를 입증한다. RLDX-1은 학습 단계의 시뮬레이션·정책 최적화에 엔비디아 Isaac GR00T·Isaac Lab·Isaac Sim·cuRobo를, 학습 컴퓨트로는 엔비디아 H100/A100 GPU를, 추론 단계에서는 Jetson AGX Thor·TensorRT 등 엔비디아의 클라우드–엣지 스택 전반을 활용해 개발됐다. 엔비디아·AWS·마이크로소프트 등 글로벌 클라우드·AI 인프라 파트너와의 협력 또한 연구와 실증 양쪽에서 지속적으로 이어질 예정이다. 손 조작 너머, 차세대 '4D+ 월드 모델'로 리얼월드는 RLDX-1을 시작으로 차세대 기술 비전인 '4D+ 월드 모델(World Model)' 영역으로 나아갈 계획이다. 거의 모든 로보틱스 파운데이션 모델 기업이 영상 데이터 기반의 비전형 월드 모델을 추구하고 있지만, 리얼월드는 이러한 접근에 근본적 한계가 있다고 보고 있다. 접촉 토크, 촉각, 로봇 관절 상태 등 산업 현장의 정교한 손 작업에 필요한 정보는 카메라 영상에 담기지 않으며, 영상 데이터를 아무리 늘려도 추출되지 않기 때문이다. 리얼월드의 4D+ 월드 모델은 이런 한계를 직접 겨냥한다. 시각·언어·행동에 더해 접촉·토크·로봇 상태까지 시간 축 위에서 통합적으로 예측·생성하며, 기존 영상 기반 모델이 다루지 못한 물리 정보를 직접 시뮬레이션하는 구조다. 모델명의 '4D'는 시간 축을 포함한 3차원 물리 세계를, '+'는 픽셀 너머의 물리·접촉·상태 정보를 의미한다. 류중희 리얼월드 대표는 "픽셀에 담기지 않은 정보는 영상을 아무리 수집해도 나타나지 않는다"며 "RLDX-1은 우리가 향하는 방향의 첫 번째 마일스톤일 뿐이다. 한·일 산업 현장에서 검증한 데이터와 기술을 바탕으로 글로벌 휴머노이드 파트너들과 함께 4D+ 월드 모델로 나아가는 긴 로드맵의 출발점이 오늘"이라고 말했다. 리얼월드는 이번 미국 출시 행사를 시작으로 일본·한국에서도 순차적으로 RLDX-1 출시 행사를 진행할 예정이다.