GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

Essence

Figure 1 GR-RL performs long-horizon, dexterous, and high-precision manipulation, in the task of shoe lacing, by

GR-RL은 일반적인 vision-language-action (VLA) 정책을 다단계 학습 파이프라인(데이터 필터링, 형태 대칭 증강, 온라인 RL)을 통해 장기 복잡 조작을 위한 고정밀 전문가 정책으로 변환하는 로봇 학습 프레임워크이다.

Known: VLA 정책은 다양한 작업에서 뛰어난 일반화를 보였으나, 밀리미터 단위 정밀도와 장기 강건성이 필요한 복잡한 조작 작업에서는 부족하다.
Gap: 기존 VLA 정책은 인간 시연의 최적성을 가정하나, 고정밀 조작에서 인간 시연은 잡음이 많고 부분최적이며, 학습과 배포 간 불일치가 존재한다.
Why: 신발끈 꿰기와 같은 실제 과제는 장기 추론, 밀리미터 정밀도, 유연한 물체 상호작용을 모두 요구하여 로봇의 신뢰할 수 있는 자동화가 중요하다.
Approach: GR-RL은 offline RL을 통해 학습된 task progress 함수로 부분최적 시연을 필터링하고, 양방향 로봇의 형태 대칭성을 이용한 행동 증강, 그리고 latent space noise predictor를 학습하는 온라인 RL을 결합한다.

Figure 5 Left: the success rate of our multi-stage training recipe. Data filtering, mirror augmentation, and online

Figure 2

Offline RL Q-값을 직접 task progress 함수로 활용한 새로운 데이터 필터링 방법론
양방향 로봇의 형태 대칭성을 체계적으로 활용한 행동 증강 기법
VLA 정책의 학습-배포 불일치를 온라인 RL과 latent space noise predictor로 해결하는 접근법
분포적 강화학습(distributional RL)을 offline sparse reward 환경에서 robust progress evaluator로 적용

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: GR-RL은 인간 시연의 부분최적성과 학습-배포 불일치라는 실질적 문제를 체계적으로 해결하는 실용적인 다단계 파이프라인을 제시하며, 신발끈 꿰기와 같은 극도로 정밀한 조작 과제를 성공시킴으로써 로봇 기초 모델의 전문화 방향을 제시하는 중요한 기여를 한다.