RVT-2: Learning Precise Manipulation from Few Demonstrations

Essence

Fig. 1: RVT-2 performing high precision tasks. Given a language instruction, a single RVT-2 model can perform multiple 3

RVT-2는 적은 수의 시연으로부터 고정밀 3D 조작 작업을 학습할 수 있는 멀티태스크 로봇 조작 모델로, 이전 RVT 대비 6배 빠른 학습 속도와 2배 빠른 추론 속도를 달성하면서 RLBench에서 82%의 최고 성능을 달성했다.

Known: PerAct과 RVT 같은 선행 연구들이 언어 지시를 통한 3D 조작 학습을 연구했으나, 밀리미터 수준의 정밀도가 필요한 작업에서는 성능이 제한적이었다.
Gap: 기존 방법들은 높은 정밀도가 필요한 작업(예: 페그 삽입, 플러그 삽입)에서 어려움을 겪고 있으며, 적은 수의 시연으로 이러한 고정밀 작업을 학습할 수 있는 효율적인 방법이 부족하다.
Why: 산업 제조, 가정용, 소매 등의 도메인에서 로봇이 적은 시연으로 새로운 작업을 빠르게 학습하고 높은 정밀도로 수행할 수 있는 능력이 필수적이기 때문이다.
Approach: 아키텍처 개선(다단계 추론 파이프라인, convex upsampling, 위치-조건부 특성)과 시스템 레벨 최적화(커스텀 virtual image renderer, 최적화된 트레이닝 기법)를 결합하여 RVT를 개선한다.

Fig. 3: Training time vs Success rate on RLBench. All

성능 향상: RLBench에서 성공률을 65%에서 82%로 향상 (state-of-the-art)
속도 개선: 학습 속도 6배 향상 (2.4M → 16M samples/day), 추론 속도 2배 향상 (11.6 fps → 20.6 fps)
실세계 검증: 10개의 시연만으로 밀리미터 수준 정밀도가 필요한 플러그 삽입, 페그 삽입 작업 수행
일반화: 단일 RGB-D 카메라와 단일 멀티태스크 모델로 여러 조작 작업 처리 가능

Fig. 2: RVT-2 Architecture. Given the current scene and a task instruction, RVT-2 predicts the next key-frame pose. It c

Novelty: 3/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: RVT-2는 아키텍처와 시스템 최적화를 통해 고정밀 3D 조작에서 유의미한 성능 개선을 달성했으며, 적은 시연으로 실세계 정밀 작업을 수행할 수 있음을 처음 입증했다는 점에서 로봇 조작 분야에 중요한 기여를 한다.