RT-H: Action Hierarchies Using Language

Essence

Fig. 1: Given a task in language like “close the pistachio jar” and an image of the scene, RT-H utilizes a Vision Langua

RT-H는 로봇 모방 학습에서 언어 기반 행동 계층 구조를 제안하여, 고수준 작업 설명과 저수준 로봇 액션 사이의 중간 단계로 '언어 모션(language motion)'을 예측함으로써 다양한 작업 간 데이터 공유를 개선한다.

Known: 최근 로봇 모방 학습에서 언어 조건부 정책(language-conditioned policies)이 시각적 관찰과 고수준 작업 설명으로부터 액션을 예측하는 데 사용되고 있으며, 의미적으로 유사한 작업들 간 데이터 공유를 통해 성능을 향상시킨다.
Gap: 작업이 의미적으로 더 다양해질수록(예: '콜라 캔 집기' vs '컵 붓기') 작업 설명 간 데이터 공유가 어려워져 많은 시연 데이터가 필요하며, 이는 학습 효율성을 제한한다.
Why: 다양한 멀티태스크 데이터셋에서 효과적인 데이터 공유 메커니즘을 개발하면 로봇의 샘플 효율성과 강건성을 크게 향상시킬 수 있으며, 더 나아가 런타임 중 인간의 언어 기반 피드백을 통한 정정이 가능해진다.
Approach: RT-H는 vision-language model(VLM) 기반의 두 단계 계층 구조를 도입하여, 먼저 고수준 작업과 시각 관찰로부터 fine-grained한 언어 모션을 예측하고, 이 언어 모션을 추가 조건으로 하여 최종 로봇 액션을 예측한다.

Fig. 3: Results on Diverse+Kitchen multi-task dataset, consisting of eight challenging evaluation tasks. 95% Wilson Scor

Fig. 2: RT-H Overview. Left: Our method leverages language to create an action hierarchy for policy learning. We separat

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: RT-H는 언어를 활용한 행동 계층 구조라는 우아한 아이디어를 통해 멀티태스크 로봇 학습의 데이터 효율성을 크게 향상시키며, 인간 개입의 새로운 패러다임까지 제시하여 실제 로봇 시스템에서의 적용 가능성이 높다.