Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

Essence

이 논문은 heterogeneous robot embodiments 및 tasks에 걸쳐 대규모 데이터로 사전학습하여 로봇 정책의 generalization 성능을 향상시키는 Heterogeneous Pre-trained Transformers (HPT)를 제안한다. 서로 다른 센서와 구동기를 가진 다양한 로봇 embodiments의 proprioception과 vision 정보를 shared latent space로 정렬하여 task-agnostic, embodiment-agnostic한 기초 모델을 학습한다.

Motivation

Known: 기존 로봇 학습 방법들은 특정 embodiment과 task에 대해 별도의 데이터를 수집하여 훈련하며, 이는 비용이 크고 overfitting에 취약하다. 자연어처리와 컴퓨터 비전에서 대규모 diverse 데이터로 사전학습한 foundation models은 뛰어난 generalization 성능을 보여준다.
Gap: 로봇 분야에서 heterogeneous embodiments (다양한 로봇 하드웨어, 센서 배치, 환경)의 차이를 극복하면서 대규모 데이터를 효과적으로 활용하는 방법이 부족하다. 특히 proprioception과 vision 양쪽 모두를 heterogeneous pre-training에 포함시키는 연구가 제한적이다.
Why: 로봇 학습의 확장성과 generalization 성능은 embodiments 간 공유된 표현을 학습할 수 있을 때 크게 향상될 수 있다. 대규모 diverse 데이터(실제 로봇, 시뮬레이션, 인간 비디오 등)에서 task-agnostic하고 embodiment-agnostic한 정책 표현을 학습하는 것은 새로운 embodiments과 tasks에 대한 적응을 효율화하고 성능을 개선할 수 있다.
Approach: HPT는 modular architecture로 설계되어 embodiment-specific tokenizers (stems), shared Transformer trunk, task-specific action decoders (heads)로 구성된다. 각 embodiment의 proprioception과 vision 입력을 고정 길이의 token 시퀀스로 변환하여 shared latent space로 정렬하고, 공유된 trunk는 이러한 tokens를 처리하여 다양한 tasks의 로봇 제어로 매핑한다. 52개 이상의 datasets과 10억 이상의 파라미터를 사용하여 대규모 사전학습을 수행하고, supervised learning으로 훈련하며, transfer learning을 통해 새로운 embodiments으로 전이한다.

Achievement

Figure 5: Data Scaling. We run scaling HPT experiments along dataset sizes and the number of datasets. Each

확장성 검증: 데이터셋 규모, 훈련 에포크, 모델 크기에 따른 scaling laws를 실증적으로 입증하여 로봇 정책 학습에서도 foundation models과 유사한 scaling 행동이 존재함을 보였다. 성능 향상: 여러 시뮬레이션 벤치마크(CALVIN, BRIDGE, Metaworld 등)와 실제 로봇 dexterous tasks에서 from-scratch baselines 대비 20% 이상의 성능 향상을 달성했다. 데이터 효율성: 사전학습된 표현이 새로운 embodiments로의 transfer 시 필요한 데이터량과 훈련 시간을 대폭 감소시킨다. 광범위한 데이터 통합: 실제 로봇 데이터, 시뮬레이션, 인간 비디오 등 이질적인 embodiment 도메인의 52개 datasets을 효과적으로 통합했다.

How

Figure 5: Data Scaling. We run scaling HPT experiments along dataset sizes and the number of datasets. Each

Embodiment-specific tokenizers (stems)를 설계하여 서로 다른 로봇 센서들의 proprioception과 vision 입력을 고정 길이 token 시퀀스로 정렬
Shared Transformer trunk를 모든 embodiments에 걸쳐 supervised learning으로 사전학습
Task-specific action decoders (heads)를 통해 다양한 downstream tasks로의 적응을 가능하게 함
대규모 heterogeneous datasets (52개)에서 systematic scaling experiments 수행하여 model size, data quantity, training compute에 따른 성능 향상 검증
Transfer learning을 통해 새로운 embodiments에 minimal한 새로운 stem/head pair만 학습

Originality

Multimodal alignment 개념을 로봇 embodiments 간 knowledge transfer에 처음으로 대규모로 적용하여 heterogeneous pre-training 프레임워크를 제시했다.
Proprioception과 vision 양쪽을 포함한 end-to-end heterogeneous pre-training으로, 기존 vision-only 또는 language-based approaches와 차별화된다.
52개 datasets를 통합한 대규모 실험으로, 로봇 도메인에서 scaling laws의 존재를 처음 체계적으로 입증했다.
Embodiment-agnostic shared representation 학습을 통해 새로운 로봇으로의 generalization을 근본적으로 개선하는 새로운 방향을 제시했다.

Limitation & Further Study

Tokenizer 설계의 일반성: 현재 proprioception tokenizer가 특정 로봇 구성(degrees of freedom, action spaces)에 맞춰 설계되어 극도로 이질적인 embodiments으로의 확장성이 제한될 수 있다.
합성 데이터의 한계: 시뮬레이션 데이터와 실제 로봇 데이터 간의 domain gap 해결이 미흡하며, sim-to-real transfer 성능이 명확히 보고되지 않았다.
계산 비용: 대규모 모델(10억 파라미터)과 52개 datasets의 사전학습에 소요되는 계산 자원이 상당하여 재현과 활용에 장벽이 있을 수 있다.
정성적 분석 부족: Shared representation space의 특성이나 embodiments 간 knowledge transfer의 메커니즘에 대한 깊이 있는 분석(예: representation visualization, attention pattern 분석)이 제한적이다.
후속 연구: Curriculum learning, adaptive tokenization, online adaptation 등 다양한 heterogeneous learning 전략의 탐색이 필요하다.

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 이 논문은 로봇 학습의 중요한 과제인 heterogeneous embodiments 간 knowledge transfer를 multimodal alignment와 대규모 사전학습으로 해결하는 실질적이고 체계적인 방법을 제시한다. 52개 datasets을 통한 광범위한 실험과 scaling laws의 입증은 로봇 도메인에서의 귀중한 기여이다. 다만 tokenizer 설계의 일반성, sim-to-real gap, 표현 공간에 대한 깊이 있는 분석 등에서 개선 여지가 있다.