Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation

Essence

Figure 1: We introduce CrossFormer, a transformer-based policy trained on 900K trajectories of diverse,

CrossFormer는 20개의 서로 다른 로봇 embodiment에서 900K 궤적으로 학습된 단일 transformer 기반 정책으로, 관찰 및 행동 공간의 수동 정렬 없이 조작, 네비게이션, 보행, 항공 로봇을 모두 제어할 수 있다.

Known: 로봇 학습은 각 플랫폼별 제한된 데이터로 인해 일반화가 어렵지만, 다중 로봇 데이터로 학습하면 더 넓은 데이터셋을 활용할 수 있다. 기존 연구는 동일한 관찰/행동 공간을 가진 로봇들에 제한되었거나 수동 정렬이 필요했다.
Gap: 서로 다른 센서(카메라, proprioceptive), 액추에이터(2-1400 DoF), 제어 주파수(5-20Hz)를 가진 로봇들을 자동으로 처리하면서 동시에 조작, 네비게이션, 보행, 항공 등 극도로 다양한 embodiment을 제어하는 단일 정책은 아직 없었다.
Why: cross-embodied 학습은 데이터 효율성을 크게 향상시키고, 각 로봇별 맞춤 정책 설계 비용을 줄이며, 일반화된 로봇 정책의 실현 가능성을 보여준다.
Approach: Transformer 기반 정책으로 가변 길이 관찰을 토큰 시퀀스로 직렬화하고, 행동 타입별 readout 토큰과 action-space specific head를 사용하여 임의 차원의 행동을 예측한다.

Figure 5: Real Evaluation. We compare CrossFormer to the same architecture trained on just the

900K 궤적, 20개 embodiment 규모: 조작(단일/이중 팔), 바퀴 로봇, quadcopter, quadruped을 포함하는 가장 크고 다양한 cross-embodied 데이터셋으로 학습
관찰/행동 공간 자동 처리: 수동 정렬 없이 2-1400 DoF의 행동, 다양한 센서 조합, 5-20Hz 제어 주파수 차이를 자동 처리
specialist 정책 수준 성능: 각 embodiment별 맞춤 정책과 성능을 일치시키면서 cross-embodiment 학습 기존 최고 성능 초과
실제 로봇 검증: 광범위한 실제 환경 실험으로 방법의 실용성 입증

Figure 2: Policy architecture. Our architecture enables cross-embodied policy learning through

모든 관찰(다중 카메라, proprioceptive 센서)을 토큰으로 변환하여 flat sequence로 순서화
각 행동 타입(manipulation, navigation, locomotion 등)마다 action readout 토큰을 입력 시퀀스에 삽입
대응하는 출력 임베딩을 행동-공간 특화 head로 전달하여 올바른 차원의 벡터 생성
Action chunking을 사용하여 시간적 일관성 개선
Language instruction 또는 goal image를 통한 flexible task specification 지원
OXE dataset의 900K 부분 궤적과 GNM navigation, DROID manipulation, Go1 quadruped, ALOHA bimanual 데이터로 co-training

학습 데이터 분포에 대한 분석이 명확하지 않음 (각 embodiment별 궤적 개수 분포 미상)
Fine-tuning 필요성에 대한 분석이 부족 (zero-shot vs. few-shot 성능 비교 부재)
Failure case 분석이 제시되지 않음 (어떤 embodiment/task 조합에서 어려움을 겪는지 미상)
후속 연구: 더 이질적인 embodiment (예: 유연한 로봇, 다리 개수 다양성) 포함; embodiment 인코딩과 데이터 불균형의 영향 연구; 강화학습을 통한 on-robot improvement 탐색

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: CrossFormer는 cross-embodied 로봇 학습에서 획기적인 진전을 이루었으며, 실용적인 문제(센서/액추에이터 이질성)를 우아하게 해결하고 광범위한 실제 실험으로 검증된 강력한 작업이다.