Octo: An Open-Source Generalist Robot Policy

Essence

Fig. 1: We introduce Octo, an open-source, generalist policy for robotic manipulation. Octo is a transformer-based polic

Open X-Embodiment 데이터셋의 800k 궤적으로 사전학습된 transformer 기반의 generalist robot policy인 Octo를 제안하며, 언어 명령이나 목표 이미지로 지시 가능하고 새로운 센서와 액션 공간으로 효율적으로 미세조정 가능하다.

Known: RT-1, RoboCat 등 여러 robot embodiment을 다루는 generalist robot policy들이 제안되었으나, 대부분 사전정의된 센서와 액션 공간으로 제한되고 공개되지 않았다.
Gap: 기존 generalist robot policy들은 새로운 관측과 액션 공간으로의 효율적인 미세조정을 지원하지 않으며, 다양한 로봇 플랫폼의 센서 설정 변화에 대응하기 어렵다.
Why: 대규모 사전학습 정책의 공개는 로봇 커뮤니티의 접근성을 높이고, 효율적인 미세조정 능력은 새로운 로봇 설정에 빠르게 적응할 수 있게 하여 실제 응용을 가능케 한다.
Approach: Tokenizer 기반 transformer 아키텍처로 임의의 입력(다양한 카메라, 센서)과 출력(다양한 액션 공간)을 처리하고, block-wise attention 구조로 새로운 관측 및 액션 헤드를 추가하여 미세조정한다.

Fig. 1: We introduce Octo, an open-source, generalist policy for robotic manipulation. Octo is a transformer-based polic

최대 규모 데이터셋 활용: Open X-Embodiment의 800k 로봇 궤적으로 사전학습하여 이전 generalist robot policy보다 훨씬 큰 데이터에 노출
유연한 인터페이스: 언어 명령 또는 목표 이미지로 지시 가능하며, 다양한 카메라 설정(워크스페이스, 손목 카메라)과 액션 공간(관절 제어, end-effector 제어)을 지원
효율적 미세조정: 표준 consumer GPU에서 몇 시간 내에 새로운 센서와 액션 공간으로 미세조정 가능
9개 로봇 플랫폼 검증: 4개 기관의 다양한 로봇(WidowX, UR5, RT-1 등)에서 우수한 성능 입증
완전 공개: 모델 체크포인트(27M, 93M 파라미터), 사전학습 파이프라인, 미세조정 스크립트 등 전체 리소스 공개

Fig. 2: Model architecture. Left: Octo tokenizes task descriptions (green) and input observations (blue) using a pretrai

Transformer, diffusion objectives, action chunks, block-wise attention 등 기존 기법들의 조합이 novel하며, 특히 cross-embodied generalist policy 맥락에서 처음 적용
새로운 관측 및 액션 공간으로의 적응을 위해 adapter 기반 미세조정 방식 도입
Open X-Embodiment 데이터의 최대 규모 활용으로 이전 연구보다 훨씬 큰 다양성 확보
완전 공개형 generalist robot policy로서 선례적 기여

논문에서 미세조정 성능의 상세한 정량 비교 부족 (새로운 도메인별 향상도 수치 제한적)
9개 로봇이 모두 조작(manipulation) 태스크에 한정되어 navigation 등 다른 도메인 일반화 능력 미검증
Diffusion head의 계산 비용이 더 높은지 여부와 real-time 제어 가능성 불명확
후속 연구: 다른 로봇 도메인(navigation, quadruped 등)으로의 확장, 더 큰 규모 사전학습, 온라인 학습 능력 추가 연구 필요

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: Octo는 대규모 다양한 데이터와 유연한 아키텍처로 generalist robot policy의 실질적 발전을 이루었으며, 완전 공개를 통해 로봇 커뮤니티에 즉시적 기여를 제공한다. 미세조정 효율성과 다중 플랫폼 호환성은 실제 응용성을 크게 높인다.