RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation
์ ์: Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, Jun Zhu | ๋ ์ง: 2024-10-10 | URL: https://arxiv.org/abs/2410.07864 📄 PDF
Essence
Figure 1: Overview of Robotics Diffusion Transformer with 1B-Parameters (RDT-1B), a
bimanual manipulation์ ์ํ 1.2B ํ๋ผ๋ฏธํฐ ๊ท๋ชจ์ diffusion foundation model์ธ RDT๋ฅผ ์ ์ํ๋ฉฐ, ๋ค์ค ๋ก๋ด ๋ฐ์ดํฐ์
์ฌ์ ํ์ต๊ณผ physically interpretable unified action space๋ฅผ ํตํด ๋์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: bimanual manipulation์ ๋ก๋ด ์์ฉ์์ ํ์์ ์ด์ง๋ง ๋ ํ์ ์กฐ์ ๋ณต์ก์ฑ๊ณผ ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ์ธํด ์ด๋ ต๋ค. ์ต๊ทผ unimanual manipulation์ ์ํ foundation model ๊ฐ๋ฐ์ด ์งํ ์ค์ด๋ค.
- Gap: bimanual manipulation์ multi-modal action distribution์ ํจ๊ณผ์ ์ผ๋ก ํํํ๋ฉด์ ๋์์ heterogeneous multi-modal input์ scalability๋ฅผ ํ๋ณดํด์ผ ํ๋ค. ๋ํ ์๋ก ๋ค๋ฅธ ๋ก๋ด์ action space variation์ผ๋ก ์ธํ negative transfer ๋ฌธ์ ๊ฐ ํด๊ฒฐ๋์ง ์์๋ค.
- Why: bimanual manipulation foundation model์ ๋ณต์กํ ์ค์ ์์
์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ์ ๊ณตํ๋ฉฐ, ๋ฐ์ดํฐ ๋ถ์กฑ๊ณผ ์ํคํ
์ฒ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ๊ฒ์ด ๋ก๋ด ์๋ํ์ ์ค์ฉ์ ์์ฉ์ ์ค์ํ๋ค.
- Approach: diffusion transformer๋ฅผ backbone์ผ๋ก ํ์ฌ multi-modality๋ฅผ ํํํ๊ณ , physically interpretable unified action space๋ฅผ ๋์
ํ์ฌ ์๋ก ๋ค๋ฅธ ๋ก๋ด์ action representation์ ํตํฉํ๋ค. 46๊ฐ ๋ฐ์ดํฐ์
์ผ๋ก ์ฌ์ ํ์ต ํ 6K+ ์ํผ์๋์ bimanual ๋ฐ์ดํฐ๋ก fine-tuningํ๋ค.
Achievement
Figure 1: Overview of Robotics Diffusion Transformer with 1B-Parameters (RDT-1B), a
- Multi-modal Action ํํ: diffusion model์ capacity๋ฅผ ํ์ฉํ์ฌ bimanual manipulation์ ๋ณต์กํ action distribution์ ํจ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ๋ง
- ํ์ฅ์ฑ๊ณผ ์ ํ์ฑ: Transformer backbone๊ณผ MLP decoding, ๊ฐ์ ๋ normalization์ ํตํด high-frequency robotic data์ ๋น์ ํ ๋์ญํ์ ํฌ์ฐฉ
- ๋ฐ์ดํฐ ์ด์ง์ฑ ํด๊ฒฐ: Physically interpretable unified action space๋ก ๋ค์ํ ๋ก๋ด์ action์ ํตํฉํ๋ฉด์ ๋ฌผ๋ฆฌ์ ์๋ฏธ ๋ณด์กด
- ๋๊ท๋ชจ ์ฌ์ ํ์ต: 1.2B ํ๋ผ๋ฏธํฐ์ ์ต๋ ๊ท๋ชจ diffusion-based robotic manipulation model๋ก 3๋ฐฐ ์ด์์ ๋ฐ์ดํฐ ์ฆํญ
- ์ฐ์ํ ์ฑ๋ฅ: 56% ์ฑ๊ณต๋ฅ ๊ฐ์ , zero-shot ์ผ๋ฐํ, 1~5 shot few-shot learning, language instruction ์ดํด ๋ฅ๋ ฅ ์
์ฆ
How
Figure 3: RDT framework. Heterogeneous action spaces of various robots are embedded into a
- Diffusion Transformer (DiT) backbone ๊ธฐ๋ฐ์ผ๋ก multi-modal input (text, vision, action)์ ์ด์ง์ฑ ์ ๊ฑฐ
- Robotic data์ ํน์ฑ (temporal-spatial discontinuity, high-frequency changes, unstable numerical range)์ ๋ง์ถ ๊ฐ์ : MLP decoding, improved normalization, alternate condition injection
- Physically interpretable unified action space ์ค๊ณ๋ก gripper arm์ ๊ฐ์ง ๋ค์ํ ๋ก๋ด์ action representation ํตํฉ
- Multi-robot ๋ฐ์ดํฐ์
(46๊ฐ, ~1M episodes) ํ์ฉ ์ฌ์ ํ์ต์ผ๋ก transferable physical knowledge ํ์ต
- ALOHA dual-arm robot ๊ธฐ๋ฐ ์์ฒด ์์ง bimanual dataset (6K+ episodes)์ผ๋ก target-robot fine-tuning
- Language-conditioned visuomotor policy๋ก T5์ SigLIP ํ์ฉํ instruction following ๊ตฌํ
- Diffusion model์ iterative denoising ํ๋ก์ธ์ค๋ฅผ ํตํ ์์ฐจ์ action ์์ฑ
Originality
- Bimanual manipulation์ ์ํ ์ต์ด์ diffusion foundation model๋ก, multi-modal action distribution์ ๋ช
์์ ์ผ๋ก ๋ค๋ฃจ๋ ์๋ก์ด ์ ๊ทผ
- Physically interpretable unified action space๋ผ๋ novel ๊ฐ๋
์ผ๋ก heterogeneous robot data์ negative transfer ๋ฌธ์ ๊ทผ๋ณธ ํด๊ฒฐ
- Robotic data์ ๊ณ ์ ํ ํน์ฑ (nonlinearity, high-frequency, numerical instability)์ ๋ฐ์ํ DiT ๊ตฌ์กฐ์ ๋ง์ถคํ ๊ฐ์
- 3๋ฐฐ ์ด์ ๋ฐ์ดํฐ ์ฆํญ์ ํตํ cross-robot pretraining ์ ๋ต์ผ๋ก data scarcity ๋ฌธ์ ์ ์ค์ง์ ํด๊ฒฐ
Limitation & Further Study
- ํ๊ฐ๊ฐ ALOHA dual-arm robot์ ํ์ ๋์ด ์์ผ๋ฉฐ, ๋ค๋ฅธ bimanual ๋ก๋ด ํ๋ซํผ์์์ ์ฑ๋ฅ ์ผ๋ฐํ ๊ฒ์ฆ ํ์
- Physically interpretable unified action space์ ์ค๊ณ ์๋ฆฌ์ ๋ค๋ฅธ gripper arm ๋ก๋ด์ผ๋ก์ ํ์ฅ์ฑ์ ๋ํ ๋ ์์ธํ ๋ถ์ ๋ถ์กฑ
- 1~5 shot few-shot learning์ ์ฑ๋ฅ์ด ์์ง ์๋ฒฝํ์ง ์์ผ๋ฏ๋ก, ๊ทน๋จ์ ์ผ๋ก ์ ์ ๋ฐ์ดํฐ ์ํฉ์์์ ๊ฐ์ ํ์
- Fine-tuning dataset์ ๋ค์์ฑ (task, object, environment)์ด ์ ํ์ ์ผ ์ ์์ผ๋ฏ๋ก, ๋ ๊ด๋ฒ์ํ bimanual task ์ปค๋ฒ๋ฆฌ์ง ํ๋ ํ์
- ํ์ ์ฐ๊ตฌ๋ก non-gripper ์กฐ์ (dexterous hand)์ด๋ mobile manipulation ๋ฑ ๋ค์ํ ๋ก๋ด ํํ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ ํ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: RDT-1B๋ bimanual manipulation์ ์ํ diffusion foundation model์ ํ๊ธฐ์ ์ฌ๋ก๋ก, physically interpretable unified action space ๊ฐ๋
๊ณผ ๋ง์ถคํ architecture ์ค๊ณ๋ฅผ ํตํด multi-modality์ data heterogeneity ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ์์ผ๋ฉฐ, ๋๊ท๋ชจ ์ฌ์ ํ์ต๊ณผ ๊ฐ๋ ฅํ ์คํ ๊ฒฐ๊ณผ๋ก ๋ก๋ด ์๋ํ์ ์ค์ง์ ์ง์ ์ ๋ณด์ฌ์ค๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์