Diffusion Transformer Policy
์ ์: Zhi Hou, Tianyi Zhang, Yuwen Xiong, Hengjun Pu, Chengyang Zhao, Ronglei Tong, Yu Qiao, Jifeng Dai, Yuntao Chen | ๋ ์ง: 2024-10-21 | URL: https://arxiv.org/abs/2410.15959v4 📄 PDF
Essence
Figure 2. Illustrations of different robot policy architectures. (a) is the common robot transformer architecture with d
Diffusion Transformer Policy๋ ํฐ ๋ฉํฐ๋ชจ๋ฌ diffusion transformer๋ฅผ ์ฌ์ฉํ์ฌ ์ฐ์ action sequence๋ฅผ ์ง์ denoisingํจ์ผ๋ก์จ, ์์ action head ๋์ transformer์ scaling ๋ฅ๋ ฅ์ ํ์ฉํ๋ generalist robot policy์ด๋ค.
Motivation
- Known: ์ต๊ทผ large vision-language-action ๋ชจ๋ธ๋ค์ diverse robot dataset์ผ๋ก pretrain๋์ด ์๋ก์ด ํ๊ฒฝ์์ few-shot generalization์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ทธ๋ฌ๋ Robot Transformer, OpenVLA, Octo ๋ฑ ๊ธฐ์กด ๋ฐฉ์๋ค์ discretized action์ด๋ ์์ action head๋ก ๊ฐ๋ณ action์ ์์ธกํ์ฌ diverse action space ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ด ์ ํ์ ์ด๋ค.
- Gap: ๊ธฐ์กด diffusion policy ๋ฐฉ์(์: Octo)์ ์์ MLP network๋ก single embedding ๊ธฐ๋ฐ action์ denoisingํ๊ณ , ์ฌ์ fused embedding์ ๊ธฐ๋ฐํ์ฌ action anticipation์ ํ์ํ ์์ธํ ์ญ์ฌ์ ๊ด์ฐฐ์ ์ถฉ๋ถํ ํ์ฉํ์ง ๋ชปํ๋ค. Cross-embodiment dataset์ ๋ค์ํ camera view์ action space๋ฅผ ์ฒ๋ฆฌํ๋๋ฐ ํ๊ณ๊ฐ ์๋ค.
- Why: Generalist robot policy๋ diverseํ robot dataset์์ ํ์ตํ์ฌ ์๋ก์ด embodiment๊ณผ ํ๊ฒฝ์ผ๋ก์ generalization์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ์ด๋ ๋ก๋ด ๋ฐ์ดํฐ ์์ง์ ์๊ฐ๊ณผ ๋น์ฉ์ ํฌ๊ฒ ์ค์ผ ์ ์๋ค.
- Approach: Diffusion Transformer Policy๋ in-context conditional diffusion transformer ์ํคํ
์ฒ๋ฅผ ํตํด action chunks๋ฅผ ์ง์ denoisingํ๋ค. ๊ฐ historical image observation patch์ ์กฐ๊ฑดํ๋์ด visual detail์ ๋ณด์กดํ๋ฉด์ transformer์ scalability๋ฅผ ์ ์งํ๋ causal transformer ๊ธฐ๋ฐ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ค.
Achievement
Figure 1.
- ๋ค์ค ๋ฒค์น๋งํฌ ์ฐ์์ฑ: ManiSkill2, Libero, Calvin, SimplerEnv ๋ฑ ์๋ฎฌ๋ ์ด์
๋ฒค์น๋งํฌ์ ์ค์ Franka arm์์ OpenVLA, Octo ๋๋น ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ ๋ฌ์ฑ
- Calvin ABCโD ์์
SOTA: ๋จ์ผ third-view camera๋ง์ผ๋ก completed tasks ํ๊ท ์ 5์์ 3.6์ผ๋ก ๊ฐ์
- Real-to-Sim ์ผ๋ฐํ: SimplerEnv Google Robot ๋ฒค์น๋งํฌ์์ ๊ฐ๋ ฅํ real-to-sim generalization ์ฑ๋ฅ ์
์ฆ
- Pretraining ํจ๊ณผ: Calvin์์ success sequence length๋ฅผ 1.2 ์ด์ ํฅ์์ํด
- Continuous action ์ฒ๋ฆฌ: Discretization ์์ด ์ฐ์ 7D end-effector action์ ํจ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ๋ง
How
Figure 2. Illustrations of different robot policy architectures. (a) is the common robot transformer architecture with d
- Frozen CLIP์ผ๋ก ์ธ์ด instruction tokenization
- DINOv2๋ก image patch feature ์ถ์ถ ํ end-to-end joint optimization
- Q-Former์ FiLM conditioning์ผ๋ก instruction context ๊ธฐ๋ฐ image feature ์ ํ
- 7D continuous action vector (translation 3D + rotation 3D + gripper 1D)๋ฅผ zero-padding์ผ๋ก token dimension์ ์ ๋ ฌ
- In-context conditional style๋ก multimodal tokens์ action์ causal transformer๋ก ์ฒ๋ฆฌ
- Action chunk ๋จ์๋ก diffusion denoising ์ํ (๊ฐ๋ณ action์ด ์๋)
- Open X-Embodiment Dataset์ผ๋ก large-scale cross-embodiment pretraining ์ํ
Originality
- ๊ธฐ์กด Octo์ ์์ MLP diffuser ๋์ ํฐ transformer๋ฅผ diffuser๋ก ์ฌ์ฉํ์ฌ action denoising์ capacity ํ๊ธฐ์ ์ฆ๋
- In-context conditioning ๋ฐฉ์ ๋์
์ผ๋ก ๊ฐ historical observation patch์ ์ง์ ์กฐ๊ฑดํ๋์ด fused embedding ๊ธฐ๋ฐ ์ ๊ทผ์ ํ๊ณ ๊ทน๋ณต
- Action chunk ๋จ์ denoising์ผ๋ก action sequence์ temporal coherence ํฅ์
- Continuous action ๊ธฐ๋ฐ ์ ๊ทผ์ผ๋ก discretization์ ๋ด๋ถ ํธ์ฐจ ๋ฌธ์ ํด๊ฒฐ
- Large-scale cross-embodiment dataset์์์ transformer scalability ํ์ฉ ์ต์ ํ
Limitation & Further Study
- Pretrain ๋จ๊ณ์ Open X-Embodiment Dataset ์ ๊ทผ์ฑ๊ณผ ๊ณ์ฐ ๋น์ฉ ์๊ตฌ ์ฌํญ์ด ๋์
- DINOv2๋ web data ๊ธฐ๋ฐ์ด๋ฏ๋ก robot-specific visual feature ํ์ต์ ์ต์ ํ๋์ง ์์ ์ ์์
- Zero-padding ๊ธฐ๋ฐ action representation์ด ๋ค์ํ action space dimension์ ํจ์จ์ ์ธ์ง ๋ถ๋ช
ํ
- ํ์์ฐ๊ตฌ: ๋ค์ํ action type (gripper ๋น์ด์งํ, manipulation-specific action) ์ฒ๋ฆฌ ํ์ฅ
- ํ์์ฐ๊ตฌ: Real-world deployment์์ computational latency์ ์ค์๊ฐ ์ฑ๋ฅ ํ๊ฐ ํ์
- ํ์์ฐ๊ตฌ: Multi-modal diffusion์ computational complexity ์ต์ ํ ์ฐ๊ตฌ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Diffusion Transformer Policy๋ transformer ๊ธฐ๋ฐ diffusion ์ํคํ
์ฒ๋ก ๊ธฐ์กด generalist robot policy์ action space ์ฒ๋ฆฌ ํ๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ทน๋ณตํ๋ฉฐ, ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ SOTA ์ฑ๋ฅ๊ณผ ๊ฐ๋ ฅํ generalization์ ์
์ฆํ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์