Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning
์ ์: Junjie Wen, Minjie Zhu, Yichen Zhu, Zhibin Tang, Jinming Li, Zhongyi Zhou, Chengmeng Li, Xiaoyu Liu, Yaxin Peng, Chaomin Shen, Feifei Feng | ๋ ์ง: 2024-12-04 | URL: https://arxiv.org/abs/2412.03293 📄 PDF
Essence
Figure 1: Our proposed DiffusionVLA model unifies autoregressive and diffusion modeling to enable self-reasoning and rob
DiffusionVLA๋ autoregressive ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ diffusion ๋ชจ๋ธ์ ๊ฒฌ๊ณ ํ ํ๋ ์์ฑ์ ๊ฒฐํฉํ ๋ก๋ด foundation ๋ชจ๋ธ๋ก, reasoning injection ๋ชจ๋์ ํตํด ์๊ฐ ์์ฑ๋ ์ถ๋ก ์ ์ ์ฑ
ํ์ต์ ์ง์ ํตํฉํ๋ค.
Motivation
- Known: Autoregressive VLA ๋ชจ๋ธ(RT-2, OpenVLA)์ ๋ค์ ํ ํฐ ์์ธก์ผ๋ก ์ถ๋ก ๋ฅ๋ ฅ์ด ๋ฐ์ด๋์ง๋ง ์ ํํ ํ๋ ์์ฑ์ด ์ ํ์ ์ด๊ณ , diffusion-based ์ ์ฑ
์ ํ๋ ์์ฑ์ ๊ฐํ๋ ์ถ๋ก ๋ฅ๋ ฅ์ด ๋ถ์กฑํ๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ autoregressive ๋๋ diffusion ์ค ํ ๊ฐ์ง์๋ง ์ด์ ์ ๋ง์ถฐ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ๊ฒฌ๊ณ ํ ํ๋ ์์ฑ์ ๋์์ ๋ฌ์ฑํ์ง ๋ชปํ๊ณ , ๋
ผ๋ฆฌ์ ์ถ๋ก ๊ณผ ์คํ ๊ฐ๋ฅํ ๋ก๋ด ์ ์ฑ
์ฌ์ด์ ๋ช
์์ ๊ฐ๊ทน์ด ์กด์ฌํ๋ค.
- Why: ๋ก๋ด์ด ๋ณต์กํ ์์
์ ์ํํ ๋ ์๊ฐ์ ๋ณํ์ ๊ฐ๊ฑดํ๋ฉด์๋ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ์ค๋ช
ํ ์ ์์ด์ผ ํ๋ฏ๋ก, ์ถ๋ก ๊ณผ ํ๋ ์์ฑ์ ํตํฉ์ด ์ค์ฉ์ ๋ก๋ด ์์คํ
์ ํ์์ ์ด๋ค.
- Approach: Reasoning injection ๋ชจ๋์ ํตํด pre-trained VLM์ autoregressive ์ถ๋ก ์ถ๋ ฅ์ diffusion ๊ธฐ๋ฐ ์ ์ฑ
ํค๋์ ์ง์ ์๋ฒ ๋ฉํจ์ผ๋ก์จ ์ถ๋ก ๊ณผ ํ๋ ์์ฑ์ ๊ธด๋ฐํ ์ฐ๊ฒฐํ๋ค.
Achievement
Figure 3: Experimental Results for Factory Sorting. We compared our DiVLA with Diffusion Policy, Octo, TinyVLA, and Open
- ์๊ฐ์ ์ผ๋ฐํ: ํ์ต๋์ง ์์ ๊ฐ์ฒด๋ฅผ ์๊ฐ ์์ฑ ์ถ๋ก ์ผ๋ก ์ธ์ํ๊ณ ๋ถ๋ฅํ๋ฉฐ, 102๊ฐ์ ๋ฏธํ์ต ๊ฐ์ฒด์ ๋ํด zero-shot bin picking์์ 63.7% ์ ํ๋ ๋ฌ์ฑ
- ํด์ ๊ฐ๋ฅ์ฑ: Reasoning injection ๋ชจ๋์ด ์ ์ฑ
์ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ๋ช
์์ ์ผ๋ก ๊ฐ์ํํ์ฌ ์ฅ์ ๋ถ์ ๋ฐ ์คํจ ์์ธ ํ์
์ง์
- ์ ์์ฑ: ์๋ก์ด ์ง์์ฌํญ์ ๋ฐ๋ฅผ ์ ์์ผ๋ฉฐ ๋ํ ๋ฅ๋ ฅ ์ ์ง, bimanual ๋ก๋ด ๋ฑ ์๋ก์ด embodiment์ ๋น ๋ฅด๊ฒ ์ ์ ๊ฐ๋ฅ
- ์ถ๋ก ์๋: DiVLA-2B๋ A6000 GPU์์ 82Hz, DiVLA-7B๋ 42Hz๋ก ์ค์๊ฐ ๋ฐ์์ฑ ๋ณด์ฅ
- ๋ฐ์ดํฐ ํจ์จ์ฑ: ๋ณต์กํ ์์
์ 50๊ฐ ๋ฏธ๋ง์ demonstration์ผ๋ก ํ์ต ๊ฐ๋ฅ
- ํ์ฅ์ฑ: 2B์์ 72B ํ๋ผ๋ฏธํฐ๋ก ์ค์ผ์ผ๋ง ์ ์ผ๋ฐํ ๋ฐ ์ฑ๋ฅ ํฅ์ ์
์ฆ
How
Figure 1: Our proposed DiffusionVLA model unifies autoregressive and diffusion modeling to enable self-reasoning and rob
- Pre-trained Vision-Language Model์ ๊ธฐ๋ฐ์ผ๋ก autoregressive ์ถ๋ก ๋ฅ๋ ฅ ์ ์ง
- Diffusion model์ ์ ์ฑ
ํค๋๋ก ์ ์ฉํ์ฌ noise-denoising ๊ณผ์ ์ผ๋ก ํ๋ ์ํ์ค ์์ฑ
- Reasoning injection ๋ชจ๋: ์๊ฐ ์์ฑ๋ ์ถ๋ก ๊ตฌ๋ฌธ์ ์ ์ฑ
ํ์ต ํ๋ก์ธ์ค์ ์ง์ ์๋ฒ ๋ฉ
- Next-token prediction ๋ชฉํ๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ์ฉ์ ์ฟผ๋ฆฌ์ ๋ํด ํ์ฌ ๊ด์ฐฐ์ ๊ธฐ๋ฐ์ผ๋ก ํจ๊ณผ์ ์ธ ์ถ๋ก ์ํ
- Internet-scale vision-language ๋ฐ์ดํฐ์ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ ๊ฒฐํฉํ post-training ์ํ
- Factory sorting, zero-shot bin picking, visual question-answering ๋ฑ ๋ค์ค ์์
์์ ํ๊ฐ
Originality
- Autoregressive ๋ชจ๋ธ๊ณผ diffusion ๋ชจ๋ธ์ ์ฒซ ๋ฒ์งธ ์ค์ง์ ํตํฉ: ์ถ๋ก ์ ์ํด autoregressive, ํ๋ ์์ฑ์ ์ํด diffusion ํ์ฉ
- Reasoning injection ๋ชจ๋์ ์ ์: ์ถ๋ก ์ถ๋ ฅ์ ์ ์ฑ
ํ์ต์ ์ง์ ์๋ฒ ๋ฉํ์ฌ implicit gap ํด์
- Self-generated reasoning์ ํตํ ํด์ ๊ฐ๋ฅ์ฑ ๋ฌ์ฑ: ๋ชจ๋ธ์ ์ฌ๊ณ ๊ณผ์ ์ ๋ช
์์ ์ผ๋ก ๊ฐ์ํ
- ๋จ์ํ๋ฉด์๋ ์ ์ฐํ ํ๋ ์์ํฌ: ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ ์ฌ์ด ๋ฐฐํฌ ๋ฐ ์
๊ทธ๋ ์ด๋ ๊ฐ๋ฅ
- ์ค์ธ๊ณ ๋ก๋ด ์คํ์ ํตํ ๊ด๋ฒ์ํ ๊ฒ์ฆ: ์๊ฐ์ ๋ณํ, ์๋ก์ด embodiment, ๋ฏธํ์ต ๊ฐ์ฒด์ ๋ํ ๊ฐ๊ฑด์ฑ ์
์ฆ
Limitation & Further Study
- Reasoning๊ณผ action ๊ฐ coupling์ ์ ๋์ ๋ํ ์์ธํ ablation study ๋ถ์กฑ: ๊ฐ ๋ชจ๋์ ๋
๋ฆฝ์ ๊ธฐ์ฌ๋ ๋ถ์ ํ์
- ์ถ๋ก ์์ฑ์ ์ค๋ฅ๊ฐ ์ ์ฑ
์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ์ ๋์ ๋ถ์ ๋ฏธํก
- ๋ค์ํ ๋ก๋ด morphology์ ๋ํ ์ ์ ๋ฉ์ปค๋์ฆ์ ์๋ํ ์์ค ๋ถ๋ช
ํ
- ๊ณ์ฐ ๋น์ฉ ๋ถ์ ๋ถ์กฑ: reasoning ๋ชจ๋ ์ถ๊ฐ๋ก ์ธํ ์ ์ฒด inference latency ์ค๋ฒํค๋ ์ ๋ํ ํ์
- ํ์ ์ฐ๊ตฌ: reasoning๊ณผ action์ ์ํธ์์ฉ์ ๋ ๊น์ด ์๊ฒ ๋ถ์ํ๋ ์ด๋ก ์ ํ๋ ์์ํฌ ๊ฐ๋ฐ, ๋ ํฐ ๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ์
์์์ ์ฑ๋ฅ ๊ฒ์ฆ, ๋ค์ค ๋ก๋ด ํ๋ ฅ ์๋๋ฆฌ์ค ํ์ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: DiffusionVLA๋ autoregressive์ diffusion ๋ชจ๋ธ์ ์ฐฝ์์ ์ผ๋ก ๊ฒฐํฉํ๊ณ reasoning injection ๋ชจ๋๋ก ์ถ๋ก ๊ณผ ํ๋ ์์ฑ์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํจ์ผ๋ก์จ, ํด์ ๊ฐ๋ฅ์ฑ๊ณผ ๊ฐ๊ฑดํ ์ผ๋ฐํ๋ฅผ ๋์์ ๋ฌ์ฑํ ํ์ ์ ์ธ ๋ก๋ด foundation ๋ชจ๋ธ์ด๋ค. ์ค์ธ๊ณ ๋ค์ค ๋ก๋ด ์คํ๊ณผ ํ์ฅ์ฑ ๊ฒ์ฆ์ ํตํด ์ค์ฉ์ ๊ฐ์น๋ฅผ ์
์ฆํ์ผ๋, ๋ชจ๋ ๊ฐ ์ํธ์์ฉ์ ๋ํ ์ฌ์ธต ๋ถ์์ด ๋ณด๊ฐ๋๋ฉด ๋์ฑ ์์ฑ๋ ์์ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์