3D-VLA: A 3D Vision-Language-Action Generative World Model
์ ์: Haoyu Zhen, Xiaowen Qiu, Peihao Chen, Jincheng Yang, Xin Yan, Yilun Du, Yining Hong, Chuang Gan | ๋ ์ง: 2024-03-14 | URL: https://arxiv.org/abs/2403.09631 📄 PDF
Essence
Figure 2. Overview of our 3D-VLA pipeline. The left part shows our goal-generation capability. Our model can imagine the
3D-VLA๋ 3D ์ธ์, ์ถ๋ก , ํ๋์ ์์ฑํ ์๋ ๋ชจ๋ธ๋ก ํตํฉํ๋ embodied foundation model์ด๋ฉฐ, 3D LLM ์์ interaction token๊ณผ diffusion model์ ๊ฒฐํฉํ์ฌ ๋ก๋ด์ ๋ชฉํ ์ด๋ฏธ์ง/ํฌ์ธํธ ํด๋ผ์ฐ๋ ์์ฑ๊ณผ ํ๋ ์์ธก์ ์ํํ๋ค.
Motivation
- Known: 2D ๊ธฐ๋ฐ์ vision-language-action (VLA) ๋ชจ๋ธ๋ค(RT-2, PALM-E)๊ณผ 3D ํ๊ฒฝ์์์ embodied foundation model๋ค์ด ์กด์ฌํ์ง๋ง, ์ด๋ค์ ์ง์ ์ ์ธ perception-to-action ๋งคํ์๋ง ์ด์ ์ ๋๋ฉฐ ์๋ ๋ค์ด๋๋ฏน์ค๋ฅผ ๊ฐ๊ณผํ๋ค.
- Gap: ๊ธฐ์กด embodied ๋ชจ๋ธ๋ค์ 2D ์
๋ ฅ์ ์์กดํ์ฌ 3D ๋ฌผ๋ฆฌ ์ธ๊ณ์์ ํตํฉ์ด ๋ถ์กฑํ๋ฉฐ, ์ธ๊ฐ์ฒ๋ผ ๋ฏธ๋ ์ํ๋ฅผ ์์ํ๊ณ ๊ณํํ๋ ์๋ ๋ชจ๋ธ ๋ฅ๋ ฅ์ด ์๋ค. ๋ํ ๊ธฐ์กด embodied ๋ฐ์ดํฐ์
๋ค์ 3D ์ ๋ณด๊ฐ ๋ถ์กฑํ๋ค.
- Why: ๋ก๋ด์ 3D ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ์ด '๊ฐ์ฅ ๋จผ ์ปต์ ์ค๊ฐ ์๋์ ๋ฃ๊ธฐ'์ ๊ฐ์ ๋ณต์กํ ๋ช
๋ น ์ํ์ ํ์์ ์ด๋ฉฐ, ๋ฏธ๋ ์ํ ์์ฑ ๋ฅ๋ ฅ์ ๋ ๋์ ํ๋ ๊ณํ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: 3D LLM ๊ธฐ๋ฐ ์ํคํ
์ฒ์ scene, object, action token์ ๋์
ํ๊ณ , pretrain๋ embodied diffusion model๋ค์ projector๋ฅผ ํตํด ์ ๋ ฌํ์ฌ ๋ชฉํ ์ด๋ฏธ์ง/ํฌ์ธํธ ํด๋ผ์ฐ๋ ์์ฑ์ ์ํํ๋ค. ๊ธฐ์กด ๋ก๋ด ๋ฐ์ดํฐ์
์์ 2M์ 3D-language-action ์์ ์ถ์ถํ ๋๊ท๋ชจ instruction tuning ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๋ค.
Achievement
Figure 1. Examples from our 3D Embodied Instruction Tuning Dataset.
- 3D ๊ธฐ๋ฐ ์๋ ๋ชจ๋ธ: 3D perception, reasoning, action์ unified ์ํคํ
์ฒ๋ก ํตํฉํ๊ณ multimodal goal generation(RGB-D ์ด๋ฏธ์ง, depth, point cloud) ๋ฅ๋ ฅ์ ์ ๊ณต
- ๋๊ท๋ชจ 3D embodied ๋ฐ์ดํฐ์
: 2M์ 3D-language-action ๋ฐ์ดํฐ ์์ผ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์
๊ตฌ์ถ์ผ๋ก ๊ธฐ์กด embodied ๋ฐ์ดํฐ์
์ 3D ์ ๋ณด ๋ถ์กฑ ๋ฌธ์ ํด๊ฒฐ
- ์ฐ์ํ ์ฑ๋ฅ: goal generation, goal-based planning, action prediction์์ baseline ๋ชจ๋ธ๋ค์ ํฌ๊ฒ ๋ฅ๊ฐํ๋ฉฐ, ์ ํต์ ์ธ์ด ๊ธฐ๋ฐ task์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ ๋ฌ์ฑ
- ๋ค์ํ task ์ง์: task captioning, action prediction, localization, multimodal goal generation, robot planning, embodied question answering ๋ฑ ๋ค์ํ embodied task ์ํ
How
Figure 2. Overview of our 3D-VLA pipeline. The left part shows our goal-generation capability. Our model can imagine the
- 3D LLM(Hong et al., 2023)์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ scene, object, action ๋ฑ์ interactive token์ LLM ์ดํ์ ์ถ๊ฐ
- RGBD-to-RGBD์ point-to-point generation์ ์ํ embodied diffusion model์ ์ฌ์ ํ์ต
- projector๋ฅผ ํตํด diffusion decoder์ LLM embedding space๋ฅผ ํจ์จ์ ์ผ๋ก ์ ๋ ฌํ์ฌ multimodal goal generation ์ํ
- ๊ธฐ์กด ๋ก๋ด ๋ฐ์ดํฐ์
(์ค์ ๋ฐ์ดํฐ, ํฉ์ฑ ๋ฐ์ดํฐ, ์ธ๊ฐ-๊ฐ์ฒด ์ํธ์์ฉ)์์ depth estimator๋ฅผ ์ด์ฉํด 3D ์ ๋ณด ์ถ์ถ ๋ฐ point cloud๋ก ๋ณํ
- ChatGPT ๊ธฐ๋ฐ์ ์๋ ํ์ดํ๋ผ์ธ์ผ๋ก 3D ๊ด๋ จ ์ฃผ์๊ณผ ์ธ์ด ์ค๋ช
์ ์ถ์ถํ์ฌ 2M์ instruction tuning ๋ฐ์ดํฐ์
๊ตฌ์ถ
Originality
- 3D point cloud๋ฅผ action token ์์ฑ์ ํ์ฉํ ์ต์ด์ VLA ๋ชจ๋ธ๋ก, 2D ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ ๋๋น 3D ๊ณต๊ฐ ์ดํด๋ ํ์ ์ ์ ๊ณ
- LLM๊ณผ diffusion model ์ฌ์ด์ projector ๊ธฐ๋ฐ ์ ๋ ฌ ๋ฉ์ปค๋์ฆ์ ํตํด multimodal goal generation๊ณผ action prediction์ unified ์ํคํ
์ฒ๋ก ํตํฉ
- ๋๊ท๋ชจ ๊ธฐ์กด embodied ๋ฐ์ดํฐ์
์ 3D ์ ๋ณด๋ก ํ๋ถํ๊ฒ ํ๋ ์๋ํ๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ํ์ดํ๋ผ์ธ ๊ฐ๋ฐ๋ก 4M+ 3D ๋ฐ์ดํฐ ์ ํ๋ณด
Limitation & Further Study
- ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ์ฑ๋ฅ ๊ฒ์ฆ์ด ์ ์๋์ง ์์ผ๋ฉฐ, held-in ๋ฐ์ดํฐ์
์์์ ํ๊ฐ๋ง ์ ๊ณต๋จ
- depth estimator๋ฅผ ํตํ 3D ์ ๋ณด ์ถ์ถ ๊ณผ์ ์์ ๋ฐ์ํ ์ ์๋ ์ค๋ฅ์ ๋์ ํจ๊ณผ ๋ฏธ๋ถ์
- ์์ฑ๋ goal image์ point cloud์ ์ ๋์ ํ์ง ํ๊ฐ ๋ฉํธ๋ฆญ์ด ๋ถ๋ช
ํํจ
- inference time๊ณผ computational cost์ ๋ํ ์์ธํ ๋ถ์ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ๋ก sim-to-real ์ ์ด ํ์ต, ์ค์ ๋ก๋ด ํ๋ซํผ์์์ end-to-end ๊ฒ์ฆ, ๋ค์ํ embodiment์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ํ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: 3D-VLA๋ embodied AI์ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๋ฉฐ, 3D ์ธ์๊ณผ ์๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ํ๋ ์์ฑ์ ํตํฉํ ์ ์์ ํ์ ์ ์ด๋ค. ๋๊ท๋ชจ 3D embodied ๋ฐ์ดํฐ์
๊ตฌ์ถ๊ณผ multimodal goal generation ๋ฅ๋ ฅ์ ๋ก๋ด ์กฐ์ ๋ถ์ผ์ ์๋นํ ๊ธฐ์ฌ๋ฅผ ํ ์ ์์ผ๋, ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์