What Matters in Building Vision-Language-Action Models for Generalist Robots
์ ์: Xinghang Li, Peiyan Li, Long Qian, Minghuan Liu, Dong Wang, Jirong Liu, Bingyi Kang, Xiao Ma, Xinlong Wang, Di Guo, Tao Kong, Hanbo Zhang, Huaping Liu | ๋ ์ง: 2024-12-18 | URL: https://arxiv.org/abs/2412.14058 📄 PDF
Essence
Fig. 2: This work mainly considers three key ingredients for building VLAs based on VLMs: How to formulate the problem
Vision-Language-Action (VLA) ๋ชจ๋ธ ๊ฐ๋ฐ ์ VLM ๋ฐฑ๋ณธ ์ ํ, ์ํคํ
์ฒ ์ค๊ณ, ๋ฐ์ดํฐ ํ์ฉ ์์ ์ด๋ผ๋ ์ธ ๊ฐ์ง ํต์ฌ ์์๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๊ณ , ์ด๋ฅผ ํตํด RoboVLMs ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ๋ก๋ด ์กฐ์ ์์
์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: VLM์ด ๋๊ท๋ชจ ์น ๋ฐ์ดํฐ๋ก ํ์ต๋์ด ๊ฐ๋ ฅํ ๋ฉํฐ๋ชจ๋ฌ ํํ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์์ผ๋ฉฐ, ์ต๊ทผ ์ฌ๋ฌ VLA ๊ธฐ๋ฐ ๋ก๋ด ์ ์ฑ
๋ค์ด ์ ๋งํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๊ณ ์๋ค๋ ๊ฒ์ด ์๋ ค์ ธ ์๋ค.
- Gap: ๊ธฐ์กด VLA ์ฐ๊ตฌ๋ค์ด ๋ค์ํ VLM ๋ฐฑ๋ณธ, ์ํคํ
์ฒ, ๋ฐ์ดํฐ ์กฐํฉ์ ์ฌ์ฉํ์ง๋ง, ์ด๋ฌํ ์ค๊ณ ์ ํ์ด ๋ก๋ด ์กฐ์ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ์ข
ํฉ์ ์ผ๋ก ๋ถ์ํ ์ฐ๊ตฌ๊ฐ ๋ถ์กฑํ๋ค.
- Why: VLA์ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น๋ ํต์ฌ ์ค๊ณ ์์๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํ์
ํ๊ณ ๋ช
ํํ ๊ฐ์ด๋๋ผ์ธ์ ์ ์ํจ์ผ๋ก์จ ํฅํ ์ผ๋ฐํ๋ ๋ก๋ด ์ ์ฑ
๊ฐ๋ฐ์ ํจ์จ์ ์ผ๋ก ์งํํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
- Approach: 8๊ฐ ์ด์์ VLM ๋ฐฑ๋ณธ, 4๊ฐ์ง ์ ์ฑ
์ํคํ
์ฒ, 600๊ฐ ์ด์์ ์คํ ์ค๊ณ๋ฅผ ํตํด 3๊ฐ์ง ํต์ฌ ์ง๋ฌธ(์ด๋ค ๋ฐฑ๋ณธ, ์ด๋ค ์ํคํ
์ฒ, ์ธ์ cross-embodiment ๋ฐ์ดํฐ ์ถ๊ฐ)์ ๋ํ ๋ต์ ์ฒด๊ณ์ ์ผ๋ก ์ฐพ์ผ๋ฉฐ, ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ ์ฐํ RoboVLMs ํ๋ ์์ํฌ๋ฅผ ๊ฐ๋ฐํ๋ค.
Achievement
Fig. 4: The experimental results for RoboVLMs in Simulations and real world.
- VLM ๋ฐฑ๋ณธ ๋ถ์: Flamingo, LLaVA, MoonDream, PaliGemma, Qwen, KOSMOS ๋ฑ ๋ค์ํ VLM ๊ตฌ์กฐ์ ๋ก๋ด ์กฐ์ ์์
์ ๋ํ ํจ๊ณผ๋ฅผ ๋น๊ต ๋ถ์
- ์ํคํ
์ฒ ์ค๊ณ ๊ฐ์ด๋: One-step ๋ชจ๋ธ๋ง, ํ์คํ ๋ฆฌ ๋ชจ๋ธ๋ง(Interleaved vs Policy Head), ์ฐ์/์ด์ฐ ์ก์
์คํ์ด์ค์ ์ฅ๋จ์ ์ ๋ช
ํํ ์ ์
- ๋ฐ์ดํฐ ํ์ฉ ์ ๋ต: In-domain ๋ฐ์ดํฐ์ cross-embodiment ๋ฐ์ดํฐ์ ์ต์ ํ์ฉ ์์ ๊ณผ ๋ฐฉ์์ ๊ท๋ช
- RoboVLMs ํ๋ ์์ํฌ: ์๋ก์ด VLM์ ์ฝ๊ฒ ํตํฉํ ์ ์๊ณ ๋ค์ํ ์ค๊ณ ์ ํ์ ์์ ๋กญ๊ฒ ์กฐํฉ ๊ฐ๋ฅํ ํ์ฅ ๊ฐ๋ฅํ ํ๋ ์์ํฌ ์ ์
- ์ต๊ณ ์ฑ๋ฅ ๋ฌ์ฑ: ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ 3๊ฐ ์์
๋ฐ ์ค์ ๋ก๋ด ์คํ์์ state-of-the-art ์ฑ๋ฅ ๋ฌ์ฑ
How
Fig. 2: This work mainly considers three key ingredients for building VLAs based on VLMs: How to formulate the problem
- 8๊ฐ ์ด์์ ์๋ก ๋ค๋ฅธ ๊ตฌ์กฐ์ ํฌ๊ธฐ์ VLM ๋ฐฑ๋ณธ(๋ค์ํ visual encoder, fusion mechanism, data scale)์ ๋ํ ์ฒด๊ณ์ ๋น๊ต
- VLA ์ํคํ
์ฒ๋ฅผ ํ์คํ ๋ฆฌ ์ ๋ณด ํฌํจ ์ฌ๋ถ(One-Step vs Historical)์ ํตํฉ ๋ฐฉ์(Interleaved vs Policy Head)์ผ๋ก ๋ถ๋ฅ ํ ์ฑ๋ฅ ๋น๊ต
- ์ก์
์คํ์ด์ค ์ค๊ณ(์ฐ์ vs ์ด์ฐ)์ ๋ฐ๋ฅธ ์ ์ฑ
์ฑ๋ฅ ํ๊ฐ
- Cross-embodiment ๋ฐ์ดํฐ๋ฅผ pre-training ๋จ๊ณ์ post-training ๋จ๊ณ์ ๊ฐ๊ฐ ํ์ฉํ์ ๋์ ์ํฅ ๋ถ์
- In-domain ๋ก๋ด ๋ฐ์ดํฐ์ ๋ค์ํ ์๋ณด๋๋จผํธ๋ก๋ถํฐ์ ๋ฐ์ดํฐ๋ฅผ ํผํฉ ํ์ฉํ ๋์ ์ต์ ๋น์จ๊ณผ ์์ ๊ท๋ช
- Open-source ํ๋ ์์ํฌ ์ ๊ณต์ผ๋ก ์ฌํ์ฑ ๋ฐ ํ์ฅ์ฑ ํ๋ณด(์ฝ๋, ๋ชจ๋ธ, ๋ฐ์ดํฐ์
, ํดํท ๊ณต๊ฐ)
Originality
- ๋ก๋ด VLA ์ฐ๊ตฌ์์ ์ฒ์์ผ๋ก 600๊ฐ ์ด์์ ๋๊ท๋ชจ ์ฒด๊ณ์ ์คํ์ ํตํด ๋ฐฑ๋ณธ, ์ํคํ
์ฒ, ๋ฐ์ดํฐ ์ ํ์ ์ํธ์์ฉ์ ์ข
ํฉ ๋ถ์
- ๊ธฐ์กด ๊ฐ๋ณ ์์
์ค์ฌ์ ์ฐ๊ตฌ์์ ๋ฒ์ด๋ ์ค๊ณ ์ ํ์ ์ผ๋ฐํ ๊ฐ๋ฅํ ๊ฐ์ด๋๋ผ์ธ์ ์ ์ํ๋ ๋ฉํ ์์ค์ ์ฐ๊ตฌ ์ํ
- VLM์ ๋ค์ํ ๊ตฌ์กฐ(visual encoder ์ข
๋ฅ, fusion mechanism ๋ฑ)๊ฐ ๋ก๋ด ์ ์ด์ ๋ฏธ์น๋ ์ฐจ๋ณํ๋ ์ํฅ์ ์ต์ด๋ก ์ค์ฆ์ ์ผ๋ก ๊ท๋ช
- Cross-embodiment ๋ฐ์ดํฐ์ in-domain ๋ฐ์ดํฐ์ ์ต์ ์กฐํฉ ์ ๋ต์ ์ ๋์ ์ผ๋ก ๊ท๋ช
ํ ์ฒซ ์ฐ๊ตฌ
Limitation & Further Study
- ์คํ์ด ์ฃผ๋ก ํ์ ์กฐ์(tabletop manipulation) ์์
์ ์ง์ค๋์ด ์์ด ๋ค๋ฅธ ๋ก๋ด ๋๋ฉ์ธ(์ด๋ ์กฐ์, ์ธํด๋จผ ๋ก๋ด ๋ฑ)์ ๋ํ ์ผ๋ฐํ ๊ฒ์ฆ ํ์
- VLM ๋ฐฑ๋ณธ ๋ถ์์ด ํน์ ์์ (๋
ผ๋ฌธ ์์ฑ ์์ )์ ๊ณต๊ฐ๋ ๋ชจ๋ธ๋ค๋ก ์ ํ๋์ด ๋น ๋ฅด๊ฒ ์งํํ๋ VLM ํ๊ฒฝ์์์ ์ง์์ ์
๋ฐ์ดํธ ํ์
- ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํ๊ฒฝ ๊ฐ ์ฑ๋ฅ ๊ฐ๊ฒฉ์ด ์กด์ฌํ๋ฉฐ, ์ค์ ํ๊ฒฝ์์์ ๋ ๊ด๋ฒ์ํ ๊ฒ์ฆ์ด ์๊ตฌ๋จ
- ๊ณ์ฐ ๋น์ฉ ๋ถ์์ด ๋ถ์กฑํ์ฌ ๊ฐ ์ค๊ณ ์ ํ์ ํจ์จ์ฑ-์ฑ๋ฅ ํธ๋ ์ด๋์คํ๊ฐ ๋ช
ํํ์ง ์์
- ๋ค์ํ ์ธ์ด, ๋ฌธํ์ ๋ฐฐ๊ฒฝ์ ์ง์ ์ดํด๋์ ๋ํ ํ๊ฐ ๋ถ์ฌ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: VLA ๊ฐ๋ฐ์ ํต์ฌ ์ค๊ณ ์์๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ ์ค์ํ ๋ฉํ ์ฐ๊ตฌ๋ก, ๊ด๋ฒ์ํ ์ค์ฆ ์คํ์ ํตํด ์ค์ง์ ์ธ ๊ฐ์ด๋๋ผ์ธ์ ์ ์ํ๊ณ ํ์ฅ ๊ฐ๋ฅํ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ ๋ก๋ด ๊ธฐ์ด ๋ชจ๋ธ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ์๋นํ ๊ธฐ์ฌ๋ฅผ ํ ๊ฒ์ผ๋ก ์์๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์