TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation
์ ์: Junjie Wen, Yichen Zhu, Jinming Li, Minjie Zhu, Kun Wu, Zhiyuan Xu, Ning Liu, Ran Cheng, Chaomin Shen, Yaxin Peng, Feifei Feng, Jian Tang | ๋ ์ง: 2024-09-19 | URL: https://arxiv.org/abs/2409.12514 📄 PDF
Essence
TinyVLA๋ ๊ฒฝ๋์ vision-language ๋ชจ๋ธ๊ณผ diffusion policy decoder๋ฅผ ๊ฒฐํฉํ์ฌ ๋๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ ์ฌ์ ํ์ต ์์ด๋ ๋น ๋ฅธ ์ถ๋ก ์๋์ ๋์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋ฌ์ฑํ๋ ๋ก๋ด ์กฐ์์ฉ VLA ๋ชจ๋ธ์ด๋ค.
Motivation
- Known: RT-2, OpenVLA์ ๊ฐ์ ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ ๋ฉํฐํ์คํฌ ํ์ต๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ์ด ์ฐ์ํ์ง๋ง, 70์ต ๊ฐ ์ด์์ ๋งค๊ฐ๋ณ์๋ก ์ธํ ๋๋ฆฐ ์ถ๋ก ์๋์ 970K ์ํ์ OpenX ๋ฐ์ดํฐ์
์ ํ์๋ก ํ๋ ๋๊ท๋ชจ ์ฌ์ ํ์ต์ด ํ์ํ๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค.
- Gap: ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ ๋น ๋ฅธ ์ถ๋ก ์๋์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋์์ ๋ฌ์ฑํ์ง ๋ชปํ์ผ๋ฉฐ, ๊ฒฝ๋ ๋ชจ๋ธ๋ก๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ผ ์ ์๋ ์ํคํ
์ฒ ์ค๊ณ๊ฐ ๋ถ์กฑํ๋ค.
- Why: ๋ก๋ด ์ ์ด์์ ์ถ๋ก ์๋๋ ์ฌ์ฉ์ ๊ฒฝํ๊ณผ ๋ก๋ด์ ์ฆ๊ฐ์ ๋ฐ์์ฑ์ ์ง์ ์ ์ํฅ์ ๋ฏธ์น๋ฉฐ, ๋๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ ์์ง์ ์ด๋ ค์๊ณผ ๊ณ์ฐ ๋น์ฉ์ ๊ณ ๋ คํ ๋ ๋ฐ์ดํฐ ํจ์จ์ฑ์ด ์ค์ ๋ฐฐํฌ์ ํ์์ ์ด๋ค.
- Approach: 1.4์ต~14์ต ๊ฐ ๋งค๊ฐ๋ณ์์ ๊ฒฝ๋ VLM์ Pythia ์ธ์ด ๋ชจ๋ธ๊ณผ LLaVA ํ๋ จ ํ์ดํ๋ผ์ธ์ผ๋ก ๊ตฌ์ถํ๊ณ , LoRA๋ฅผ ์ด์ฉํ ๋งค๊ฐ๋ณ์ ํจ์จ์ ๋ฏธ์ธ์กฐ์ (5% ๋งค๊ฐ๋ณ์๋ง ํ์ต ๊ฐ๋ฅ)๊ณผ diffusion policy decoder๋ฅผ ํตํด ์ง์ ๋ก๋ด ์ก์
์ ์ถ๋ ฅํ๋ค.
Achievement
- ์ถ๋ก ์๋ ํฅ์: TinyVLA-H๊ฐ OpenVLA ๋๋น 20๋ฐฐ ๋ ๋น ๋ฅธ ์ถ๋ก ์ง์ฐ์๊ฐ ๋ฌ์ฑ
- ์ฑ๋ฅ ๊ฐ์ : ์ค์ ๋ก๋ด ํ๊ฒฝ์์ OpenVLA ๋๋น 25.7% ๋์ ์ฑ๊ณต๋ฅ ๋ฌ์ฑ (๋งค๊ฐ๋ณ์๋ 5.5๋ฐฐ ์ ์)
- ๋ฐ์ดํฐ ํจ์จ์ฑ: OpenX ๋ก๋ด ๋ฐ์ดํฐ์
์ ๋ํ ์ฌ์ ํ์ต ์์ด๋ ๋์ ์ฑ๋ฅ ์ ์ง
- ๊ฐ๋ ฅํ ์ผ๋ฐํ: ์ธ์ด ์ง์ ๋ค์์ฑ, ์ ๊ท ๊ฐ์ฒด, ๋ฏธ์๋ จ ์์น, ๊ฐ์ฒด ์ธํ ๋ณํ, ๋ฐฐ๊ฒฝ ๋ณํ, ํ๊ฒฝ ๋ณํ ๋ฑ ๋ค์ํ ์ฐจ์์์ OpenVLA์ ๋๋ฑํ๊ฑฐ๋ ์ฐ์ํ ์ผ๋ฐํ ์ฑ๋ฅ
- ์ด์คํ ๋ก๋ด ์์
์ฐ์์ฑ: ๋จ์ผํ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ OpenVLA์ ๋ฌ๋ฆฌ ์ด์คํ ์์
์์ OpenVLA๋ฅผ ํฌ๊ฒ ์ํ
How
Fig. 2: Model architecture. The left image illustrates the
- ๊ฒฝ๋ VLM ๊ตฌ์ถ: Pythia ์ธ์ด ๋ชจ๋ธ๊ณผ LLaVA ๋ฐ์ดํฐ์
์ ํ์ฉํ์ฌ 70M~1.4B ๋งค๊ฐ๋ณ์ ๊ท๋ชจ์ ์ปดํฉํธํ vision-language ๋ชจ๋ธ ํ์ต
- LoRA ๊ธฐ๋ฐ ํจ์จ์ ๋ฏธ์ธ์กฐ์ : ์ฌ์ ํ์ต๋ VLM์ ๊ฐ์ค์น๋ฅผ ๊ณ ์ ํ๊ณ LoRA๋ฅผ ํตํด ์ ์ฒด ๋งค๊ฐ๋ณ์์ 5%๋ง ํ์ต ๊ฐ๋ฅํ๋๋ก ์ค์
- Policy decoder ํตํฉ: ์ฌ์ ํ์ต๋ multimodal ๋ชจ๋ธ์ ์ถ๋ ฅ์ ๋จ์ ์ ํ ํฌ์์ ํตํด diffusion policy decoder์ ์ฐ๊ฒฐ
- Diffusion ๊ธฐ๋ฐ ์ก์
์์ฑ: ์๋ํ๊ท ํ ํฐ ์์ธก ๋์ diffusion ๋ชจ๋ธ์ ์ด์ฉํ ์ง์ ๋ก๋ด ์ก์
์ถ๋ ฅ์ผ๋ก ์ถ๋ก ์๋ ๊ฐ์
Originality
- ๊ฒฝ๋ VLM(1.4B ์ดํ)๊ณผ diffusion policy์ ๊ฒฐํฉ์ด๋ผ๋ ์๋ก์ด VLA ์ํคํ
์ฒ ์ค๊ณ๋ก ์ถ๋ก ์๋์ ๋ฐ์ดํฐ ํจ์จ์ฑ ๋์ ๋ฌ์ฑ
- LoRA๋ฅผ ํ์ฉํ 5% ๋งค๊ฐ๋ณ์๋ง ํ์ตํ๋ ์ด์ํ ์กฐ์ ์ ๋ต์ผ๋ก ๊ณ์ฐ ํจ์จ์ฑ ๊ทน๋ํ
- ๋ก๋ด ๋ฐ์ดํฐ ์ฌ์ ํ์ต ์์ด๋ vision-language ์ฌ์ ํ์ต์ ์ด์ ์ ํ์ฉํ ์ ์์์ ์
์ฆ
- ์๋ํ๊ท ํ ํฐ ์์ธก์์ diffusion ๋ชจ๋ธ ๊ธฐ๋ฐ ์ง์ ์ก์
์์ธก์ผ๋ก์ ํจ๋ฌ๋ค์ ์ ํ
Limitation & Further Study
- ๊ฒฝ๋ VLM์ ์ฑ๋ฅ ํ๊ณ: 70M ๋ชจ๋ธ์ ๋ ํฐ ๋ชจ๋ธ ๋๋น ์ธ์ด ์ดํด ๋ฅ๋ ฅ์ด ์ ํ๋ ์ ์์
- Diffusion ๋ชจ๋ธ์ ์ถ๊ฐ ๊ณ์ฐ: Diffusion ๋์ฝ๋๋ ์ํ ๋จ๊ณ๋ก ์ธํ ์ถ๊ฐ ๊ณ์ฐ ๋น์ฉ์ด ๋ฐ์ํ ๊ฐ๋ฅ์ฑ
- ์คํ ๋ฒ์ ์ ํ: 5๊ฐ์ง ์ค์ ๋ก๋ด ์์
์ผ๋ก ํ๊ฐ๋์์ผ๋ ๋ ๋ค์ํ ์กฐ์ ์์
์ ๋ํ ๊ฒ์ฆ ํ์
- ํ์ ์ฐ๊ตฌ: ๊ทน๋์ ๊ฒฝ๋ํ(์์ญ M ๋งค๊ฐ๋ณ์) ๋ชจ๋ธ์ ๋ํ ์ฑ๋ฅ ํน์ฑ ๋ถ์, ๋ค์ํ ๋ก๋ด ํ๋ซํผ๊ณผ ์กฐ์ ์์
์ ๋ํ ํ์ฅ์ฑ ๊ฒ์ฆ, diffusion ๋จ๊ณ ์ ์ต์ ํ๋ฅผ ํตํ ์๋ ๋ ๊ฐ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: TinyVLA๋ ๊ฒฝ๋ VLM๊ณผ diffusion policy์ ์ฐฝ์์ ๊ฒฐํฉ์ ํตํด ์ถ๋ก ์๋์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ด๋ผ๋ ์ค์ ๋ก๋ด ๋ฐฐํฌ์ ํต์ฌ ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ๊ด๋ฒ์ํ ์๋ฎฌ๋ ์ด์
๋ฐ ์ค์ ๋ก๋ด ์คํ์ ํตํด ์ฐ์ํ ์ฑ๋ฅ์ ์
์ฆํ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์