InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation
์ ์: Shuai Yang, Hao Li, Bin Wang, Yilun Chen, Yang Tian, Tai Wang, Hanqing Wang, Feng Zhao, Yiyi Liao, Jiangmiao Pang | ๋ ์ง: 2025-07-23 | URL: https://arxiv.org/abs/2507.17520 📄 PDF
Essence
Figure 1: Method overview. InstructVLA integrates vision-language understanding with precise
InstructVLA๋ Vision-Language Model์ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ณด์กดํ๋ฉด์ ๋ก๋ด ์กฐ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ end-to-end VLA ๋ชจ๋ธ์ด๋ฉฐ, Vision-Language-Action Instruction Tuning (VLA-IT) ํจ๋ฌ๋ค์์ ํตํด multimodal reasoning๊ณผ action generation์ ๋์์ ์ต์ ํํ๋ค.
Motivation
- Known: RT-2, OpenVLA ๋ฑ์ ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ vision-language ๋ฅ๋ ฅ๊ณผ ์กฐ์ ์ฑ๋ฅ ์ค ํ๋๋ฅผ ํฌ์ํ๊ฑฐ๋ task-specific ๋ฐ์ดํฐ์๋ง ์ ํ๋๋ฉฐ, pre-trained VLM์ catastrophic forgetting ๋ฌธ์ ๋ฅผ ๊ฒช๋๋ค.
- Gap: VLM์ ์ ์ฐํ multimodal reasoning์ ๋ณด์กดํ๋ฉด์ ๋์์ ์ ํํ action generation์ ๋ฌ์ฑํ๊ณ , embodied reasoning์ ํจ๊ณผ์ ์ผ๋ก ์กฐ์ ์ฑ๋ฅ์ ์ฐ๊ฒฐํ๋ ๋ฉ์ปค๋์ฆ์ด ๋ถ์ฌํ๋ค.
- Why: ๋ก๋ด์ด ์ค์ ํ๊ฒฝ์์ ํจ๊ณผ์ ์ผ๋ก ์๋ํ๋ ค๋ฉด ๋ณต์กํ instruction์ ์ดํดํ๊ณ reasoningํ๋ฉด์๋ ์ ํํ ์กฐ์์ ์ํํด์ผ ํ๋ฏ๋ก, ์ด ๋ ๋ฅ๋ ฅ์ ํตํฉ์ ์ค์ฉ์ ์ธ human-robot interaction์ ์ํด ํ์์ ์ด๋ค.
- Approach: VLA-IT ํจ๋ฌ๋ค์์์ mixture-of-experts adaptation์ ํ์ฉํ์ฌ latent action queries๋ฅผ ํตํด VLM backbone์ ๋ณด์กดํ๋ฉด์ action generation์ ํ์ตํ๊ณ , standard VLM corpora์ 650K ํฌ๊ธฐ์ VLA-IT ๋ฐ์ดํฐ์
์ jointly ํ์ตํ๋ค.
Achievement
Figure 4: Simpler-Instruct. Six representative test cases with instructions and InstructVLA responses.
- SimplerEnv ์ฑ๋ฅ: SpatialVLA ๋๋น 33% ํฅ์ ๋ฌ์ฑ
- ์ผ๋ฐํ ๋ฅ๋ ฅ: SimplerEnv-Instruct ๋ฒค์น๋งํฌ์์ fine-tuned OpenVLA ๋๋น 96% ํฅ์, GPT-4o ๋ณด์กฐ action expert ๋๋น 29% ํฅ์
- Multimodal ์ฑ๋ฅ: baseline VLM๋ค์ ์ด๊ณผํ๋ multimodal task ์ฑ๋ฅ ๋ฌ์ฑ
- Inference-time scaling: textual reasoning์ ํ์ฉํ ์กฐ์ ์ฑ๋ฅ ํฅ์ (์๋ฎฌ๋ ์ด์
๋ฐ ์ค์ ํ๊ฒฝ)
- ๋ฐ์ดํฐ์
๋ฐ ๋ฒค์น๋งํฌ: 650K ์ํ VLA-IT ๋ฐ์ดํฐ์
๊ณผ 80-task SimplerEnv-Instruct ๋ฒค์น๋งํฌ ์ ์
How
Figure 2: Overview of the InstructVLA. InstructVLA integrates the multimodal reasoning capa-
- ๋ ๋จ๊ณ ํ๋ จ: (1) Action Pretraining์์ language-based motion description์ผ๋ก๋ถํฐ distilled latent action queries๋ฅผ ์ฌ์ฉํ์ฌ VLM-driven action expert ํ์ต, (2) VLA-IT์์ mixture-of-experts adaptation์ผ๋ก textual reasoning๊ณผ action generation ํตํฉ
- Multimodal web data, manipulation dataset, VLA-IT corpus๋ฅผ jointly ํ์ตํ์ฌ ์๋์ผ๋ก textual reasoning๊ณผ action generation ๊ฐ switching ๊ฐ๋ฅ
- SimplerEnv-Instruct ๋ฒค์น๋งํฌ ๊ตฌ์ฑ: closed-loop manipulation๊ณผ high-level instruction reasoning์ ๋ชจ๋ ํฌํจํ 80๊ฐ zero-shot task
- Latent action queries๋ฅผ ํตํด low-level control learning์ VLM backbone์ผ๋ก๋ถํฐ decouplingํ์ฌ multimodal reasoning capability ๋ณด์กด
Originality
- VLA ์์ญ์์ ์ฒ์์ผ๋ก VLM์ reasoning ๋ฅ๋ ฅ์ ์กฐ์ ์ฑ๋ฅ ํฅ์์ ๋ช
์์ ์ผ๋ก ํ์ฉํ๊ณ ์ด๋ฅผ ์ฒด๊ณํํ VLA-IT ํจ๋ฌ๋ค์ ์ ์
- Mixture-of-experts adaptation์ ํตํ novelํ multimodal knowledge์ action generation์ ํตํฉ ๋ฉ์ปค๋์ฆ
- Embodied reasoning (scene understanding, task decomposition)์ manipulation instruction tuning์ ํฌํจํ ์๋ก์ด ๋ฐ์ดํฐ annotation ์ ๋ต
- Inference-time scaling์ ๊ฐ๋
์ VLA์ ๋์
ํ์ฌ textual reasoning์ผ๋ก ์กฐ์ ์ฑ๋ฅ ํฅ์ ์
์ฆ
Limitation & Further Study
- SimplerEnv-Instruct๋ ์์์
์ผ๋ก ์ค๊ณ๋ 80๊ฐ task๋ก ์ ํ๋์ด ์์ผ๋ฉฐ, ๋ ๊ด๋ฒ์ํ open-world scenario์์์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ฏธํ๊ฐ
- Real-world ์คํ์ด ์ ํ์ ์ด๋ฉฐ, ๋ค์ํ embodiment์์์ ์ฑ๋ฅ ์ผ๊ด์ฑ์ด ์ถฉ๋ถํ ๊ฒ์ฆ๋์ง ์์
- 650K VLA-IT ๋ฐ์ดํฐ์
๊ตฌ์ถ ๋น์ฉ ๋ฐ ํ์ฅ์ฑ ์ด์์ ๋ํ ๋
ผ์ ๋ถ์กฑ
- Latent action queries์ ํ์ต ์์ ์ฑ๊ณผ ๋ค์ํ ์กฐ์ task์ ๋ํ ํํ ๋ฅ๋ ฅ์ ํ๊ณ ๋ถ์ ํ์
- ํ์ ์ฐ๊ตฌ: (1) open-world instruction following์ ์ํ larger-scale benchmark ๊ตฌ์ถ, (2) cross-embodiment transfer ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ, (3) real-time inference ์ต์ ํ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: InstructVLA๋ VLA ๋ถ์ผ์์ multimodal reasoning๊ณผ precise action generation์ ๊ท ํ์ ์ด๋ฃจ๋ ์ค์ํ ์ง์ ์ ๋ณด์ฌ์ฃผ๋ฉฐ, VLA-IT ํจ๋ฌ๋ค์๊ณผ mixture-of-experts ํตํฉ ๋ฐฉ์์ ์ ์ ํ ๊ธฐ์ ์ ๊ธฐ์ฌ๋ฅผ ์ ์ํ๋ค. ๋ค๋ง real-world ๊ฒ์ฆ ๋ฒ์์ open-world generalization์ ๋ํ ์ถ๊ฐ ํ๊ฐ๊ฐ ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์