Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends
์ ์: Tian-Yu Xiang, Ao-Qun Jin, Xiao-Hu Zhou, Mei-Jiang Gui, Xiao-Liang Xie, Shi-Qi Liu, Shuang-Yi Wang, Sheng-Bin Duan, Fu-Chao Xie, Wen-Kai Wang, Si-Cheng Wang, Ling-Yun Li, Tian Tu, Zeng-Guang Hou | ๋ ์ง: 2025-06-26 | URL: https://arxiv.org/abs/2506.20966 📄 PDF
Essence
Fig. 1.
๋ณธ ๋
ผ๋ฌธ์ Vision-Language-Action (VLA) ๋ชจ๋ธ์ post-training ๋ฐฉ๋ฒ์ ์ธ๊ฐ์ ์ด๋ ํ์ต ์ด๋ก (Newell์ ์ ์ฝ ์ฃผ๋ ์ด๋ก )์ ๊ด์ ์์ ์ข
ํฉ์ ์ผ๋ก ๋ถ์ํ๊ณ , ํ๊ฒฝ ์ง๊ฐ, ์ ์ฒด ์ธ์, ์์
์ดํด, ๋ค์ค ์์ ํตํฉ์ 4๊ฐ์ง ๋ฒ์ฃผ๋ก ์ฒด๊ณํํ ์ค๋ฌธ ๋
ผ๋ฌธ์ด๋ค.
Motivation
- Known: VLA ๋ชจ๋ธ์ VLM์ ์๊ฐ ์ง๊ฐ ๋ฐ ๋ช
๋ น์ด ์ดํด ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ๋ค์ํ ์กฐ์ ์์
์์ ์ฐ์ํ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ๊ทธ๋ฌ๋ ๋์ ์ ํ๋๊ฐ ์๊ตฌ๋๋ ์์ฉ์์๋ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ถ๊ฐ ์ ์ ์์ด๋ ์ฑ๋ฅ ๊ฒฉ์ฐจ๊ฐ ๋ฐ์ํ๋ค.
- Gap: VLA ๋ชจ๋ธ ์ ์์ ๋ํ ๊ด์ฌ์ด ์ฆ๊ฐํ๊ณ ์์์๋ ๋ถ๊ตฌํ๊ณ , VLA model post-training ๊ธฐ๋ฒ์ ๋ํ ํฌ๊ด์ ์ธ ๋ฆฌ๋ทฐ๊ฐ ๋ถ์กฑํ๋ค. ํนํ ์ธ๊ฐ์ ์ด๋ ํ์ต ์ด๋ก ๊ณผ ์ฐ๊ฒฐํ์ฌ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ ์ฐ๊ตฌ๊ฐ ์ ํ์ ์ด๋ค.
- Why: VLA ๋ชจ๋ธ์ NLP/CV์ foundation model์ ๋นํด out-of-the-box ์ฑ๋ฅ์ด ๋ฎ์ผ๋ฉฐ, ์ ํ๋ ๋ฐ์ดํฐ์
, ์ด์ง์ ์ธ ์ ์ฒด ๊ตฌ์กฐ, ๋ณต์กํ ์ถ์ ๊ท์น์ผ๋ก ์ธํด ์ค์ ๋ฐฐํฌ ์ post-training์ด ํ์์ ์ด๋ค. ์ด๋ ์ธ๊ฐ์ ์ด๋ ๊ธฐ์ ํ๋ ๊ณผ์ ๊ณผ ์ ์ฌํ์ฌ ์ ๊ฒฝ๊ณผํ๊ณผ ๋ก๋ด๊ณตํ์ ์ฐ๊ฒฐํ๋ NeuroAI ๊ด์ ์์ ์ค์ํ๋ค.
- Approach: ๋ณธ ๋
ผ๋ฌธ์ Newell์ ์ ์ฝ ์ฃผ๋ ์ด๋ก ์ ์ ์ฉํ์ฌ VLA post-training ๋ฐฉ๋ฒ์ 4๊ฐ์ง ๋ฒ์ฃผ๋ก ๋ถ๋ฅํ๊ณ , ๊ฐ ๋ฒ์ฃผ๋ณ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ข
ํฉํ๋ฉฐ ํ์ค ๋ฒค์น๋งํฌ์์์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ต ๋ถ์ํ๋ค. ๋ํ ์ธ๊ฐ์ ์ด๋ ํ์ต ์ ๋ต์ผ๋ก๋ถํฐ์ ํต์ฐฐ์ VLA post-training์ ํฅํ ๋ฐฉ๋ฒ์ผ๋ก ์ ์ํ๋ค.
Achievement
Fig. 4. Taxonomy of post-training VLA models proposed in this study.
- ํฌ๊ด์ ์ธ VLA post-training ๋ฆฌ๋ทฐ: ์ธ๊ฐ์ ์ด๋ ํ์ต ๊ด์ ์์ VLA model adaptation์ ํํฉ์ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ ์ฒซ ๋ฒ์งธ ์ข
ํฉ ์ค๋ฌธ ๋
ผ๋ฌธ
- ์ ๊ฒฝ๊ณผํ๊ณผ ๋ก๋ด๊ณตํ์ ํตํฉ ๊ด์ : Newell์ ์ ์ฝ ์ฃผ๋ ์ด๋ก ์ ๊ธฐ๋ฐ์ผ๋ก ํ๊ฒฝ, ์ ์ฒด, ์์
์ 3๊ฐ์ง ํต์ฌ ์์์ ์ด๋ค์ ๋ค์ค ์์ ํตํฉ์ ํตํ post-training ๋ฐฉ๋ฒ๋ก ์ฒด๊ณํ
- ์ค์ฉ์ ๊ฐ์ด๋๋ผ์ธ ์ ๊ณต: ํ์ค ๋ฒค์น๋งํฌ ์คํ ๊ฒฐ๊ณผ ์ข
ํฉ์ ํตํด VLA model ๊ฐ๋ฐ์ ์ํ actionable insights ๋์ถ
- ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ ์ ์: ํ์ฌ์ ์ด๋ฆฐ ๊ณผ์ (open challenges)์ emerging trends๋ฅผ ๋ช
์ํ๋ฉฐ ํ์ ์ฐ๊ตฌ์ ๋ฐฉํฅ์ฑ ์ ์
How
- VLA ๋ชจ๋ธ์ pre-training๊ณผ post-training ๋จ๊ณ๋ฅผ ์ธ๊ฐ์ ์ ์ฒ์ ์ด๋ ํ๋ก๊ทธ๋จ๊ณผ ์ด๋ ๊ธฐ์ ํ์ต ๊ณผ์ ์ ๋ณ๋ ฌํ
- Open X-Embodiment ๋ฐ์ดํฐ์
์ ํฌํจํ ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ์
์ ๊ท๋ชจ ๋ณํ ์ถ์ ์ผ๋ก VLA ๋ชจ๋ธ ๋ฐ์ ์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ถ์
- VLA ๋ชจ๋ธ ์ํคํ
์ฒ ๋น๊ต: ๋ณ๋ ์ธ์ฝ๋ ๋ฐฉ์(a)๊ณผ LLM ๊ธฐ๋ฐ ํ ํฐํ ๋ฐฉ์(b) ๊ฒํ
- Post-training ๋ฐฉ๋ฒ์ 4๊ฐ์ง ๋ฒ์ฃผ๋ก ๊ตฌ์กฐํ: (i) ํ๊ฒฝ ์ง๊ฐ ๊ฐํ (ii) ์ ์ฒด ์ธ์ ๊ฐ์ (iii) ์์
์ดํด ์ฌํ (iv) ๋ค์ค ์์ ํตํฉ
- ํ์ค ๋ฒค์น๋งํฌ์์์ ๋น๊ต ์คํ ๊ฒฐ๊ณผ ์ข
ํฉ ๋ฐ ๋ถ์
Originality
- Newell ์ด๋ก ์ ๋ก๋ด๊ณตํ ์ ์ฉ: ์ธ๊ฐ ์ด๋ ํ์ต์ ์ ์ฝ ์ฃผ๋ ์ด๋ก ์ VLA post-training ์ฒด๊ณํ์ ์ฒ์ ์ ์ฉํ novel perspective
- NeuroAI ๊ด์ ์ ํตํฉ: ์ ๊ฒฝ๊ณผํ๊ณผ ๋ก๋ด๊ณตํ์ ์ ์ ์ ๋ช
์์ ์ผ๋ก ์ฐ๊ฒฐํ์ฌ foundation model ์ ์์ ์๋ฌผํ์ ๊ทผ๊ฑฐ ์ ์
- ์ฒด๊ณ์ ๋ถ๋ฅ ํ๋ ์์ํฌ: ๊ธฐ์กด์ ์ฐ๋ฐ์ ์ธ post-training ๋ฐฉ๋ฒ๋ค์ ํ๊ฒฝ-์ ์ฒด-์์
์ 3๊ฐ์ง ์ ์ฝ ์กฐ๊ฑด์ ๋ฐ๋ผ ์ต์ด๋ก ํตํฉ ๋ถ๋ฅ
- ์ธ๊ฐ ํ์ต ์ ๋ต์ ์ญ์ด์ฉ: ์ธ๊ฐ์ด ์ด๋ ๊ธฐ์ ์ ์ต๋ํ๋ ๋ฐฉ์์ผ๋ก๋ถํฐ VLA post-training์ ํฅํ ๋ฐฉ๋ฒ๋ก ๋์ถ
Limitation & Further Study
- ๋ฐ์ดํฐ ๊ฒฉ์ฐจ ๋ฏธํด๊ฒฐ: ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ๊ฐ ์ฌ์ ํ NLP ๋๋น ๋งค์ฐ ๋ถ์กฑํ๋ฉฐ, ์ด์ ๋ํ ๊ทผ๋ณธ์ ์ธ ํด๊ฒฐ์ฑ
์ด ์ ์๋์ง ์์
- ์ด์ง์ ์ ์ฒด ๊ตฌ์กฐ์ ์ผ๋ฐํ: ๋ค์ํ ๋ก๋ด ํ๋ซํผ ๊ฐ์ ๋๋ ฅํ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ๋ ๋ฒ์ฉ์ post-training ๋ฐฉ๋ฒ์ด ๋ฏธ๊ฐ๋ฐ ์ํ
- ๋ณต์กํ ์ถ์ ๊ท์น์ ํํ: ์กฐ์ ์์
์ ๊ณ ์์ค ์ถ์ ๊ท์น์ ์ธ์ด๋ก ๋ช
ํํ ํํํ๊ณ ํ์ตํ๋ ๋ฐฉ๋ฒ์ด ์ฌ์ ํ ๋ฏธ์์ฑ
- ๋ฒค์น๋งํฌ์ ์ ํ์ฑ: ์ค์ ํ์ฅ์ ๋
ธ์ด์ฆ, ๋ถํ์ค์ฑ, ๋์ ํ๊ฒฝ์ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํ๋ ํ์ค ๋ฒค์น๋งํฌ์ ํ๊ณ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ํฉ์ฑ ๋ฐ์ดํฐ์ ์๋ฎฌ๋ ์ด์
ํ์ฉ์ ํตํ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ํด๊ฒฐ, (2) ๋๋ฉ์ธ ์ ์(domain adaptation) ๊ธฐ๋ฒ์ ๊ฐํ, (3) meta-learning์ ํตํ ๋น ๋ฅธ ์ ์, (4) human-in-the-loop ํ์ต ๋ฐฉ์์ ์ฒด๊ณํ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ VLA model post-training์ ์ธ๊ฐ์ ์ด๋ ํ์ต ์ด๋ก ์ผ๋ก ํตํฉ ๋ถ์ํ ์ฐฝ์์ ์ธ ์ค๋ฌธ ๋
ผ๋ฌธ์ผ๋ก, NeuroAI ํจ๋ฌ๋ค์์ ์ค์์ฑ์ ๊ฐ์กฐํ๋ฉฐ ๋ก๋ด๊ณตํ ์ปค๋ฎค๋ํฐ์ ๋ช
ํํ ๊ฐ์ด๋๋ผ์ธ์ ์ ๊ณตํ๋ค. ๋ค๋ง ์ด๋ก ์ ํ๋ ์์ํฌ ์ ์ ์ค์ฌ์ด๋ฏ๋ก ๊ฐ ๋ฒ์ฃผ์ ๊ตฌ์ฒด์ ๊ธฐ์ ๋ฐ์ ๊ณผ ๋ฏธํด๊ฒฐ ๋ฌธ์ ์ ๋ํ ์ฌํ ๋ถ์์ด ์ถ๊ฐ๋๋ฉด ๋์ฑ ์ค๋ฌด์ ๊ฐ์น๊ฐ ๋์์ง ๊ฒ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์