VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators
์ ์: Hengtao Li, Pengxiang Ding, Runze Suo, Yihao Wang, Zirui Ge, Dongyuan Zang, Kexian Yu, Mingyang Sun, Hongyin Zhang, Donglin Wang, Weihua Su | ๋ ์ง: 2025-10-01 | URL: https://arxiv.org/abs/2510.00406 📄 PDF
Essence
Figure 1: The Framework of VLA-RFT. A world model functions as a simulator that processes
VLA-RFT๋ ๋ฐ์ดํฐ ๊ธฐ๋ฐ world model์ ์๋ฎฌ๋ ์ดํฐ๋ก ํ์ฉํ์ฌ vision-language-action ๋ชจ๋ธ์ reinforcement learning์ผ๋ก ํจ์จ์ ์ผ๋ก fine-tuningํ๋ ํ๋ ์์ํฌ์ด๋ค. ๊ฒ์ฆ๋ reward๋ฅผ ๊ธฐ๋ฐ์ผ๋ก GRPO ์ต์ ํ๋ฅผ ์ํํ์ฌ 400 ๋จ๊ณ ์ดํ์ fine-tuning์ผ๋ก strong supervised baseline์ ์ด๊ณผํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: VLA ๋ชจ๋ธ์ imitation learning์ ์์กดํ์ฌ distribution shift ํ์์ error accumulation๊ณผ ๋ฎ์ robustness ๋ฌธ์ ๋ฅผ ๊ฒช๋๋ค. Simulation-based RL๊ณผ real-world RL์ ๊ฐ๊ฐ ๋์ sample ๋ณต์ก๋์ ๋น์ฉ ๋ฌธ์ ๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
- Gap: ๊ธฐ์กด RL ์ ๊ทผ๋ฒ๋ค์ ํ์ค์ ์ ์ฝ(๋์ ์ํธ์์ฉ ๋น์ฉ, sim-to-real gap, ์์ ์ฑ)์ ๊ทน๋ณตํ์ง ๋ชปํ๊ณ ์๋ค. World model ๊ธฐ๋ฐ์ ํจ์จ์ ์ด๊ณ ์ค์ฉ์ ์ธ VLA post-training ํจ๋ฌ๋ค์์ด ๋ถ์ฌํ๋ค.
- Why: VLA์ ์ค์ ๋ฐฐํฌ์ ํ์ฅ์ฑ์ ์ํด์๋ imitation learning์ ๊ทผ๋ณธ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ generalization๊ณผ robustness๋ฅผ ๋์์ ๋ฌ์ฑํ ์ ์๋ ํจ์จ์ ์ธ ํ์ต ๋ฐฉ๋ฒ์ด ํ์์ ์ด๋ค.
- Approach: Data-driven world model์ ํตํด real-world ์ํธ์์ฉ ์์ด policy rollout์ ์๋ฎฌ๋ ์ด์
ํ๊ณ , goal-achieving reference trajectory์์ ๋น๊ต๋ฅผ ํตํด dense, trajectory-level reward๋ฅผ ์์ฑํ๋ค. GRPO ํ๋ ์์ํฌ๋ก ์ด๋ฌํ ๊ฒ์ฆ๋ reward๋ฅผ ๊ธฐ๋ฐ์ผ๋ก VLA๋ฅผ end-to-end ์ต์ ํํ๋ค.
Achievement
Figure 1: The Framework of VLA-RFT. A world model functions as a simulator that processes
- ํจ์จ์ฑ: 400 ๋จ๊ณ ์ดํ์ fine-tuning์ผ๋ก 150K ๋ฐ๋ณต supervised fine-tuning baseline์ ์ด๊ณผํ๋ ์ฑ๋ฅ ๋ฌ์ฑ
- ์ฐ์ํ ์ฑ๋ฅ: LIBERO ๋ฒค์น๋งํฌ์์ base VLA 86.6%์์ 91.1%๋ก ์ฑ๋ฅ ํฅ์ (general settings)
- ๊ฐํ๋ Robustness: 4๊ฐ์ง perturbation ์กฐ๊ฑด(Object Pos, Goal Pos, RoboState, Combined)์์ ์ผ๊ด๋ ์ฑ๋ฅ ์ ์ง
- Compositional Generalization: supervised baseline ๋๋น ์ฐ์ํ compositional ์ผ๋ฐํ ๋ฅ๋ ฅ ์
์ฆ
- ์คํ์๊ฐ Robustness: ์์์น ๋ชปํ ํ๊ฒฝ ๋ณํ์์๋ ์์ ์ ์ธ task ์คํ ๋ฐ failure recovery ๋ฅ๋ ฅ
How
Figure 2: Training Paradigm of VLA-RFT. In the pre-training stage, both the world model and
- Stage I: World model๊ณผ VLA policy๋ฅผ offline ๋ฐ์ดํฐ์
์์ ํจ๊ป pretrainํ์ฌ ์์ ์ ์ธ ์ด๊ธฐํ ์ ๊ณต
- World model: Real interaction data๋ก๋ถํฐ action ์กฐ๊ฑด๋ถ future visual observation ์์ธก ํ์ต
- Policy rollout: VLA๊ฐ ์์ฑํ action sequence๋ฅผ world model์ ์
๋ ฅํ์ฌ synthetic trajectory ์์ฑ
- Verified reward design: Goal-achieving reference trajectory์์ LPIPS ๋ฐ MAE ๊ธฐ๋ฐ pixel/perception reward ๊ณ์ฐ
- GRPO optimization: Trajectory-level verified reward๋ฅผ ๊ธฐ๋ฐ์ผ๋ก VLA policy๋ฅผ end-to-end ์ต์ ํ
- Flow-matching action head: Stable action chunk generation์ ์ํ dual-system VLA ๊ตฌ์กฐ ํ์ฉ
Originality
- World model์ ๋จ์ dynamics ์๋ฎฌ๋ ์ดํฐ๊ฐ ์๋ verified reward ์์ฑ ๋ฉ์ปค๋์ฆ์ผ๋ก ํตํฉํ๋ ํ์ ์ ์ ๊ทผ
- Dense, trajectory-level reward ์ค๊ณ๋ก action-aligned learning signal ์ ๊ณต
- Offline data๋ก๋ถํฐ ํ์ตํ world model ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ด์
์ ํตํด real-world interaction ๋น์ฉ ์ ๊ฑฐ
- GRPO์ world model์ ๊ฒฐํฉ์ผ๋ก VLA post-training์ ์ํ ์๋ก์ด ํจ๋ฌ๋ค์ ์ ์
Limitation & Further Study
- World model์ ์์ธก ์ค์ฐจ ๋์ ์ ๋ํ ์ฅ๊ธฐ์ ์ํฅ ๋ถ์ ๋ถ์ฌ (long-horizon task์์์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ)
- LIBERO ๋ฒค์น๋งํฌ ์ค์ฌ์ ํ๊ฐ๋ก ๋ค์ํ robot morphology์ task ๋๋ฉ์ธ์ ๋ํ generalization ๊ฒ์ฆ ํ์
- World model ํ์ต์ ํ์ํ offline ๋ฐ์ดํฐ์
์ ๊ท๋ชจ์ ๋ค์์ฑ์ ๋ํ ๋ฏผ๊ฐ๋ ๋ถ์ ๋ถ์กฑ
- Sim-to-real gap ์ธก๋ฉด์์ ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ๊ฒ์ฆ ํ์ (์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ์คํ๋ง ์ํ)
- Reward ์ค๊ณ๊ฐ goal trajectory ๊ธฐ๋ฐ์ผ๋ก ์ ํ๋์ด ์์ด exploration๊ณผ novelty ์ถ๊ตฌ ๊ฐ๋ฅ์ฑ ์ ์ฝ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: VLA-RFT๋ world model ๊ธฐ๋ฐ reinforcement fine-tuning์ ํตํด ํจ์จ์ฑ, ์ฑ๋ฅ, robustness๋ฅผ ๋์์ ๋ฌ์ฑํ๋ ์ค์ฉ์ ์ด๊ณ ์ฐฝ์์ ์ธ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค. ๊ทน๋๋ก ์ ํ๋ fine-tuning ๋จ๊ณ๋ก strong baseline์ ์ด๊ณผํ๊ณ perturbed ํ๊ฒฝ์์ ์ผ๊ด๋ ์ฑ๋ฅ์ ์ ์งํ๋ ์ ์์ ๋์ ๊ฐ์น๊ฐ ์์ผ๋, ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ๊ฒ์ฆ๊ณผ ์ฅ๊ธฐ horizon task์ ๋ํ ๋ถ์์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์