VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning
์ ์: Guanxing Lu, Wenkai Guo, Chubin Zhang, Yuheng Zhou, Haonan Jiang, Zifeng Gao, Yansong Tang, Ziwei Wang | ๋ ์ง: 2025-05-24 | URL: https://arxiv.org/abs/2505.18719 📄 PDF
Essence
Figure 1: Previous VLAs focus on imitation learning that exploits the offline demonstrations, while VLA-RL ex-
๋ณธ ๋
ผ๋ฌธ์ ์ฌ์ ํ์ต๋ Vision-Language-Action(VLA) ๋ชจ๋ธ์ ๊ฐํํ์ต(RL)์ผ๋ก ๊ฐ์ ํ์ฌ ๋ก๋ด ์กฐ์ ์์
์ ๋ถํฌ ์ธ(OOD) ์๋๋ฆฌ์ค ๋์๋ ฅ์ ํฅ์์ํค๋ VLA-RL ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ๊ถค์ ์์ค์ RL ๊ณต์ํ์ robotic process reward model์ ํตํด LIBERO ๋ฒค์น๋งํฌ์์ OpenVLA-7B์ ์ฑ๋ฅ์ 4.5% ํฅ์์ํจ๋ค.
Motivation
- Known: ์ต๊ทผ ๋๊ท๋ชจ VLA ๋ชจ๋ธ๋ค์ ์ธ๊ฐ ์์ฐ ๋ชจ๋ฐฉ์ ํตํด ๋ค์ํ ๋ก๋ด ์กฐ์ ์์
์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋, ์คํ๋ผ์ธ ๋ฐ์ดํฐ์ ์ ํ๋ ์ํ ๋ฐฉ๋ฌธ์ผ๋ก ์ธํด ํ
์คํธ ์ OOD ์๋๋ฆฌ์ค์์ ์คํจํ๋ค. LLM์ RL์ ์ ์ฉํ๋ ๊ฒ์ด ์ถ๋ก ์ฑ๋ฅ ํฅ์์ ํจ๊ณผ์ ์์ด ์ฆ๋ช
๋์๋ค.
- Gap: ๊ธฐ์กด ๋ก๋ด RL์ ์ฒ์๋ถํฐ ํ์ตํ๊ฑฐ๋ ๊ฐ๋จํ ๋๋ฉ์ธ์๋ง ์ ์ฉ๋์์ผ๋ฉฐ, ๋๊ท๋ชจ ๊ธฐ์ด ๋ชจ๋ธ์ ํ์ฉํ ๊ถค์ ์์ค์ ์จ๋ผ์ธ RL๊ณผ ์ผ๋ฐ์ ์ธ ๋ฉํฐํ์คํฌ ๋ก๋ด ์กฐ์์ ๊ฒฐํฉ์ด ์ถฉ๋ถํ ํ๊ตฌ๋์ง ์์๋ค.
- Why: ๋ก๋ด ์กฐ์์ ์ผ๋ฐํ ๋ฅ๋ ฅ ํฅ์์ ์ค์ ๋ก๋ด ๋ฐฐํฌ์ ํต์ฌ ๊ณผ์ ์ด๋ฉฐ, LLM์ RL ์ฑ๊ณต์ ๋ก๋ด ๋๋ฉ์ธ์ผ๋ก ํ์ฅํ๋ฉด ํ
์คํธ ํ์ ์ค์ผ์ผ๋ง๊ณผ ์ถ๋ก ๊ณ์ฐ ์ด์ ์ ์ป์ ์ ์๋ค.
- Approach: VLA-RL์ ๋ก๋ด ์กฐ์ ๊ถค์ ์ ๋ค์ค๋ชจ๋ฌ ๋ค์คํด ๋ํ๋ก ๋ชจ๋ธ๋งํ๊ณ , ์๋ ์ถ์ถ๋ ์์
์ธ๊ทธ๋จผํธ์์ ์์ฑ๋ ์์ฌ ๋ณด์ ๋ ์ด๋ธ๋ก ํ์ต๋ robotic process reward model์ ํตํด ํฌ์ ๋ณด์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ฉฐ, ์ปค๋ฆฌํ๋ผ ์ ํ, GPU ๊ท ํ ํ๊ฒฝ, ๋ฐฐ์น ๋์ฝ๋ฉ, critic warmup ๋ฑ ๊ตฌํ ์ต์ ํ๋ฅผ ์ ์ฉํ๋ค.
Achievement
Figure 4: Test-time Scaling Curve. We evaluate the fine-tuned OpenVLA-7B every 2500 training steps on the
- ์ฑ๋ฅ ํฅ์: OpenVLA-7B๋ฅผ LIBERO์ 40๊ฐ ๋์ ์ ์ธ ๋ก๋ด ์กฐ์ ์์
์์ 76.3%์์ 81.0%๋ก 4.5% ๊ฐ์ ํ์ฌ ฯ0-FAST ๊ฐ์ ์์ฉ ๋ชจ๋ธ ์์ค ๋ฌ์ฑ
- ํ
์คํธ ํ์ ์ค์ผ์ผ๋ง: ํ
์คํธ ์ ์ต์ ํ ๋จ๊ณ ์ฆ๊ฐ์ ๋ฐ๋ฅธ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์(75%โ85%)์ผ๋ก ๋ก๋ด ๋๋ฉ์ธ์์์ ์ถ๋ก ์ค์ผ์ผ๋ง ๋ฒ์น ์ด๊ธฐ ์ฆ๊ฑฐ ์ ์
- ์ผ๋ฐํ ํ๋ ์์ํฌ: ๋ค์ค๋ชจ๋ฌ ๋ค์คํด ๋ํ ๊ณต์ํ๋ฅผ ํตํด LLM RL ๊ธฐ๋ฒ์ ๋ก๋ด ๋๋ฉ์ธ์ ์ฒด๊ณ์ ์ผ๋ก ์ ์ฉํ๋ ํต์ผ๋ ๊ด์ ์ ๊ณต
- ์์ ์ ๊ตฌํ: curriculum selection, GPU-balanced vectorized environments, batch decoding, critic warmup ๋ฑ ์ค๋ฌด์ ๊ฐ์ ์ฌํญ์ผ๋ก RL ํ๋ จ์ ์์ ์ฑ ๋ฐ ํจ์จ์ฑ ํฅ์
How
Figure 2: The overall pipeline of VLA-RL, which is composed of a transformer-based policy, a homogeneous
- auto-regressive VLA(OpenVLA-7B ๊ธฐ๋ฐ)์ trajectory-level RL ๊ณต์ํ๋ก ๋ก๋ด ์กฐ์์ ๋ค์ค๋ชจ๋ฌ ๋ค์คํด ๋ํ๋ก ๋ชจ๋ธ๋ง
- vision-language model์ fine-tuningํ robotic process reward model(rPRM) ๊ตฌ์ถ์ผ๋ก ์๋ ์ถ์ถ ์์
์ธ๊ทธ๋จผํธ์ ์์ฌ ๋ณด์ ๋ผ๋ฒจ๋ก ํฌ์ ๋ณด์ ๋ฌธ์ ํด๊ฒฐ
- PPO ๊ธฐ๋ฐ ์ ์ฑ
์ต์ ํ์ policy network์ value network๋ฅผ LoRA ์ด๋ํฐ๋ก ๊ตฌํ
- N๊ฐ ๋ณ๋ ฌ ํ๊ฒฝ์์ M ์คํ
๊ถค์ ์์ง ํ GAE(Generalized Advantage Estimation)๋ก ๋ณด์ ๊ณ์ฐ
- curriculum selection ์ ๋ต์ผ๋ก ํ๋ จ ๋ฐ์ดํฐ ์ ํ ์ต์ ํ
- GPU ์์ปค ๊ฐ ๋ก๋ ๋ฐธ๋ฐ์ฑ๋ ๋ฒกํฐํ ํ๊ฒฝ์ผ๋ก ํจ์จ์ฑ ์ฆ๋
- ๋ฐฐ์น ๋์ฝ๋ฉ๊ณผ critic warmup์ผ๋ก ํ๋ จ ์์ ์ฑ ๊ฐ์
Originality
- ๋ก๋ด ์กฐ์ ๊ถค์ ์ ๋ค์ค๋ชจ๋ฌ ๋ค์คํด ๋ํ๋ก ๊ณต์ํํ ํ์ ์ ๊ด์ ์ผ๋ก LLM RL ๊ธฐ๋ฒ์ ๋ก๋ด ์ ์ฉ ํ์ฅ
- ์ผ๋ฐ์ ์ธ ๋ก๋ด ๊ธฐ์ด ๋ชจ๋ธ์ ์จ๋ผ์ธ RL fine-tuning ์ต์ด ์ฒด๊ณ์ ํ๊ตฌ๋ก ๊ธฐ์กด ๋จ์ผ ํ์คํฌ๋ ๋จ์ ๋๋ฉ์ธ RL์ ํ๊ณ ๋ํ
- ์๋ ์์
์ธ๊ทธ๋จผํธ ์ถ์ถ ๊ธฐ๋ฐ ์์ฌ ๋ณด์ ๋ผ๋ฒจ ์์ฑ ๋ฐฉ์์ผ๋ก ๋น์ฉ์ด ๋ง์ด ๋๋ ๋ณด์ ์์ง๋์ด๋ง ํํผ
- ํ
์คํธ ํ์ ๊ณ์ฐ ์ฆ๊ฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ํฅ์์ ๊ตฌ์ฒด์ ์ค์ฆ์ผ๋ก ๋ก๋ด ๋๋ฉ์ธ ์ถ๋ก ์ค์ผ์ผ๋ง์ ์ด๊ธฐ ์ฆ๊ฑฐ ์ ์
Limitation & Further Study
- LIBERO ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์๋ง ํ๊ฐ๋์ด ์ค๋ฌผ ๋ก๋ด ํ๊ฒฝ์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- OpenVLA-7B์๋ง ์ ์ฉ๋์ด ๋ค๋ฅธ VLA ๋ชจ๋ธ(Open X-Embodiment ๋ฑ)์ ๋ํ ์ผ๋ฐ์ฑ ๋ฏธํ์ธ
- rPRM์ ์์ฌ ๋ณด์ ๋ผ๋ฒจ ์๋ ์์ฑ ๊ณผ์ ์ ์ ํ๋์ ๊ทธ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ์ํ์ ๋ํ ๋ถ์ ๋ถ์กฑ
- ํ
์คํธ ํ์ ์ค์ผ์ผ๋ง์ ๊ณ์ฐ ๋น์ฉ-์ฑ๋ฅ ํธ๋ ์ด๋์คํ ๋ถ์ ๋ฏธํก
- ํ์ ์ฐ๊ตฌ: ์ค๋ฌผ ๋ก๋ด ๋ฐฐํฌ ์คํ, ๋ค์ํ VLA ๋ชจ๋ธ ์ ์ฉ, rPRM ํ์ง ๊ฐ์ ๋ฐฉ๋ฒ๋ก ์ฐ๊ตฌ, ๊ณ์ฐ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ์ต์ ํ ๋ฐฉ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM RL์ ์ฑ๊ณต ์ฌ๋ก๋ฅผ ๋ก๋ด ๋๋ฉ์ธ์ผ๋ก ์ฐฝ์์ ์ผ๋ก ํ์ฅํ์ฌ ๋๊ท๋ชจ VLA ๋ชจ๋ธ์ ์จ๋ผ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์ฒด๊ณ์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. LIBERO์์์ ์๋ฏธ ์๋ ์ฑ๋ฅ ํฅ์๊ณผ ํ
์คํธ ํ์ ์ค์ผ์ผ๋ง ์ฆ๊ฑฐ๋ ๋ก๋ด ํ์ต์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํ์ง๋ง, ์ค๋ฌผ ๋ก๋ด ๊ฒ์ฆ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์