RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models
์ ์: Jacky Kwok, Christopher Agia, Rohan Sinha, Matt Foutter, Shulu Li, Ion Stoica, Azalia Mirhoseini, Marco Pavone | ๋ ์ง: 2025-06-21 | URL: https://arxiv.org/abs/2506.17811 📄 PDF
Essence
Figure 1: Inference-Time Scaling Law: We observe that action error consistently decreases as we
Vision-Language-Action (VLA) ๋ชจ๋ธ์ ํ
์คํธ ์๊ฐ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ์ํ๋ง๊ณผ ๊ฒ์ฆ์ ํตํ ์ค์ผ์ผ๋ง ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, action error๊ฐ ์์ฑ ์ํ ์์ ๋ฐ๋ผ ์ง์ ๊ฑฐ๋ญ์ ๊ณฑ ๋ฒ์น์ ๋ฐ๋ฅธ๋ค๋ inference-time scaling law๋ฅผ ๋ฐ๊ฒฌํ๋ค.
Motivation
- Known: VLA ๋ชจ๋ธ์ visuomotor control์์ ๋ฐ์ด๋ ๋ฅ๋ ฅ์ ๋ณด์ด์ง๋ง ์ค์ ํ๊ฒฝ์์์ robustness ๋ฌธ์ ๊ฐ ์์ผ๋ฉฐ, LLM์์ test-time compute scaling์ด ์ฑ๋ฅ ํฅ์์ ํจ๊ณผ์ ์์ด ์ฆ๋ช
๋์๋ค.
- Gap: VLA ๋ชจ๋ธ์์ deployment ๋จ๊ณ์ test-time compute scaling ํจ๊ณผ๊ฐ ์ฒด๊ณ์ ์ผ๋ก ์ฐ๊ตฌ๋์ง ์์์ผ๋ฉฐ, action ์ํ๋ง๊ณผ ๊ฒ์ฆ์ ํตํ ์ ํํ scaling law๊ฐ ๊ท๋ช
๋์ง ์์๋ค.
- Why: ๋ก๋ด ๋ฐฐํฌ ์ ๊ฒฌ๊ณ ์ฑ๊ณผ ์ ๋ฐ์ฑ์ด ๋งค์ฐ ์ค์ํ๋ฉฐ, test-time scaling์ ํตํด ๊ธฐ์กด VLA ๋ชจ๋ธ์ ๊ฐ์ ํจ์ผ๋ก์จ ์ค์ ๋ก๋ด ์ ์ด ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: VLA์์ ์ฌ๋ฌ action์ ์ํ๋งํ ํ Gaussian perturbation๊ณผ majority voting์ผ๋ก action proposal distribution์ ๊ตฌ์ฑํ๊ณ , VLM ๊ธฐ๋ฐ verifier๋ก ์ต์ action์ ์ ํํ๋ RoboMonkey ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ผ๋ก verifier๋ฅผ ํ์ต์์ผฐ๋ค.
Achievement
Figure 3: Scaling test-time compute significantly improves the precision and robustness of generalist robot
- Inference-time scaling law ๋ฐ๊ฒฌ: action error์ ์ํ ์ ๊ฐ์ ์ง์ ๊ฑฐ๋ญ์ ๊ณฑ ๋ฒ์น์ CogACT, Octo, OpenVLA, SpatialVLA ๋ฑ ๋ค์ํ VLA์์ ์ค์ฆํ๋ค.
- RoboMonkey ํ๋ ์์ํฌ: ๊ธฐ์กด VLA์ test-time scaling์ ์ ์ฉํ์ฌ out-of-distribution ์์
์์ 25% ์ ๋ ์ฑ๋ฅ ํฅ์, in-distribution ์์
์์ 9% ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ค.
- ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ: ์๋์ผ๋ก synthetic action preferences๋ฅผ ์์ฑํ์ฌ VLM ๊ธฐ๋ฐ verifier๋ฅผ ํ์ตํ๊ณ , ๋ฐ์ดํฐ์
ํ๋์ ๋ฐ๋ฅธ ์ผ๊ด๋ ์ฑ๋ฅ ๊ฐ์ ์ ์
์ฆํ๋ค.
- ์ ์ ํ์ต ํจ๊ณผ: ์๋ก์ด ๋ก๋ด ์
์
์ ์ ์ VLA์ action verifier๋ฅผ ํจ๊ป fine-tuningํ๋ฉด VLA๋ง fine-tuningํ ๋๋ณด๋ค 7% ์ถ๊ฐ ์ฑ๋ฅ ํฅ์์ ์ป์ ์ ์์์ ๋ณด์๋ค.
How
Figure 2: Stage 1: Training the Action Verifier. Given an imitation learning dataset, we sample N
- Bridge V2 Dataset์์ 1,000๊ฐ์ (s, a*, I) ํํ์ ์ํ๋งํ์ฌ 10,000๊ฐ action ์์ฑ
- Random sampling, policy sampling, Gaussian perturbation ์ธ ๊ฐ์ง ์ํ๋ง ๋ฐฉ์ ๋น๊ต ํ๊ฐ
- Normalized RMSE๋ก action error ์ธก์ ํ๊ณ log-log scale์์ power law fitting ์ํ
- VLM์ ๊ธฐ๋ฐ์ผ๋ก ํ action verifier ๊ตฌ์ถ์ ์ํด ์ ํธ๋ ๊ธฐ๋ฐ ํ์ต ๋ฐฉ๋ฒ ์ ์ฉ
- Deployment ๋จ๊ณ์์ VLA๋ก๋ถํฐ action ์ํ๋ง โ Gaussian perturbation ์ ์ฉ โ majority voting โ VLM verifier๋ฅผ ํตํ ์ต์ข
action ์ ํ
- SIMPLER, real-world task, LIBERO-Long benchmark์์ ๊ด๋ฒ์ํ simulation ๋ฐ hardware ์คํ ์ํ
Originality
- VLA ๋ชจ๋ธ์ ๋ํ ์ต์ด์ systematic inference-time scaling law ํน์ฑํ
- Gaussian perturbation๊ณผ majority voting์ ์กฐํฉํ ํจ์จ์ ์ธ action sampling ๋ฐฉ๋ฒ
- ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ์๋ํ๋ VLM ๊ธฐ๋ฐ action verifier ํ์ต ํ์ดํ๋ผ์ธ
- LLM์ test-time scaling ๊ฐ๋
์ robotics domain์ผ๋ก ์ฑ๊ณต์ ์ผ๋ก ํ์ฅ
Limitation & Further Study
- ์ ์ manipulation ์์
์ ์ฃผ๋ก ์ด์ ์ ๋ง์ถ์์ผ๋ฉฐ, ๋์ ์์
์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๊ฒ์ฆ๋์ง ์์
- Gaussian perturbation ๋ฐฉ๋ฒ์ด 4๊ฐ์ ์ด๊ธฐ ์ํ์ ์์กดํ๋ฏ๋ก, ์ด๊ธฐ ์ํ์ ํ์ง์ด ๊ฒฐ๊ณผ์ ํฐ ์ํฅ์ ๋ฏธ์น ์ ์์
- VLM-based verifier์ ํ์ต์ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ฏ๋ก sim-to-real gap ๋ฌธ์ ๊ฐ ์กด์ฌํ ์ ์์
- ๊ณ์ฐ ๋น์ฉ ์ฆ๊ฐ๋ก ์ธํ ์ค์ ๋ฐฐํฌ ํ๊ฒฝ์์์ latency trade-off ๋ถ์์ด ์ ํ์
- ํ์ ์ฐ๊ตฌ์์ ๋ค๋ฅธ ๋ก๋ด ํํ(๋น์ธ๊ฐํ ๋ก๋ด, ์ด์กฑ ๋ก๋ด ๋ฑ)์ ๋ํ ํ๋ ํ๊ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: VLA ๋ชจ๋ธ์ test-time scaling ๊ฐ๋ฅ์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ๊ท๋ช
ํ๊ณ ์ค์ฉ์ ์ธ RoboMonkey ํ๋ ์์ํฌ๋ฅผ ์ ์ํ ์ฐ์ํ ์ฐ๊ตฌ๋ก, inference-time scaling law์ ๋ฐ๊ฒฌ๊ณผ ์ค์ ๋ก๋ด์์์ ์ ์๋ฏธํ ์ฑ๋ฅ ํฅ์์ด ๋ก๋ด ์ ์ด ๋ถ์ผ์ ํฐ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์