NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards
์ ์: Chia-Yu Hung, Navonil Majumder, Haoyuan Deng, Liu Renhang, Yankang Ang, Amir Zadeh, Chuan Li, Dorien Herremans, Ziwei Wang, Soujanya Poria | ๋ ์ง: 2025-11-18 | URL: https://arxiv.org/abs/2511.14659 📄 PDF
Essence
Figure 1. Training pipeline of NORA-1.5 where firstly a VLA model is pre-trained through imitation learning and subseque
NORA-1.5๋ flow-matching ๊ธฐ๋ฐ action expert๋ฅผ ์ถ๊ฐํ์ฌ VLA ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๊ณ , world model ๋ฐ action-based reward๋ฅผ ์ด์ฉํ DPO ๊ธฐ๋ฐ post-training์ผ๋ก ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ์ ๋ขฐ์ฑ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ ํ๋ค.
Motivation
- Known: Vision-Language-Action ๋ชจ๋ธ๋ค์ด embodied task์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์์ผ๋, ์๋ก ๋ค๋ฅธ embodiment๋ ์ค์ ํ๊ฒฝ์ ๋ฐฐํฌํ ๋ ์ ๋ขฐ์ฑ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๋ถ์กฑํ๋ค๋ ๊ฒ์ด ์๋ ค์ ธ ์๋ค.
- Gap: ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ ์ ํ๋ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ์ ์์กดํ๋ supervised fine-tuning์ ๊ธฐ๋ฐํ๊ณ ์์ด ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ ์ฝ๋๋ฉฐ, reward-driven post-training์ ํจ๊ณผ์ฑ๊ณผ ํ์ฅ์ฑ์ด ์ถฉ๋ถํ ์ฐ๊ตฌ๋์ง ์์๋ค.
- Why: ๋ ์ ๋ขฐํ ์ ์๊ณ ์ค์ธ๊ณ์ ๋ฐฐํฌ ๊ฐ๋ฅํ embodied agent๋ฅผ ๊ฐ๋ฐํ๊ธฐ ์ํด์๋ ํจ์จ์ ์ธ post-training ๋ฐฉ๋ฒ๊ณผ ๊ฒฌ๊ณ ํ reward ๋ฉ์ปค๋์ฆ์ด ํ์์ ์ด๋ค.
- Approach: NORA backbone์ flow-matching ๊ธฐ๋ฐ action expert๋ฅผ layer-wise self-attention์ผ๋ก ์ฐ๊ฒฐํ๊ณ , action-conditioned world model (V-JEPA2-AC)๊ณผ deviation-from-ground-truth ํด๋ฆฌ์คํฑ์ ๊ฒฐํฉํ reward ์ ํธ๋ฅผ ์์ฑํ์ฌ DPO๋ฅผ ํตํด post-trainingํ๋ค.
Achievement
Figure 1. Training pipeline of NORA-1.5 where firstly a VLA model is pre-trained through imitation learning and subseque
- ์ํคํ
์ฒ ํฅ์: Flow-matching action expert ์ถ๊ฐ๋ง์ผ๋ก๋ NORA ๋๋น ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์ฌ, ๊ธฐ์กด ์์๊ณผ ๋ฌ๋ฆฌ flow-matching์ด ์ถ๋ก ์๋๋ฟ ์๋๋ผ ์ ์ฑ
์ฑ๋ฅ๋ ๊ฐ์ ํจ์ ์
์ฆ
- ์ต๊ณ ์ฑ๋ฅ ๋ฌ์ฑ: SimplerEnv, LIBERO ๋ฑ ์๋ฎฌ๋ ์ด์
๋ฒค์น๋งํฌ์ Galaxea A1 ๋ฑ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ state-of-the-art ๊ฒฐ๊ณผ ๋ฌ์ฑ
- ํจ๊ณผ์ ์ธ Reward ์ค๊ณ: World model ๊ธฐ๋ฐ goal-reaching ํ๊ฐ์ ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ ํด๋ฆฌ์คํฑ์ ๊ฒฐํฉํ ๊ฒฝ๋ reward ๋ฉ์ปค๋์ฆ์ผ๋ก ์ผ๊ด๋ ์ฑ๋ฅ ๊ฐ์ ๋ฌ์ฑ
- ํ์ฅ์ฑ ์๋ Post-training ๋ฐฉ๋ฒ: DPO ๊ธฐ๋ฐ preference ์ต์ ํ๊ฐ ์ถ๋ก -bound ๋์ compute-bound ๋ฐฉ์์ผ๋ก ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ค์ผ์ผํ๋ ๊ฒฝ๋ก๋ฅผ ์ ์
How
Figure 1. Training pipeline of NORA-1.5 where firstly a VLA model is pre-trained through imitation learning and subseque
- NORA 3B-parameter autoregressive VLA ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก flow-matching ๊ธฐ๋ฐ action expert๋ฅผ ์ถ๊ฐํ์ฌ layer-wise self-attention์ผ๋ก ๊ฒฐํฉ
- V-JEPA2-AC action-conditioned world model์ ์ด์ฉํ์ฌ action ๋กค์์์ goal ๋๋ฌ ๊ฐ๋ฅ์ฑ์ ํ๊ฐ
- deviation-from-ground-truth ํด๋ฆฌ์คํฑ์ ํตํด world model์ ์์ธก ๋
ธ์ด์ฆ๋ฅผ ์ํํ๊ณ ์์ ์ ์ธ ๊ธฐ์ค ์ ๊ณต
- ์์ฑ๋ action ์ํ๋ค์ reward ์ ํธ๋ก ์์ ๋งค๊ฒจ preference ๋ฐ์ดํฐ์
๊ตฌ์ฑ
- Direct Preference Optimization (DPO)๋ฅผ ํตํด target embodiment์ ๋ง๊ฒ NORA-1.5 ์ ์
- Open X-Embodiment ๋ฐ์ดํฐ์
์์ ์ผ๋ฐ ๋ก๋ด ๋ฐ์ดํฐ๋ก pre-training ํ ์๋ฎฌ๋ ์ด์
๋ฐ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ํ๊ฐ
Originality
- Flow-matching action expert์ autoregressive VLA์ ๊ฒฐํฉ์ ํตํด ์ํธ ์ด๋์ ์
์ฆ (VLA์ ํ๋ถํ ํํ์ ํ์ฉํ๋ฉด์ ๋์์ trajectory-level planning ๊ฐ์ )
- World model๊ณผ ๊ธฐํํ์ ํด๋ฆฌ์คํฑ์ ๊ฒฐํฉํ hybrid reward ์ค๊ณ๋ก noisy prediction ๋ฌธ์ ํด๊ฒฐ
- Tractable likelihood๊ฐ ์๋ flow-matching/diffusion ๊ธฐ๋ฐ action head์๋ ์ ์ฉ ๊ฐ๋ฅํ preference-based optimization ํ๋ ์์ํฌ ์ ์
- Open X-Embodiment์ ๋ค์ํ embodiment ๋ฐ์ดํฐ๋ฅผ ํ๋์ ๋ณดํธ์ ์ธ ํ๊ฐ ํจ์๋ก ์์ ๋งค๊ฒจ ๋๊ท๋ชจ preference ๋ฐ์ดํฐ์
๊ตฌ์ฑ ๊ฐ๋ฅ์ฑ ์ ์
Limitation & Further Study
- Flow-matching expert๊ฐ ์ ๋ฐ์ดํฐ ์์ญ์์ VLA backbone๊ณผ์ ๋ถ์ถฉ๋ถํ joint training ๋๋ฌธ์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- V-JEPA2-AC world model์ ์ ์ ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ์ธํ ์์ธก ๋
ธ์ด์ฆ ๋ฌธ์ (deviation ํด๋ฆฌ์คํฑ์ผ๋ก๋ง ๋ถ๋ถ์ ์ํ)
- Reward ๋ฉ์ปค๋์ฆ์ ์ ํ์ฑ์ด preference ๋ฐ์ดํฐ์
ํ์ง์ ํฌ๊ฒ ์์กดํ์ฌ, ์๋ชป๋ ์์ ๋งค๊น์ด DPO ์ฑ๋ฅ ์ ํ ์ด๋ ๊ฐ๋ฅ
- ํ์ ์ฐ๊ตฌ: ๋ ์ ๊ตํ world model ์ํคํ
์ฒ๋ ensemble ๋ฐฉ๋ฒ์ผ๋ก reward ์ ํธ ์ ํ์ฑ ๊ฐ์ , ์ ๋ฐ์ดํฐ regime์์ flow-matching expert์ ํ์ต ๋ฉ์ปค๋์ฆ ๊ฐํ, ๋ค์ํ embodiment์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ๋ถ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: NORA-1.5๋ flow-matching ๊ธฐ๋ฐ ์ํคํ
์ฒ ๊ฐ์ ๊ณผ ๊ฒฝ๋์ด๋ฉด์๋ ํจ๊ณผ์ ์ธ reward ๊ธฐ๋ฐ post-training์ ๊ฒฐํฉํ์ฌ VLA ๋ชจ๋ธ์ ์ ๋ขฐ์ฑ๊ณผ ์ค์ ๋ฐฐํฌ ๊ฐ๋ฅ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค. ๊ด๋ฒ์ํ ๋ฒค์น๋งํฌ์์์ ์ฑ๊ณผ์ ํ์ฅ ๊ฐ๋ฅํ post-training ๋ฐฉ๋ฒ๋ก ์ embodied AI ๋ถ์ผ์ ์ค์ง์ ์ธ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์