NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks
์ ์: Chia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria | ๋ ์ง: 2025-04-28 | URL: https://arxiv.org/abs/2504.19854 📄 PDF
Essence
Figure 1: The overall architecture and inference flow of NORA.
NORA๋ 3B ํ๋ผ๋ฏธํฐ์ ๊ฒฝ๋ Vision-Language-Action ๋ชจ๋ธ๋ก, ๊ธฐ์กด 7B ์ด์์ ๋๊ท๋ชจ VLA ๋ชจ๋ธ๋ณด๋ค ๊ณ์ฐ ํจ์จ์ ํฌ๊ฒ ๊ฐ์ ํ๋ฉด์๋ ์ค์๊ฐ ๋ก๋ด ์ ์ด ์ฑ๋ฅ์ ์ ์งํ๋ค.
Motivation
- Known: ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ ๋ฐ์ด๋ ์ถ๋ก ๋ฐ ์์
๊ณํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง ๋์ ๊ณ์ฐ ์ค๋ฒํค๋๋ก ์ธํด ์ค์๊ฐ ๋ก๋ด ํ๊ฒฝ์์์ ์ค์ฉ์ฑ์ด ์ ํ๋๋ค. Vision-Language Model์ backbone์ผ๋ก ์ฌ์ฉํ๋ ๊ฒ์ด ํจ๊ณผ์ ์์ด ์๋ ค์ ธ ์๋ค.
- Gap: ๊ธฐ์กด์ ๋๊ท๋ชจ VLA ๋ชจ๋ธ๋ค์ 7B ์ด์์ ํ๋ผ๋ฏธํฐ๋ก ์ธํด ์๋น์๊ธ GPU์์ ๋ฏธ์ธ์กฐ์ ์ด ์ด๋ ต๊ณ , ์๊ฐ ์ธ์ฝ๋ฉ์ ํ๊ณ๋ก ์ธํ ๊ทธ๋์คํ ์คํจ ๋ฌธ์ ๊ฐ ์กด์ฌํ๋ค.
- Why: ๋ก๋ด ์์คํ
์ ์ค์ ๋ฐฐํฌ์์๋ ์๋์ ํจ์จ์ฑ์ด ์ค์ํ๋ฉฐ, ์๋น์๊ธ GPU์์ ๋ฏธ์ธ์กฐ์ ๊ฐ๋ฅํ ๊ฒฝ๋ ๋ชจ๋ธ์ ํ์์ฑ์ด ํฌ๋ค.
- Approach: Qwen-2.5-VL-3B๋ฅผ backbone์ผ๋ก ํ๋ 3B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ์ ์ํ๊ณ , FAST+ tokenizer๋ฅผ ํตํด ํจ์จ์ ์ธ action sequence ์์ฑ์ ๊ตฌํํ๋ฉฐ, 970k์ ์ค์ ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ๋ก ํ์ตํ๋ค.
Achievement
Figure 4: Experimental results on different categories of real-world robot tasks.
- ๋ชจ๋ธ ํฌ๊ธฐ ๊ฐ์: 7B ์ด์์ ๊ธฐ์กด ๋ชจ๋ธ ๋๋น 3B ํ๋ผ๋ฏธํฐ๋ก 60% ์ด์ ์ถ์
- ์ฑ๋ฅ ์ ์ง/ํฅ์: ๊ณ์ฐ ์ค๋ฒํค๋ ๊ฐ์์๋ ๋ถ๊ตฌํ๊ณ ๊ธฐ์กด ๋๊ท๋ชจ VLA ๋ชจ๋ธ ๋๋น ์ฐ์ํ ์์
์ฑ๋ฅ ๋ฌ์ฑ
- ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ: ์ถ๋ก ์ ์ฝ 8.3GB GPU ๋ฉ๋ชจ๋ฆฌ๋ก ์ค์๊ฐ ๋ก๋ด ์ ์ด ๊ฐ๋ฅ
- ์คํ ์์ค ๊ณต๊ฐ: ๋ชจ๋ธ ์ฒดํฌํฌ์ธํธ, ํ์ต ์ ๋ต, ํ๊ฐ ํ๋กํ ์ฝ ์ ์ฒด ๊ณต๊ฐ๋ก ์ฌํ์ฑ๊ณผ ํ์ ์ฐ๊ตฌ ์ด์ง
How
Figure 2: (a) Training Loss Curve; (b) Gradient Norm Curve.
- Qwen-2.5-VL-3B๋ฅผ backbone์ผ๋ก ์ฑํํ์ฌ ์ฐ์ํ ์๊ฐ-์๋ฏธ ์ดํด ํ์ฉ
- FAST+ tokenizer๋ฅผ ํตํด DCT(Discrete Cosine Transform)์ BPE(Byte-Pair Encoding)๋ก action token ์์ถ
- Open X-Embodiment ๋ฐ์ดํฐ์
์ 970k ์ค์ ๋ก๋ด ์์ฐ์ผ๋ก ํ์ต
- Single-step๊ณผ chunked action prediction์ ๋น๊ต ๋ถ์์ ํตํ ํจ์จ์ action ์์ฑ ์ ๋ต ์๋ฆฝ
- ์ค์ ๋ก๋ด ํ๊ฒฝ๊ณผ LIBERO ์๋ฎฌ๋ ์ด์
๋ฒค์น๋งํฌ์์ ๊ด๋ฒ์ํ ์คํ ์ํ
Originality
- ๊ฒฝ๋ VLA ๋ชจ๋ธ ์ค๊ณ์ ์ต์ Qwen-2.5-VL-3B VLM์ ์ฒ์ ์ ์ฉ
- FAST+ tokenizer์ DCT ๊ธฐ๋ฐ action ์์ถ์ VLA์ ์ ์ฉํ์ฌ token ํจ์จ์ฑ ๊ฐ์
- ๋จ์ํ ์ํคํ
์ฒ๋ก SpatialVLA์ ๋ณต์กํ ๊ณต๊ฐ ์๋ฒ ๋ฉ ์์ด๋ ์ฐ์ํ ์ฑ๋ฅ ๋ฌ์ฑ
- 3B ํ๋ผ๋ฏธํฐ๋ก ๋๊ท๋ชจ ๋ชจ๋ธ ๋๋น ์ฐ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ ์๋ก์ด ํจ์จ์ฑ-์ฑ๋ฅ ํธ๋ ์ด๋์คํ ์ ์
Limitation & Further Study
- LIBERO ์๋ฎฌ๋ ์ด์
๋ฒค์น๋งํฌ์ ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ์ฑ๋ฅ์ด ์์ ํ ๋๋ฑํ์ง ์์ ์ ์์ผ๋ฉฐ, ๋ ๋ค์ํ ๋ก๋ด ํํ(์ด์กฑ ๋ก๋ด, ํด๋จธ๋
ธ์ด๋ ๋ฑ)์ ๋ํ ํ๊ฐ ํ์
- ์๊ฐ ์ธ์ฝ๋ฉ ํ๊ณ ๋ฌธ์ ๊ฐ ์์ ํ ํด๊ฒฐ๋์๋์ง ๋ช
ํํ์ง ์์ผ๋ฉฐ, ๋ณต์กํ ํ์(occlusion) ์ํฉ์์์ ์ฑ๋ฅ ํ๊ฐ ๋ถ์กฑ
- ๊ณ์ฐ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ์ต์ ๊ท ํ์ ์ ๋ํ ๋ ๊น์ ๋ถ์ ํ์
- ํ์ ์ฐ๊ตฌ๋ก ๋ ์ํ ๋ชจ๋ธ(1-2B)๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ ํ์ ๋ฐ ๋ค์ํ VLM backbone์ ๋น๊ต ํ๊ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: NORA๋ ๊ฒฝ๋ VLA ๋ชจ๋ธ์ ์ค์ฉ์ ํ์์ฑ์ ์ ํด๊ฒฐํ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ก, 3B ํ๋ผ๋ฏธํฐ๋ก ๋๊ท๋ชจ ๋ชจ๋ธ ๋๋น ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉด์ ์ค์๊ฐ ๋ก๋ด ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ์คํ ์์ค ๊ณต๊ฐ๋ก ํ์ ์ฐ๊ตฌ๋ฅผ ์ด์งํ ๊ฒ์ผ๋ก ์์๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์