MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation
์ ์: Rongyu Zhang, Menghang Dong, Yuan Zhang, Liang Heng, Xiaowei Chi, Gaole Dai, Li Du, Yuan Du, Shanghang Zhang | ๋ ์ง: 2025-03-26 | URL: https://arxiv.org/abs/2503.20384 📄 PDF
Essence
Figure 1. Overview of our proposed MoLe-VLA: Our proposed framework integrates dynamic layer activation, a novel Spatial
MoLe-VLA๋ Mixture-of-Layers ์ํคํ
์ฒ์ Spatial-Temporal Aware Router(STAR)๋ฅผ ํตํด LLM์ ๋ถํ์ํ ๋ ์ด์ด๋ฅผ ๋์ ์ผ๋ก ์คํตํ์ฌ ๋ก๋ด ์กฐ์ ์์
์ ๊ณ์ฐ ํจ์จ์ 5.6๋ฐฐ ํฅ์์ํค๋ฉด์ 8% ์ฑ๋ฅ ๊ฐ์ ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: Vision Language Action(VLA) ๋ชจ๋ธ์ ๋ณต์กํ ์ธ์ด-์๊ฐ ์ ๋ณด ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๋ ๋์ ๊ณ์ฐ ๋น์ฉ์ผ๋ก ์ค์๊ฐ ๋ก๋ด ์ ์ด์ ๋ถ์ ํฉํ๋ค. ๊ธฐ์กด sparsification ๊ธฐ๋ฒ(early exit, token pruning)์ ์๋ฏธ ์ ๋ณด๊ฐ ํ๋ถํ ์ต์ข
๋ ์ด์ด์ ์ญํ ์ ๊ฐ๊ณผํ๋ค.
- Gap: ๊ธฐ์กด early-exit ์ ๋ต์ ๊น์ ๋ ์ด์ด๋ฅผ ์ ๊ฑฐํ๋ฉด์ ์์
์ ์ค์ํ ์๋ฏธ ์ ๋ณด๋ฅผ ์์คํ๊ณ , Mixture-of-Depth(MoD)๋ ํ ํฐ๋ณ ๋ถ์ผ์น ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ๋ค. ๋ก๋ด ์์
์ ๊ณต๊ฐ-์๊ฐ ํน์ฑ์ ๊ณ ๋ คํ ๋์ ๋ ์ด์ด ์ ํ ๋ฉ์ปค๋์ฆ์ด ๋ถ์ฌํ๋ค.
- Why: ๋ก๋ด ์ ์ด๋ 50-1000 Hz์ ๊ณ ์ ์๋ต์ด ํ์ํ๋ฐ ํ์ฌ VLA ๋ชจ๋ธ์ 5-12 Hz ์ฑ๋ฅ๋ง ์ ๊ณตํ๋ฏ๋ก, ๊ณ์ฐ ํจ์จ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ๋ฉด์ ์ฑ๋ฅ์ ์ ์งํ๋ ๊ฒ์ด ์ค์ ๋ก๋ด ๋ฐฐํฌ์ ํต์ฌ์ด๋ค.
- Approach: Shallow Brain Hypothesis์์ ์๊ฐ์ ๋ฐ์ ๊ฐ LLM ๋ ์ด์ด๋ฅผ ๋
๋ฆฝ์ ์ ๋ฌธ๊ฐ๋ก ์ทจ๊ธํ๋ Mixture-of-Layers ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ , ๊ณต๊ฐ-์๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํ๋ STAR ๋ผ์ฐํฐ๋ก ๋์ ๋ ์ด์ด ํ์ฑํ๋ฅผ ์ํํ๋ค. ์ถ๊ฐ๋ก Cognition Self-Knowledge Distillation(CogKD)์ผ๋ก ๋ ์ด์ด ์คํต์ผ๋ก ์ธํ ์ธ์ง ๋ฅ๋ ฅ ์์ค์ ๋ณด์ํ๋ค.
Achievement
Figure 4. Efficiency analysis compared with state-of-the-art baselines with FLOPs and inference time. (Left) Success rat
- ๊ณ์ฐ ๋น์ฉ ๊ฐ์: LLM ๋ถ๋ถ์์ ์ต๋ 5.6๋ฐฐ ๊ณ์ฐ ๋น์ฉ ๊ฐ์ ๋ฌ์ฑ
- ์ฑ๋ฅ ํฅ์: 10๊ฐ ์์
์์ ํ๊ท 8% ์ฑ๊ณต๋ฅ ๊ฐ์
- ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๊ท ํ: RLBench ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ํ๊ฒฝ ๋ชจ๋์์ ์ฐ์์ฑ ์
์ฆ
- ์๋ฌผํ์ ์๊ฐ์ ๊ตฌ์ฒดํ: Shallow Brain Hypothesis ์๋ฆฌ๋ฅผ VLA ๋ชจ๋ธ์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉ
How
Figure 2. The overall framework of MoLe-VLA. Our proposed Mixture of Layers (MoLe) architecture consists of a Spatial-Te
- Spatial-Temporal Aware Router(STAR): ์๊ฐ ํน์ฑ์์ ๊ณต๊ฐ ์ ๋ณด, ํ
์คํธ ์
๋ ฅ์์ ์๊ฐ ์์กด์ฑ์ ๋
๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌํ ํ ํตํฉํ์ฌ ๊ฐ ๋ ์ด์ด์ softmax ํ๋ฅ ์์ฑ ๋ฐ top-k ๋ ์ด์ด ์ ํ
- ๋์ ๋ ์ด์ด ์คํต: ๋ผ์ฐํฐ์ ํ๋ฅ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ๋ก๋ด ์ํ์ ๋ฐ๋ผ ํ์ํ ๋ ์ด์ด๋ง ํ์ฑํํ์ฌ ๋ถํ์ํ ๊ณ์ฐ ์ ๊ฑฐ
- Cognition Self-Knowledge Distillation(CogKD): ์ ์ฒด ๋ ์ด์ด ๋ชจ๋ธ(๊ต์ฌ)๊ณผ ์คํต ๋ชจ๋ธ(ํ์) ์ฌ์ด์ ํ์ต๊ฐ๋ฅํ cognition token์ ๋์
ํ๊ณ , Tokens of Interest(ToIs)๋ฅผ ์๋ณํ์ฌ ์ ์์ ๊ฐ์ค์น ์กฐ์
- ํผํฉ ์ ๋ฌธ๊ฐ ๊ฐ๋
์ ์์ง ํ์ฅ: ๊ธฐ์กด MoE์ ์ํ ์ ์ฉ(layer ๋ด expert)์ ์์ง ๋ฐฉํฅ์ผ๋ก ํ์ฅํ์ฌ layer-wise ํ์ฑํ ๋ฌ์ฑ
Originality
- ์ ๊ฒฝ๊ณผํ-๊ธฐ๋ฐ ์ค๊ณ: Shallow Brain Hypothesis๋ฅผ ์ง์ ๋ก๋ด ์ ์ด ๋ชจ๋ธ์ ์ ์ฉํ ์ต์ด ์ฌ๋ก
- ๊ณต๊ฐ-์๊ฐ ์ธ์ ๋ผ์ฐํ
: ์๊ฐ๊ณผ ์ธ์ด ์
๋ ฅ์ ์๋ก ๋ค๋ฅธ ํน์ฑ์ ๊ณ ๋ คํ ์ฐจ๋ณํ๋ ๋ผ์ฐํฐ ์ค๊ณ๋ก ๊ธฐ์กด ๋จ์ ์ ํ ๋ผ์ฐํฐ ๋๋น ์ฐ์ํจ
- ์ธ์ง ํ ํฐ ๊ธฐ๋ฐ ์ง์ ์ฆ๋ฅ: ์์
๊ด๋ จ ์ธ์ง ํน์ง์ ๋ช
์์ ์ผ๋ก ์๋ณํ๊ณ ์ฌ๊ฐ์ค์นํ๋ ์๋ก์ด ์์ฒด ์ฆ๋ฅ ํจ๋ฌ๋ค์
- ๋ ์ด์ด ๋จ์ ํฌ์ํ: MoD์ ํ ํฐ๋ณ ๋ถ์ผ์น ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์ฒด ์
๋ ฅ์ ๋ํด ์ผ๊ด๋ ๋ ์ด์ด ์กฐํฉ์ ์ ํํ๋ ๋ฐฉ์
Limitation & Further Study
- ๋ผ์ฐํฐ ์ค๋ฒํค๋: STAR ๋ผ์ฐํฐ์ ๊ณ์ฐ ๋น์ฉ ์์ฒด๊ฐ ์ ์ฒด ํจ์จ ์ด๋์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ๋ช
ํํ ๋ถ์ ๋ถ์ฌ
- ์ ํ๋ ๋ฒค์น๋งํฌ: RLBench 10๊ฐ ์์
์์๋ง ํ๊ฐํ์ฌ ๋ ๋ณต์กํ๊ณ ๋ค์ํ ์ค์ ์กฐ์ ์์
์์์ ์ฑ๋ฅ ๊ฒ์ฆ ํ์
- ํ์ดํผํ๋ผ๋ฏธํฐ ๋ฏผ๊ฐ์ฑ: top-k ์ ํ, CogKD์ ๊ฐ์ค์น ๋น์จ ๋ฑ ๋ค์ํ ํ์ดํผํ๋ผ๋ฏธํฐ ์กฐ์ ์ ๋ฏผ๊ฐ๋ ๋ถ์ ๋ถ์กฑ
- ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ: ๋ค์ํ VLA ์ํคํ
์ฒ(RT-2, OpenVLA ์ธ ๋ค๋ฅธ ๋ชจ๋ธ)์ ๋ํ ๊ด๋ฒ์ํ ์ ์ฉ ๊ฒ์ฆ ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ: (1) ๋คํธ์ํฌ ๋ด ๋ ์ด์ด ์ค์๋ ๋ถ์์ ํตํ ๋ ์ ๊ตํ ๋ผ์ฐํ
์ ์ฑ
๊ฐ๋ฐ, (2) ์ ์์ top-k ๊ฒฐ์ ๋ฉ์ปค๋์ฆ, (3) ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ ์์
์์์ ํ์ฅ์ฑ ์ฐ๊ตฌ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: MoLe-VLA๋ ์ ๊ฒฝ๊ณผํ ์ด๋ก ๊ณผ ํจ์จ์ ์ธ AI ๊ธฐ์ ์ ํ์ ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ๋ก๋ด ์ ์ด์ ๊ณ์ฐ-์ฑ๋ฅ ํธ๋ ์ด๋์คํ ๋ฌธ์ ๋ฅผ ํฌ๊ฒ ๊ฐ์ ํ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค. ๊ณต๊ฐ-์๊ฐ ์ธ์ ๋ผ์ฐํ
๊ณผ ์ธ์ง ๊ธฐ๋ฐ ์ง์ ์ฆ๋ฅ์ ์ค๊ณ๊ฐ ๋
์ฐฝ์ ์ด๋ฉฐ, ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํ๊ฒฝ์์์ ์ค์ฆ ๊ฒฐ๊ณผ๊ฐ ์ค๋๋ ฅ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์