HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies
์ ์: Zhiying Du, Bei Liu, Yaobo Liang, Yichao Shen, Haidong Cao, Xiangyu Zheng, Zhiyuan Feng, Zuxuan Wu, Jiaolong Yang, Yu-Gang Jiang | ๋ ์ง: 2025-12-05 | URL: https://arxiv.org/abs/2512.05693 📄 PDF
Essence
Figure 1: Overview of HiMoE-VLA. The left blue part illustrates the VLM backbone initialized
HiMoE-VLA๋ ๋ก๋ด ๋ฐ์ดํฐ์ ์ด์ง์ฑ(action space, embodiment, sensor configuration ๋ฑ)์ ๋ช
์์ ์ผ๋ก ์ฒ๋ฆฌํ๊ธฐ ์ํด ๊ณ์ธต์ Mixture-of-Experts ์ํคํ
์ฒ๋ฅผ ์ ์ํ๋ Vision-Language-Action ํ๋ ์์ํฌ์ด๋ค.
Motivation
- Known: ์ต๊ทผ VLA ๋ชจ๋ธ๋ค์ OXE์ ๊ฐ์ ๋๊ท๋ชจ ์ด์ง์ ๋ก๋ด ๋ฐ์ดํฐ์
์ ํ์ฉํ์ฌ ํ์ตํ๊ณ ์์ผ๋ฉฐ, VLM ๋ฐฑ๋ณธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ก๋ด ์ ์ด๋ฅผ ์ํํ๊ณ ์๋ค.
- Gap: ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ ๋ก๋ด ๋ฐ์ดํฐ์ ๋ณธ์ง์ ์ด์ง์ฑ(action space, embodiment, kinematics, sensor configuration ๋ฑ)์ ์ฒด๊ณ์ ์ผ๋ก ์ฒ๋ฆฌํ ๋ช
์์ ์ค๊ณ๊ฐ ๋ถ์กฑํ์ฌ ๋๋ฉ์ธ ๊ฐ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ ํ๋๋ค.
- Why: ๋ก๋ด ๊ธฐ์ด ๋ชจ๋ธ ๊ฐ๋ฐ์ ํต์ฌ ๊ณผ์ ์ธ ์ด์ง์ ๋ก๋ด ๋ฐ์ดํฐ๋ก๋ถํฐ์ ํจ๊ณผ์ ์ง์ ์ด์ ์ ๋ฌ์ฑํ๊ธฐ ์ํด, ๋ค์ํ ์ด์ง์ฑ ์์ค๋ฅผ ๋ช
์์ ์ผ๋ก ์ฒ๋ฆฌํ๊ณ ํตํฉํ๋ ๊ตฌ์กฐ๊ฐ ํ์์ ์ด๋ค.
- Approach: AS-MoE (Action-Space MoE)์ HB-MoE (Heterogeneity-Balancing MoE)๋ก ๊ตฌ์ฑ๋ ๊ณ์ธต์ ์ ๋ฌธ๊ฐ ๊ตฌ์กฐ๋ฅผ ์ค๊ณํ์ฌ, action space ์ฐจ์ด๋ ์์ ์ธต์์, ๊ด๋ฒ์ํ ์ด์ง์ฑ์ ๊น์ ์ธต์์ ์ฒ๋ฆฌํ๊ณ , ์ค๊ฐ Transformer ๋ธ๋ก์ผ๋ก ๊ณต์ ํํ์ผ๋ก ํตํฉํ๋ค.
Achievement
- ๊ณ์ธต์ ์ด์ง์ฑ ์ฒ๋ฆฌ: Action-Space MoE๊ฐ joint-angle-space์ end-effector-space ๊ฐ ์ฐจ์ด๋ฅผ ์ ๋ฌธํํ๊ณ , Heterogeneity-Balancing MoE๊ฐ embodiment, kinematics, sensor ์ค์ ๋ฑ ๊ด๋ฒ์ํ ๋ณ๋์ฑ์ ์ฒ๋ฆฌ
- ํ๊ฒ ์ ๊ทํ ๋ฉ์ปค๋์ฆ: Action-Space Regularization (contrastive ๋ชฉํ)๊ณผ Heterogeneity-Balancing Regularization์ผ๋ก ์ ๋ฌธ๊ฐ ํนํ์ ์ ์ง์ ์ถ์ํ ๊ฐํ
- ํฌ๊ด์ ๋ฒค์น๋งํฌ ์ฑ๋ฅ: CALVIN, LIBERO ์๋ฎฌ๋ ์ด์
๋ฒค์น๋งํฌ์ xArm, ALOHA ์ค์ ๋ก๋ด์์ ๊ธฐ์กด VLA ๋๋น ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์ ๋ฌ์ฑ
- ๊ฐ๊ฑดํ ์ผ๋ฐํ: ๋ฏธ๋ณด์ ๊ฐ์ฒด, ํ๊ฒฝ, ์๋ก์ด ๋ก๋ด๊ณผ ํ์คํฌ์ ๋ํด ๋น ๋ฅธ ์ ์์ฑ๊ณผ ํจ๊ณผ์ ์ผ๋ฐํ ๋ฅ๋ ฅ ์
์ฆ
How
Figure 2: Detailed structure of the Hierarchical Mixture-of-Experts (HiMoE). The architecture fol-
- PaliGemma ๊ธฐ๋ฐ VLM ๋ฐฑ๋ณธ์ด visual observation๊ณผ language instruction ์ฒ๋ฆฌ
- AS-MoE: Top-K router๋ฅผ ์ฌ์ฉํ์ฌ ์
๋ ฅ ํ ํฐ์ ์๋ก ๋ค๋ฅธ action space ์ ๋ฌธ๊ฐ๋ก ๋ผ์ฐํ
- HB-MoE: ๊ด๋ฒ์ํ embodiment/sensor ์ด์ง์ฑ์ ์ฒ๋ฆฌํ๋ ์ ๋ฌธ๊ฐ ๋ชจ๋
- ๊ณ์ธต ๊ตฌ์กฐ: AS-MoE โ Transformer blocks โ HB-MoE โ Transformer blocks ์์๋ก ๊ตฌ์ฑ
- Flow-matching loss๋ก multimodal action ๋ถํฌ ๋ชจ๋ธ๋ง
- AS-Reg (contrastive loss)์ HB-Reg๋ก ์ ๋ฌธ๊ฐ ํนํ ๋ฐ ์ง์ ์ถ์ํ ์ ๋
- OXE์ ALOHA ๋ฐ์ดํฐ์
์ผ๋ก ์ฌ์ ํ์ต ํ CALVIN, LIBERO, ์ค์ ๋ก๋ด์์ ๋ฏธ์ธ์กฐ์
Originality
- ๊ณ์ธต์ MoE ๊ตฌ์กฐ์ ์ฐธ์ ํ ์ค๊ณ: ์ผ๋ฐ์ ์ธ ํ๋ฉด MoE์ ๋ฌ๋ฆฌ action space์ ๊ด๋ฒ์ํ ์ด์ง์ฑ์ ๋ช
์์ ์ผ๋ก ๋ถ๋ฆฌํ ๊ณ์ธต์ ์กฐ์งํ
- ๋ก๋ด ๋๋ฉ์ธ ๋ง์ถคํ ๋ฌธ์ ํฌ๋ฎฌ๋ ์ด์
: VLA ๋งฅ๋ฝ์์ ์ด์ง์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ๋ฅํ๊ณ ์ฒ๋ฆฌํ๋ ๋ช
ํํ ๋ฌธ์ ์ ์
- ํ๊ฒ ์ ๊ทํ ๋ฉ์ปค๋์ฆ: Action-Space Regularization๊ณผ Heterogeneity-Balancing Regularization์ด ์ ๋ฌธ๊ฐ ํนํ์ ์ง์ ํตํฉ์ ๋์์ ๋ฌ์ฑ
- ๊ด๋ฒ์ํ ์ค์ฆ ํ๊ฐ: ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด(๋จ์ผ/์ด์คํ), ๋ค์ํ ๋ฒค์น๋งํฌ์์์ ์ฒด๊ณ์ ๊ฒ์ฆ
Limitation & Further Study
- ๊ณ์ฐ ๋ณต์ก๋: ๊ณ์ธต์ MoE ๊ตฌ์กฐ๋ก ์ธํ ์ถ๋ก ์๊ฐ๊ณผ ๋ฉ๋ชจ๋ฆฌ ์ค๋ฒํค๋์ ๋ํ ์์ธ ๋ถ์ ๋ถ์ฌ
- ๋ผ์ฐํ
๋ฉ์ปค๋์ฆ์ ๋จ์์ฑ: Top-K ๋ผ์ฐํ
์ ํจ์จ์ฑ๊ณผ ๋ก๋ ๋ฐธ๋ฐ์ฑ ์ฑ๋ฅ์ ๋ํ ์ฌ์ธต ๋
ผ์ ๋ฏธํก
- ์ ํ๋ action space ๋ฒ์: ํ์ฌ joint-angle๊ณผ end-effector ๊ณต๊ฐ๋ง ๋ค๋ฃจ๋ฉฐ, ๋ค๋ฅธ ํํ์ action ํํ ํ์ฅ์ฑ ๋ถ๋ช
ํ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋์ expert ์ ์กฐ์ , (2) ๋ ์ด์ง์ ์ธ embodiment(legged robots, dexterous hands)๋ก์ ํ์ฅ, (3) ์จ๋ผ์ธ ํ์ต/์ฐ์ ๋๋ฉ์ธ ์ ์, (4) MoE ๊ตฌ์กฐ ์ต์ ํ ์๋ํ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: HiMoE-VLA๋ ๋ก๋ด ๋ฐ์ดํฐ์ ๋ณธ์ง์ ์ด์ง์ฑ์ ๋ช
์์ ์ผ๋ก ๋ค๋ฃจ๋ ๊ณ์ธต์ MoE ์ค๊ณ๋ก VLA ๋ถ์ผ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ฉฐ, ๊ด๋ฒ์ํ ์คํ์ ํตํด ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ํฅ์๋ ์ฑ๋ฅ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์
์ฆํ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์