UniAct: Unified Motion Generation and Action Streaming for Humanoid Robots
์ ์: Nan Jiang, Zimo He, Wanhe Yu, Lexi Pang, Yunhao Li, Hongjie Li, Jieming Cui, Yuhan Li, Yizhou Wang, Yixin Zhu, Siyuan Huang | ๋ ์ง: 2025-12-30 | DOI: 10.48550/arXiv.2512.24321 📄 PDF
Essence
Figure 1. UniAct, a unified framework for multimodal motion generation and action streaming. UniAct enables humanoid rob
UniAct๋ MLLM๊ณผ causal streaming pipeline์ ๊ฒฐํฉํ ๋ ๋จ๊ณ ํ๋ ์์ํฌ๋ก, ์ธ๊ฐํ ๋ก๋ด์ด ์ธ์ด, ์์
, ๊ถค์ ๋ฑ ๋ค์ํ multimodal ๋ช
๋ น์ sub-500ms ์ง์ฐ์๊ฐ์ผ๋ก ์คํํ ์ ์๊ฒ ํ๋ค.
Motivation
- Known: ์ธ๊ฐํ ๋ก๋ด ์ ์ด๋ ์ ์์ค ์ถ์ ๊ณผ ์ ์ด์์ ์ง์ ํ์ผ๋, ๊ณ ์์ค multimodal ์ธ์๊ณผ ์ ์ ์คํ ๊ฐ์ ๊ฒฉ์ฐจ๊ฐ ๋จ์์๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ end-to-end ๋งคํ์ด๋ ๊ณ์ธต์ ํ์ดํ๋ผ์ธ ์ค ํ๋๋ฅผ ์ฑํํ์ฌ real-time ์๋ต์ฑ๊ณผ ๋ช
๋ น ์ดํด ๊ฐ ํธ๋ ์ด๋์คํ๋ฅผ ๊ฒช๊ณ ์๋ค.
- Gap: ๋ค์ํ modality์ ๋ช
๋ น์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ์์ง์์ผ๋ก ์์ ์ ์ด๊ณ ์ค์๊ฐ์ผ๋ก ๋ณํํ๋ unified framework๊ฐ ๋ถ์ฌํ๋ฉฐ, ๋ถ์์ ํ ์ธ๊ฐ ์์ฐ์ ๋ํ robustness๋ ๋ถ์กฑํ๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ multimodal instruction following ๋ฅ๋ ฅ์ ์ผ๋ฐ์ ๋ชฉ์ ์ ๋ก๋ด ์ด์์คํดํธ ์คํ์ ํ์์ ์ด๋ฉฐ, sub-500ms ์๋ต ์ง์ฐ์ ๋ํํ interaction์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: UniAct๋ FSQ๋ฅผ ํตํด ์ด์ง์ ์
๋ ฅ์ ๊ณต์ discrete codebook์ผ๋ก ํตํฉํ์ฌ cross-modal alignment๋ฅผ ํ๋ณดํ๊ณ , MLLM ๊ธฐ๋ฐ ์์ฑ ๋จ๊ณ์ causal decoder๋ฅผ ๊ฑฐ์ณ robust motion tracker๋ก ์คํํ๋ค.
Achievement
Figure 3. UA-Net dataset analysis. (a) Representative text descriptions of human motions from UA-Net. (b) Rendered motio
- Unified multimodal framework: ์ธ์ด, ์์
, ๊ถค์ , reference ๋์์ ํ๋์ discrete token ๊ณต๊ฐ์ผ๋ก ํตํฉํ์ฌ seamless cross-modal translation ์คํ
- Low-latency real-time execution: Sub-500ms ์๋ต ์ง์ฐ์ผ๋ก responsive humanoid assistant ๊ตฌํ
- 19% improvement in zero-shot tracking: ๋ถ์์ ํ reference motion์ ๋ํ zero-shot ์ถ์ ์ฑ๊ณต๋ฅ ํฅ์
- Comprehensive evaluation: 1,000+ ์๋ฎฌ๋ ์ด์
์ํ๊ณผ 100+ ์๊ฐ์ ์ค์ ๋ก๋ด ์ด์์ ํตํ ๊ฒ์ฆ
- UA-Net benchmark: 20์๊ฐ ๊ท๋ชจ์ multimodal ์ฃผ์์ด ๋ฌ๋ฆฐ ๊ณ ํ์ง ์ธ๊ฐํ ๋ก๋ด ๋์ ๋ฐ์ดํฐ์
์ ๊ณต
How
Figure 2. Overview of UniAct and multimodal representations.
- FSQ ๊ธฐ๋ฐ ํ ํฐํ: ํ
์คํธ, ์์
, ๊ถค์ , reference motion์ discrete token ํํ์ผ๋ก ๋ณํํ์ฌ ์
๋ ฅ ํต์ผ
- MLLM ๊ธฐ๋ฐ ์์ฑ: Fine-tuned MLLM์ด multimodal ์
๋ ฅ์ reasoningํ์ฌ motion token sequence ์์ฑ
- Causal streaming decoder: Next-token prediction ํจ๋ฌ๋ค์์ผ๋ก ์์ฑ๋ ํ ํฐ์ ์ค์๊ฐ ๋ช
๋ น์ผ๋ก ๋ณํ
- Robust motion tracker: ์์ฑ๋ ๋ช
๋ น์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ์์ง์์ผ๋ก ์คํํ๋ฉฐ ๋์ ๊ท ํ ์ ์ง
- Physically grounded manifold: Discrete action space๋ก ์์ฑ์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ์์ญ์ ์ ์ฝ
Originality
- Humanoid control์์ ์ฒ์์ผ๋ก MLLM๊ณผ robust tracker๋ฅผ unified framework๋ก ๊ฒฐํฉ
- FSQ ๊ธฐ๋ฐ์ shared discrete codebook์ผ๋ก heterogeneous multimodal inputs์ seamless translation ๋ฌ์ฑ
- Causal streaming pipeline์ ํตํด diffusion ๊ธฐ๋ฐ ๋ฐฉ๋ฒ ๋๋น sub-500ms ์ง์ฐ ์คํ
- Multimodal annotation์ด ํฌํจ๋ ๋๊ท๋ชจ humanoid-specific ๋ฐ์ดํฐ์
(UA-Net) ๊ตฌ์ถ
Limitation & Further Study
- ์ค์ deployment์์์ ์ถ๊ฐ hardware ์ ์ฝ์ด๋ ํ๊ฒฝ perturbation์ ๋ํ robustness ํ๊ฐ ๋ถ์กฑ
- MLLM์ inference ๋ฅ๋ ฅ ํ๊ณ๋ก ์ธํ ๋ณต์กํ ์๋ฏธ๋ก ์ ์ถ๋ก ์ ์ ํ ๊ฐ๋ฅ์ฑ
- Cross-embodiment generalization ์ฑ๋ฅ ๋ฏธํ๊ฐ โ ๋ค๋ฅธ humanoid ํํ์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ๋ฏธ๊ฒ์ฆ
- UA-Net์ 20์๊ฐ ๊ท๋ชจ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
๊ธฐ์ค์ผ๋ก ์ฌ์ ํ ์ ํ์ ์ผ ์ ์์
- ํ์ ์ฐ๊ตฌ: OOD ์ํฉ์ ๋ํ adaptability ๊ฐํ, ๋ค์ํ humanoid morphology์ ๋ํ transfer learning ์ฐ๊ตฌ, ๋ ํฐ ๊ท๋ชจ์ multimodal dataset ๊ตฌ์ถ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: UniAct๋ MLLM๊ณผ robust tracking์ unified framework๋ก ํตํฉํ์ฌ ์ค์ humanoid robot์์ multimodal instruction following์ low latency๋ก ๋ฌ์ฑํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ฉฐ, UA-Net ๋ฐ์ดํฐ์
๊ธฐ์ฌ์ ํจ๊ป embodied AI ๋ถ์ผ์์ ์ค์ํ ์ง์ ์ ๋ํ๋ธ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์