Motus: A Unified Latent Action World Model
์ ์: Hongzhe Bi, Hengkai Tan, Shenghao Xie, Zeyuan Wang, Shuhe Huang, Haitian Liu, Ruowen Zhao, Yao Feng, Chendong Xiang, Yinze Rong, Hongyan Zhao, Hanyu Liu, Zhizhong Su, Lei Ma, Hang Su, Jun Zhu | ๋ ์ง: 2025-12-15 | URL: https://arxiv.org/abs/2512.13030 📄 PDF
Essence
Figure 1. Motus Architecture. Here, at . . . at+k are actions, zt . . . zt+k are latent actions, and ฯv and ฯa are the r
Motus๋ vision-language-action ๋ชจ๋ธ, world ๋ชจ๋ธ, inverse dynamics ๋ชจ๋ธ, video generation ๋ชจ๋ธ์ unified latent action world model๋ก ํตํฉํ๋ embodied agent ํ๋ ์์ํฌ์ด๋ฉฐ, Mixture-of-Transformer ์ํคํ
์ฒ์ optical flow ๊ธฐ๋ฐ latent action์ ํตํด ๋๊ท๋ชจ ์ด์ง์ ๋ฐ์ดํฐ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Motivation
- Known: ๊ธฐ์กด embodied agent ๋ฐฉ๋ฒ๋ค์ VLA, WM, IDM, VGM์ ๋ถ๋ฆฌ๋ ๋ชจ๋ธ๋ก ๊ตฌ์ถํ๊ณ ์์ผ๋ฉฐ, ์ผ๋ถ ์ฐ๊ตฌ๋ ์ด๋ค์ ๋ถ๋ถ์ ์ผ๋ก ํตํฉํ๋ ค ์๋ํ์ผ๋ ์์ ํ ํต์ผ์ ์ด๋ฃจ์ง ๋ชปํ๋ค.
- Gap: ํ์กด ๋ฐฉ๋ฒ๋ค์ 5๊ฐ์ง ์ฃผ์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ชจ๋ ํตํฉํ์ง ๋ชปํ๊ณ ์์ผ๋ฉฐ, ์ด์ง์ ๋ฐ์ดํฐ(์ธํฐ๋ท ๋น๋์ค, egocentric ๋ฐ๋ชจ, ๋ก๋ด ๊ถค์ )์์ ๋๊ท๋ชจ action ์ฌ์ ํ์ต์ด ์ด๋ ต๋ค.
- Why: ํต์ผ๋ embodied agent๋ ์ดํด, ์ธ๊ณ ๋ชจ๋ธ๋ง, ์ ์ด๋ฅผ ํ๋์ ์์คํ
์ผ๋ก ํตํฉํด์ผ ํ๋ฉฐ, ์ด๋ฅผ ํตํด ์ผ๋ฐ์ ๋ค์ค๋ชจ๋ฌ priors์ domain-specific priors๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ ์ ์๋ค.
- Approach: Motus๋ Tri-model Joint Attention์ ํตํด vision-language understanding, video generation, action ์ ๋ฌธ๊ฐ๋ฅผ ํตํฉํ๊ณ , UniDiffuser ์คํ์ผ์ scheduler๋ก modality ๊ฐ flexible switching์ ์ง์ํ๋ฉฐ, optical flow ๊ธฐ๋ฐ latent action๊ณผ 3๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ์ผ๋ก ๋๊ท๋ชจ action ์ฌ์ ํ์ต์ ์ํํ๋ค.
Achievement
Figure 1. Motus Architecture. Here, at . . . at+k are actions, zt . . . zt+k are latent actions, and ฯv and ฯa are the r
- ํตํฉ ์ํคํ
์ฒ: 5๊ฐ์ง embodied intelligence ํจ๋ฌ๋ค์(WM, IDM, VLA, VGM, Video-Action Joint Prediction Model)์ ํ๋์ unified model๋ก ํตํฉ
- ์ฑ๋ฅ ํฅ์: ์๋ฎฌ๋ ์ด์
์์ X-VLA ๋๋น +15%, ฯ0.5 ๋๋น +45% ๊ฐ์ , ์ค์ ๋ก๋ด์์ +11~48% ๊ฐ์
- ํ์ฅ ๊ฐ๋ฅํ ํ์ต ๋ ์ํผ: 3๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ๊ณผ 6๊ณ์ธต ๋ฐ์ดํฐ ํผ๋ผ๋ฏธ๋๋ฅผ ํตํ cross-embodiment ์ง์ ์ ์ด
- Latent action ํํ: optical flow ๊ธฐ๋ฐ pixel-level delta action์ผ๋ก ๋ฌด๋ ์ด๋ธ ๋น๋์ค์์์ ์ฌ์ ํ์ต ๊ฐ๋ฅ
How
Figure 1. Motus Architecture. Here, at . . . at+k are actions, zt . . . zt+k are latent actions, and ฯv and ฯa are the r
- Mixture-of-Transformer (MoT) ์ํคํ
์ฒ: understanding expert, video generation model, action expert๋ฅผ shared multi-head self-attention layer๋ก ์ฐ๊ฒฐํ๋ Tri-model Joint Attention ์ค๊ณ
- UniDiffuser ์คํ์ผ scheduler: ๊ฐ modality์ ์๋ก ๋ค๋ฅธ timestep๊ณผ noise scale ํ ๋น์ผ๋ก flexibleํ inference mode switching ์คํ
- Deep Compression Autoencoder (DC-AE): optical flow๋ฅผ ์ ์ฐจ์ latent์ผ๋ก ์ธ์ฝ๋ฉํ๋, ์์์ action label๋ก supervisionํ์ฌ robotic activity์ ์ด์ ๋ง์ถค
- 3๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ: video pretraining โ latent action pretraining โ embodiment-specific action finetuning
- 6๊ณ์ธต ๋ฐ์ดํฐ ํผ๋ผ๋ฏธ๋: web-scale, egocentric human, simulation, task-agnostic, multi-robotic, target-robotic ๋ฐ์ดํฐ ํ์ฉ
Originality
- optical flow๋ฅผ universal motion expression์ผ๋ก ํ์ฉํ์ฌ cross-embodiment action ํํ์ ํตํฉํ novel latent action ์ค๊ณ
- Tri-model Joint Attention์ ํตํ ์๋ก์ด multimodal fusion ๋ฐฉ์์ผ๋ก specialized functionality ๋ณด์กด๊ณผ cross-modal knowledge fusion ๋์ ๋ฌ์ฑ
- 3๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ๊ณผ 6๊ณ์ธต ๋ฐ์ดํฐ ํผ๋ผ๋ฏธ๋๋ฅผ ํตํ ์ฒด๊ณ์ ์ธ ๋๊ท๋ชจ multi-domain pretraining ๋ฐ finetuning ์ ๋ต
- UniDiffuser ๊ธฐ๋ฐ์ flexible scheduler๋ก 5๊ฐ์ง ์๋ก ๋ค๋ฅธ modeling mode์ adaptive switching ๊ตฌํ
Limitation & Further Study
- optical flow ์ถ์ถ์ ๊ณ์ฐ ๋น์ฉ๊ณผ ๋ถ์ ํ์ฑ์ด latent action ํ์ต์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ๋ถ์ ๋ถ์กฑ
- 6๊ณ์ธต ๋ฐ์ดํฐ ํผ๋ผ๋ฏธ๋ ๊ตฌ์ฑ ์ ๊ฐ ๊ณ์ธต์ ์ต์ ํฌ๊ธฐ ๋น์จ๊ณผ ์ํฅ๋์ ๋ํ ablation study ์ ํ์
- ์๋ก ๋ค๋ฅธ ๋ก๋ด embodiment ๊ฐ์ action space ๋ถ์ผ์น ๋ฌธ์ ๋ฅผ optical flow๋ก ์์ ํ ํด๊ฒฐํ๋์ง ๊ฒ์ฆ ํ์
- ์ค์ ๋ก๋ด ์คํ์ด ์ ํ๋ ํ๊ฒฝ๊ณผ task์ ํ์ ๋์ด ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ ํ์
- ํ์ ์ฐ๊ตฌ๋ก ๋ ๋ค์ํ embodiment๊ณผ ๋ณต์กํ ์กฐ์ task์ ๋ํ ํ๋ ์คํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Motus๋ ๋ถ์ฐ๋ embodied agent ์ํคํ
์ฒ๋ฅผ unified model๋ก ํตํฉํ๋ฉด์ optical flow ๊ธฐ๋ฐ latent action๊ณผ ์ฒด๊ณ์ ์ธ multi-stage ํ์ต์ผ๋ก ๋๊ท๋ชจ ์ด์ง์ ๋ฐ์ดํฐ ํ์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ ํ์ ์ ์ฐ๊ตฌ์ด๋ฉฐ, ๊ฐ๋ ฅํ ์คํ ์ฑ๊ณผ์ ํจ๊ป embodied AI์ ํตํฉ ๋ชจ๋ธ๋ง์ ๋ํ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์