Being-M0.5: A Real-Time Controllable Vision-Language-Motion Model
์ ์: Bin Cao, Sipeng Zheng, Ye Wang, Lujie Xia, Qianshan Wei, Qin Jin, Jing Liu, Zongqing Lu | ๋ ์ง: 2025-08-11 | URL: https://arxiv.org/abs/2508.07863 📄 PDF
Essence
Figure 1: Leveraging our million-scale dataset HuMo100M, we present Being-M0.5, the first real-time, control-
Being-M0.5๋ HuMo100M์ด๋ผ๋ ๋ฐฑ๋ง ๊ท๋ชจ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ต์ด์ ์ค์๊ฐ ์ ์ด ๊ฐ๋ฅ vision-language-motion model๋ก, part-aware residual quantization์ ํตํด ์ ์ฒด ๊ฐ ๋ถ์์ ๋ํ ์ธ๋ฐํ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Motivation
- Known: ์ต๊ทผ vision-language model๋ค์ ๋ค์ค ๋ชจ๋ฌ ํ์ต์ ํตํด ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ผ๋ฉฐ, motion generation ๋ถ์ผ์๋ LLM ๊ธฐ๋ฐ์ ์ ๊ทผ๋ฒ๋ค์ด ๋์
๋์๋ค. ํ์ง๋ง ๊ธฐ์กด VLMMs์ ์ค์๊ฐ ์ฒ๋ฆฌ์ ์ข
ํฉ์ ์ธ ์ ์ด ๊ฐ๋ฅ์ฑ์์ ํ๊ณ๋ฅผ ๋ณด์ธ๋ค.
- Gap: ๊ธฐ์กด vision-language-motion model๋ค์ ๋ค์ํ ์ฌ์ฉ์ ๋ช
๋ น์ ๋ํ ๋ถ์ ์ ํ ์๋ต, ์ ํ๋ pose ์ด๊ธฐํ, ์ฅ๊ธฐ ์ํ์ค ์์ฑ ์ฑ๋ฅ ๋ถ์กฑ, ๋ฏธ์ง์ ์๋๋ฆฌ์ค ์ฒ๋ฆฌ ๋ถ์ถฉ๋ถ, ์ ์ฒด ๋ถ์๋ณ ์ธ๋ฐํ ์ ์ด ๋ถ์ฌ ๋ฑ ๋ค์ฏ ๊ฐ์ง ์ ์ด์ฑ ์ธก๋ฉด์์ ๋ณ๋ชฉ์ด ์กด์ฌํ๋ค.
- Why: motion generation์ ๋น๋์ค ๊ฒ์, ์ํ ์ ์, ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ๋ฑ ํ์ค ์์ฉ์์ ๋ณํ์ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๊ณ ์์ผ๋, ์ค์๊ฐ ์ฒ๋ฆฌ์ ์ข
ํฉ์ ์ ์ด ๊ฐ๋ฅ์ฑ์ ๋ถ์กฑ์ด ์ค์ ๋ฐฐํฌ๋ฅผ ์ ํดํ๊ณ ์๋ค.
- Approach: Being-M0.5๋ 5๋ฐฑ๋ง ๊ฐ์ motion sequence์ 1์ต ๊ฐ์ ๋ค์ค ์์
์ง์ ์ธ์คํด์ค๋ฅผ ํฌํจํ๋ HuMo100M ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๊ณ , part-level annotation๊ณผ long-form motion, text-aligned visual clip์ ์ ๊ณตํ๋ฉฐ, part-aware residual quantization์ ํตํด ์ ์ฒด ๋ถ์๋ณ ๋
๋ฆฝ์ ์ธ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Achievement
Figure 4: Comparison with previous SoTAs across nine
- HuMo100M ๋ฐ์ดํฐ์
: 5๋ฐฑ๋ง motion sequence์ 100๋ฐฑ๋ง ๋ค์ค ์์
์ง์ ์ธ์คํด์ค๋ฅผ ํฌํจํ ์ต๋ ๊ท๋ชจ์ ๋ค์ค ๋ชจ๋ฌ motion dataset ๊ตฌ์ถ
- part-level annotation: ์ ์ฒด ๋ถ์๋ณ ์ธ๋ฐํ ๊ฐ๋
์ ํธ๋ฅผ ์ ๊ณตํ์ฌ ๋ถ์๋ณ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํจ
- ์ฅ๊ธฐ motion ์์ฑ: motion concatenation ๋ฐฉ๋ฒ์ ํตํด ๊ณต๊ฐ-์๊ฐ์ ์ผ๋ก ์ผ๊ด๋ ์ฅ๊ธฐ motion sequence ์์ฑ
- ์ค์๊ฐ ์ฑ๋ฅ: frame-by-frame motion code decoding์ ํตํด real-time ์์ฑ ๋ฌ์ฑ
- ๋ค์ํ ๋ฒค์น๋งํฌ์์ SOTA: diverse motion generation task์์ ์ต์ฒจ๋จ ์ฑ๋ฅ ๋ฌ์ฑ
How
Figure 2: Model Illustration. Being-M0.5 supports multi-modal inputs/outputs, built on a 7B LLM
- Visual encoder๋ฅผ ํตํด ๋ค์ค ๋ชจ๋ฌ ์
๋ ฅ(์ด๋ฏธ์ง, ํ
์คํธ, motion) ์ฒ๋ฆฌ
- Part-aware residual quantization (PRQ)๋ฅผ ํตํด ์ ์ฒด ์ ์ฒด motion feature๋ฅผ ํด๋ถํ์ ์ผ๋ก ์๋ฏธ ์๋ joint grouping์ผ๋ก ๋ถํดํ๊ณ discrete part-level code๋ก ์์ํ
- LLM backbone์ ํ์ฉํ์ฌ ์์ฐ์ด ์ง์์ฌํญ ํด์ ๋ฐ motion code ์์ฑ
- Part-level motion codebook์ ๊ณต์ ํ์ฌ ์ ์ฒด ๊ฐ ๋ถ์(torso, right_arm, left_leg ๋ฑ)์ ๋ํ ๋
๋ฆฝ์ ์ ์ด ์คํ
- Multi-task ํ์ต ํจ๋ฌ๋ค์์ผ๋ก diverse control signal ์ฒ๋ฆฌ (text instruction, pose initialization, part control ๋ฑ)
Originality
- Motion generation์์ part-level annotation๊ณผ part-aware residual quantization์ ์ต์ด๋ก ๋์
ํ์ฌ ์ ์ฒด ๋ถ์๋ณ ์ธ๋ฐํ ์ ์ด ๊ฐ๋ฅ
- Motion concatenation ๋ฐฉ๋ฒ์ ํตํด web-collected motion data๋ก๋ถํฐ ๊ณต๊ฐ-์๊ฐ์ ์ผ๋ก ์ผ๊ด๋ ์ฅ๊ธฐ motion sequence ์์ฑ
- Text-aligned visual clip์ ํ์ฉํ ์ฝํ ๊ฐ๋
(weak supervision) ํ์ต์ผ๋ก ์ธํฐ๋ท ์์ง motion data์ ํ์ง ๋ฌธ์ ํด๊ฒฐ
- Motion decoding strategy๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ์ฌ real-time ์ฑ๋ฅ ๋ฌ์ฑ์ ์ํ ์ค๊ณ insights ์ ๊ณต
Limitation & Further Study
- ํ์ฌ ๋ชจ๋ธ์ 7B ํ๋ผ๋ฏธํฐ ๊ท๋ชจ๋ก ๋ ํฐ ๋ชจ๋ธ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ ๋ฏธ์ ์
- Part-level control์ ํด๋ถํ์ joint grouping์ด ๊ณ ์ ๋์ด ์์ด ์ฌ์ฉ์ ์ ์ ๋ถ์ ์ ์ด ๋ถ๊ฐ๋ฅ
- HuMo100M์ web-collected data์์ ๋์ฌ ์ ์๋ ๋๋ฉ์ธ ํธํฅ์ฑ์ ๋ํ ๋ถ์ ๋ถ์ฌ
- ์ค์๊ฐ ์ฑ๋ฅ์ด GPU ์ข
๋ฅ์ ๋ฐ๋ผ ๋ค์ํ๊ฒ ๋ํ๋๋๋ฐ, ๋ค์ํ ํ๋์จ์ด ํ๊ฒฝ์ ๋ํ ์ต์ ํ ์ฌ์ง ์กด์ฌ
- ํ์ ์ฐ๊ตฌ: ์ ์ํ joint grouping์ ํตํ ์ฌ์ฉ์ ์ ์ ๋ถ์ ์ ์ด, ๋ ํฐ ๋ชจ๋ธ ๊ท๋ชจ๋ก์ ์ฑ๋ฅ ํฅ์ ์ฐ๊ตฌ, ๋๋ฉ์ธ ์ ์ ํ์ต ๋ฐฉ๋ฒ ๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Being-M0.5๋ HuMo100M๊ณผ part-aware residual quantization์ด๋ผ๋ ๋ ๊ฐ์ง ์ฃผ์ ํ์ ์ ํตํด motion generation์ ์ ์ด ๊ฐ๋ฅ์ฑ๊ณผ ์ค์๊ฐ ์ฑ๋ฅ ๋ฌธ์ ๋ฅผ ๋์์ ํด๊ฒฐํ๋ฉฐ, ๋๊ท๋ชจ ๋ฐ์ดํฐ์
๊ณผ ๋ชจ๋ธ ์ค๊ณ ํต์ฐฐ๋ ฅ์ผ๋ก ์ค์ ์์ฉ ๋ฐฐํฌ์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์