Scaling Large Motion Models with Million-Level Human Motions
์ ์: Ye Wang, Sipeng Zheng, Bin Cao, Qianshan Wei, Weishuai Zeng, Qin Jin, Zongqing Lu | ๋ ์ง: 2024-10-04 | URL: https://arxiv.org/abs/2410.03311 📄 PDF
Essence
Figure 1: TOP: While existing models perform well on
LLM์ ์ฑ๊ณต์ ์๊ฐ์ ๋ฐ์ ๋ฐฑ๋ง ๋จ์ ๊ท๋ชจ์ ๋๊ท๋ชจ ๋ชจ์
๋ฐ์ดํฐ์
MotionLib๋ฅผ ๊ตฌ์ถํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก Being-M0 ๋ชจ๋ธ์ ํ๋ จํ์ฌ ๋๊ท๋ชจ ๋ชจ์
์์ฑ ๋ชจ๋ธ์ ํ์ฅ์ฑ์ ์
์ฆํ๋ ์ฐ๊ตฌ์ด๋ค.
Motivation
- Known: Text-to-motion ์์ฑ ๋ถ์ผ์์ VQ์ ๊ฐ์ ๋ฒกํฐ ์์ํ ๊ธฐ๋ฒ๊ณผ CLIP, GPT-2 ๊ฐ์ ์ธ์ฝ๋-๋์ฝ๋๋ฅผ ํ์ฉํ ์ ๊ทผ๋ฒ์ด ์กด์ฌํ๋ค. LLM์ ์ฑ๊ณต์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๋ชจ๋ธ ํฌ๊ธฐ ํ์ฅ์ ์ค์์ฑ์ ๋ณด์ฌ์ค๋ค.
- Gap: ํ์กดํ๋ ๋ชจ์
์์ฑ ๋ฐ์ดํฐ์
(Motion-X, HumanML3D)์ ํฌ๊ธฐ๊ฐ ๋งค์ฐ ์ ํ์ ์ด๊ณ , ๋ชจ์
๋ฐ์ดํฐ์ ๋น์ฉ ๋์๊ณผ ์ฃผ์ ์์
์ ๋ณต์ก์ฑ์ผ๋ก ์ธํด ๋๊ท๋ชจ ๋ชจ์
๋ชจ๋ธ ๊ฐ๋ฐ์ด ์ด๋ ต๋ค. ๋ํ ๊ธฐ์กด VQ ๊ธฐ๋ฐ ๋ฐฉ์์ ์ ๋ณด ์์ค๊ณผ ์ ํ๋ ์ฝ๋๋ถ ํฌ๊ธฐ๋ก ์ธํ ํํ๋ ฅ ๋ถ์กฑ ๋ฌธ์ ๊ฐ ์๋ค.
- Why: ๋ชจ์
์์ฑ์ ๊ฒ์, ์ํ, ๋ก๋ด๊ณตํ ๋ฑ ๋ค์ํ ์ค์ ์์ฉ ๋ถ์ผ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ๋๊ท๋ชจ ๋ชจ์
๋ชจ๋ธ์ ๊ฐ๋ฐ์ ๋ค์ํ ๋ชจ์
์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ๊ณผ ๋ฏธ์ง์ ํ๋์ ๋ํ ์์ฑ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: ์ฒด๊ณ์ ์ธ ๋ฐ์ดํฐ ์์ง ํ์ดํ๋ผ์ธ์ ํตํด 120๋ง ๊ฐ ์ด์์ ๋ชจ์
์ํ์ค๋ฅผ ํฌํจํ๋ MotionLib๋ฅผ ๊ตฌ์ถํ๊ณ , ๊ณ์ธต์ ํ
์คํธ ์ค๋ช
์ ์ถ๊ฐํ์๋ค. MotionBook์ด๋ผ๋ ์๋ก์ด ๋ชจ์
์ธ์ฝ๋ฉ ๋ฐฉ์(2D-LFQ)์ ์ ์ํ์ฌ ์ ๋ณด ์์ค์ ์ต์ํํ๊ณ ์ฝ๋๋ถ ์ฉ๋์ ํ๋ํ๋ค.
Achievement
Figure 1: TOP: While existing models perform well on
- MotionLib ๋ฐ์ดํฐ์
: ๊ธฐ์กด ๋ฐ์ดํฐ์
๋๋น ์ต์ 15๋ฐฐ ๊ท๋ชจ์ 120๋ง ๊ฐ ์ด์ ๋ชจ์
์ํ์ค์ ๊ณ์ธต์ ํ
์คํธ ์ฃผ์์ ํฌํจํ๋ ์ฒซ ๋ฒ์งธ ๋ฐฑ๋ง ๊ท๋ชจ ๋ชจ์
์์ฑ ๋ฐ์ด์
์ ๊ตฌ์ถํ๋ค.
- Being-M0 ๋ชจ๋ธ: MotionLib๋ฅผ ํ์ฉํ์ฌ ํ๋ จ๋ ๋๊ท๋ชจ ๋ชจ์
๋ชจ๋ธ๋ก์ ๋ฏธ์ง์ ํ๋์ ํฌํจํ ๊ด๋ฒ์ํ ์ธ๊ฐ ํ๋์ ๋ํด ๊ฐ๊ฑดํ ์ฑ๋ฅ์ ์
์ฆํ๋ค.
- ํ์ฅ ๋ฒ์น ๊ท๋ช
: ๋ชจ์
์์ฑ์์ ๋ฐ์ดํฐ ๋ฐ ๋ชจ๋ธ ํฌ๊ธฐ ํ์ฅ์ ์ค์์ฑ์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ์
์ฆํ๊ณ , ๊ด์ ์์ธก ์ค๋ฅ๋ฅผ ๊ฐ์์ํค๋ฉฐ ์๋ก์ด ๋ชจ์
์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ค.
- MotionBook ์ธ์ฝ๋ฉ: ์์ค์ด ์๋ ์ปดํฉํธํ ๋ชจ์
ํน์ฑ ํํ๊ณผ 2D lookup-free ๋ชจ์
tokenizer(2D-LFQ)๋ฅผ ์ ์ํ์ฌ ๋ชจ์
์ฝ๋๋ถ์ ์ต์ 100๋ฐฐ ์ด์ ํ๋ํ๊ณ ์ธ๋ถ ๋ชจ์
ํน์ฑ์ ๋ณด์กดํ๋ค.
How
Figure 4: Comparison with different motion quantization on Motion-X (left) and MotionLib (right). We only show MPJPE
- ๋๊ท๋ชจ ๋ชจ์
๋ฐ์ดํฐ์
๊ตฌ์ถ: Motion-X, HumanML3D ๊ธฐ์กด ๋ฐ์ดํฐ์
์ ์๋ก์ด ์์ง ๋ฐ์ดํฐ(93%)๋ฅผ ์ถ๊ฐํ์ฌ MotionLib ๊ตฌ์ฑ
- ๊ณ์ธต์ ํ
์คํธ ์ฃผ์: ๋จ์ ํ
์คํธ ์ค๋ช
๋์ ์์ธํ ๊ณ์ธต์ ํ
์คํธ ์ค๋ช
(์์ฒด, ํ์ฒด ๋ฑ) ์ถ๊ฐ๋ก ํํ ๋ฅ๋ ฅ ๊ฐํ
- ๋ชจ์
์ธ์ฝ๋ฉ ๊ฐ์ : ๊ธฐ์กด H3D-format ํน์ฑ์ ์ ๋ณด ์์ค ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ ํจ์จ์ ์ธ ์์ค์ด ์๋ ํน์ฑ ์ ํ
- 2D-LFQ tokenizer ์ ์: ๋ชจ์
์ํ์ค๋ฅผ 1D ์๋ฒ ๋ฉ ๋์ 2D ์ด๋ฏธ์ง(TรDร1)๋ก ์ฌ๊ตฌ์ฑํ์ฌ ์ธ์ฝ๋ ์ฉ๋ ํ๋
- Lookup-free ์์ํ: Mentzer et al. (2023)์ finite scalar quantization์ ์๊ฐ์ ๋ฐ์ ์ฝ๋๋ถ ๋ถ๊ดด๋ฅผ ๋ฐฉ์งํ๋ฉด์ ๋๊ท๋ชจ ๋ชจ์
์ดํ ํ์ต ๊ฐ๋ฅํ๊ฒ ํจ
- ๋ชจ๋ธ ์ค์ผ์ผ๋ง ์คํ: 0.36B์์ 13B๊น์ง ๋ค์ํ ํฌ๊ธฐ์ ๋ชจ๋ธ๋ก ์ค์ผ์ผ๋ง ๋ฒ์น์ ์ค์ฆ์ ์ผ๋ก ๊ฒ์ฆ
Originality
- ์ฒซ ๋ฒ์งธ ๋ฐฑ๋ง ๊ท๋ชจ ๋ชจ์
์์ฑ ๋ฐ์ดํฐ์
์ธ MotionLib ๊ตฌ์ถ์ผ๋ก ImageNet ์์ค์ ์๊ฐ ๋ฒค์น๋งํฌ์ ๋น๊ต ๊ฐ๋ฅํ ๊ท๋ชจ ๋ฌ์ฑ
- 2D-LFQ๋ผ๋ lookup-free ๋ชจ์
tokenizer ์ ์์ผ๋ก ๊ธฐ์กด VQ ๋ฐฉ์์ ์ ๋ณด ์์ค๊ณผ ์ฝ๋๋ถ ํฌ๊ธฐ ์ ํ ๋ฌธ์ ๋ฅผ ํ์ ์ ์ผ๋ก ํด๊ฒฐ
- ๋ชจ์
์์ฑ ๋ถ์ผ์์ ์ฒ์์ผ๋ก ๋ฐ์ดํฐ ๋ฐ ๋ชจ๋ธ ํฌ๊ธฐ ํ์ฅ์ ํจ๊ณผ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๊ท๋ช
ํ๊ณ ์ค์ผ์ผ๋ง ๋ฒ์น ์ ์
- ๊ณ์ธต์ ์ธ๋ถ ํ
์คํธ ์ฃผ์์ ํตํด ๊ธฐ์กด์ ๋จ์ ํ
์คํธ ์ค๋ช
๋ณด๋ค ํจ์ฌ ํ๋ถํ ์๋ฏธ ์ ๋ณด ์ ๊ณต
Limitation & Further Study
- ๋ฐ์ดํฐ์
ํ์ง ๊ฒ์ฆ: MotionLib์ ๊ตฌ์ฑ ์ค 93%๊ฐ ์๋ก ์์ง๋ ๋ฐ์ดํฐ์ธ๋ฐ, ์ด๋ค์ ์ผ๊ด๋ ํ์ง ๊ด๋ฆฌ ๋ฐ ๊ฒ์ฆ ๋ฐฉ๋ฒ์ ๋ํ ์์ธ ์ค๋ช
์ด ๋ถ์กฑํ๋ค.
- ๋ชจ๋ธ ํฌ๊ธฐ ์ต์ ์ : 13B๊น์ง์ ์คํ๋ง ์ํ๋์์ผ๋ฉฐ, ๋ ํฐ ๊ท๋ชจ ๋ชจ๋ธ์์์ ์ฑ๋ฅ ์๋ ด ํน์ฑ์ด๋ ์ต์ ์ ์กด์ฌ ์ฌ๋ถ๋ ๋ฏธํ์ธ์ด๋ค.
- ํน์ ํ๋ ๋ฒ์ฃผ ์ฑ๋ฅ: ๋ฏธ์ง์ ํ๋์ ๋ํ ์ผ๋ฐํ๋ ๋ณด์ฌ์ฃผ์์ผ๋, ํน์ ๋์ ์ ์ธ ๋ชจ์
(๋ฏธ์ธํ ์๊ฐ๋ฝ ์์ง์, ๋ณตํฉ ์ํธ์์ฉ ๋ฑ)์ ๋ํ ์ฑ๋ฅ ํ๊ณ๋ ๋ช
ํํ์ง ์๋ค.
- ์ค์๊ฐ ์์ฑ ํ๊ฐ: ์ ๋๋ฉ์ด์
๋ฑ ์ค์ ์์ฉ์์์ ์ค์๊ฐ ์์ฑ ์ฑ๋ฅ๊ณผ ์ง์ฐ ์๊ฐ์ ๋ํ ํ๊ฐ๊ฐ ์ ์๋์ง ์์๋ค.
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: ๋ ํฐ ์ค์ผ์ผ์ ๋ชจ๋ธ ํ๋ จ, ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ(์์ฑ, ์ด๋ฏธ์ง ๋ฑ)์์ ํตํฉ, ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์ ์ฝ ์กฐ๊ฑด ํตํฉ ๋ฑ์ด ํ๊ตฌ๋ ํ์๊ฐ ์๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ๋ชจ์
์์ฑ ๋ถ์ผ์์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๋ชจ๋ธ ํ์ฅ์ ์ค์์ฑ์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ์
์ฆํ๋ฉฐ, MotionLib์ 2D-LFQ ๊ธฐ์ ์ ํตํด ์ค์ง์ ์ธ ๊ธฐ์ฌ๋ฅผ ์ ๊ณตํ๋ค. ๋ชจ์
์์ฑ ๋ชจ๋ธ ๊ฐ๋ฐ์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํ๊ณ ํฅํ ์ฐ๊ตฌ์ ๊ฒฌ๊ณ ํ ๊ธฐ์ด๋ฅผ ๋ง๋ จํ ์ค์ํ ์ฐ๊ตฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์