Learning from Massive Human Videos for Universal Humanoid Pose Control
์ ์: Jiageng Mao, Siheng Zhao, Siqi Song, Tianheng Shi, Junjie Ye, Mingtong Zhang, Haoran Geng, Jitendra Malik, Vitor Guizilini, Yue Wang | ๋ ์ง: 2024-12-18 | URL: https://arxiv.org/abs/2412.14172 📄 PDF
Essence
Figure 2. Learning Humanoid Pose Control from Massive Videos. We mine massive human-centric video clips V from the Inter
Humanoid-X๋ ์ธํฐ๋ท์ 160,000๊ฐ ์ด์์ ์ธ๊ฐ ๋์์์ผ๋ก๋ถํฐ 20๋ฐฑ๋ง ๊ฐ์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ๋์์ ์์งํ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์ด๋ฉฐ, UH-1 ๋ชจ๋ธ์ ํตํด ํ
์คํธ ๋ช
๋ น์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ ์ด ์ ํธ๋ก ๋ณํํ๋ ๋ฒ์ฉ ์ธ์ด ์กฐ๊ฑด๋ถ ์ ์ด๋ฅผ ์คํํ๋ค.
Motivation
- Known: ๋ก๋ด ์กฐ์ ํ์ต์์ ์ธํฐ๋ท ๋ฐ์ดํฐ ํ์ฉ๊ณผ 3D ์ธ๊ฐ ๋์ ์์ฑ์ ํ๋ฐํ ์ฐ๊ตฌ๋๊ณ ์์ผ๋, ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๊ฐํํ์ต์ด๋ ์๊ฒฉ์กฐ์ข
์ ์์กดํ๋ฉฐ ์ ํ๋ ๊ธฐ์ ๋ง ์ต๋ ๊ฐ๋ฅํ๋ค.
- Gap: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ณต์กํ ์ด๋ํ ๊ตฌ์กฐ์ ๋์ ์์ ๋ ๋๋ฌธ์ ๋๊ท๋ชจ ๋น๋ก๋ด ๋น๋์ค ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ฒ์ฉ ๋์ ์ ์ด๋ฅผ ํ์ตํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ค์ธ๊ณ ๋ฐฐ์น๋ฅผ ์ํด์๋ ๋ค์ํ ์์
์ ์ํํ ์ ์๋ ํ์ฅ ๊ฐ๋ฅํ ํ์ต์ด ํ์์ ์ด๋ฉฐ, ์ธ๊ฐ ๋์์์ ํ๋ถํ ์ ๋ณด๋ฅผ ํ์ฉํ๋ฉด ๋ก๋ด์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: ์ธํฐ๋ท ๋น๋์ค๋ก๋ถํฐ 3D ์ธ๊ฐ ํฌ์ฆ๋ฅผ ์ถ์ ํ๊ณ motion retargeting์ผ๋ก ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ๋์์ผ๋ก ๋ณํํ ํ, Transformer ๊ธฐ๋ฐ UH-1 ๋ชจ๋ธ์ ํตํด ํ
์คํธ ๋ช
๋ น์ action tokens์ผ๋ก ์๋ํ๊ท ๋์ฝ๋ฉํ์ฌ ์ ์ดํ๋ค.
Achievement
Figure 1. Overview. We introduce Humanoid-X, a large-scale dataset to facilitate humanoid robot learning from massive hu
- Humanoid-X ๋ฐ์ดํฐ์
: 163,800๊ฐ ๋ชจ์
์ํ๊ณผ 20๋ฐฑ๋ง ๊ฐ์ ํด๋จธ๋
ธ์ด๋ ๋์์ผ๋ก ๊ตฌ์ฑ๋ ์ต๋ ๊ท๋ชจ์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ๋ฐ์ดํฐ์
๊ตฌ์ถ
- UH-1 ๋ชจ๋ธ: ํ
์คํธ ์
๋ ฅ์ผ๋ก๋ถํฐ ํด๋จธ๋
ธ์ด๋ ํคํฌ์ธํธ ๋๋ DoF ์์น๋ฅผ ์ง์ ์์ฑํ๋ ์ธ์ด ์กฐ๊ฑด๋ถ ๋ฒ์ฉ ์ ์ด ๋ชจ๋ธ ๊ฐ๋ฐ
- ๋์ ์ผ๋ฐํ ์ฑ๋ฅ: ์๋ฎฌ๋ ์ด์
๋ฐ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ๋๊ท๋ชจ ๋น๋์ค ํ์ต์ ์ฐ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ์ค์ฆ
- ์ ์ฐํ ์ ์ด ๋ชจ๋: ํ
์คํธ-ํคํฌ์ธํธ ๋ฐ ํ
์คํธ-์ก์
๋ ๊ฐ์ง ์ ์ด ๋ชจ๋ ์ง์์ผ๋ก ์์
์๊ตฌ์ฌํญ์ ๋ฐ๋ฅธ ์ ์ฐ์ฑ ์ ๊ณต
How
Figure 2. Learning Humanoid Pose Control from Massive Videos. We mine massive human-centric video clips V from the Inter
- ๋๊ท๋ชจ ์ธํฐ๋ท ๋น๋์ค ์์ง: Kinetics 700, Charades, YouTube ๋ฑ์์ ๋ค์ํ ๋์ ์นดํ
๊ณ ๋ฆฌ๋ฅผ ํฌํจํ ๋น๋์ค ์ถ์ถ
- ๋น๋์ค ์บก์
๋: ์๋ํ๋ ๋๊ตฌ๋ฅผ ํตํด ๊ฐ ๋น๋์ค์ ํ
์คํธ ๊ธฐ๋ฐ ๋์ ์ค๋ช
์์ฑ
- 3D ์ธ๊ฐ ํฌ์ฆ ์ถ์ : SMPL ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋น๋์ค๋ก๋ถํฐ 3D ์ธ๊ฐ ํฌ์ฆ ์ํ์ค ์ฌ๊ตฌ์ฑ
- Motion retargeting: ์ถ์ ๋ ์ธ๊ฐ ํฌ์ฆ๋ฅผ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ํคํฌ์ธํธ๋ก ๋ณํ
- ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ์ฑ
ํ์ต: Goal-based RL์ ํตํด ๋ก๋ด ํคํฌ์ธํธ๋ฅผ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ฐฐ์น ๊ฐ๋ฅํ DoF ์์น๋ก ๋งคํ
- Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ: 20๋ฐฑ๋ง ๋์์ action tokens์ผ๋ก ์ด์ฐํํ๊ณ ์๋ํ๊ท Transformer๋ก ํ
์คํธ-์ก์
๋งคํ ํ์ต
- ์ค์ธ๊ณ ๋ฐฐ์น: PD ์ปจํธ๋กค๋ฌ๋ฅผ ํตํด DoF ์์น๋ฅผ ๋ชจํฐ ํ ํฌ๋ก ๋ณํํ์ฌ ์ค์ ๋ก๋ด ์ ์ด ์คํ
Originality
- ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ์ ์ด๋ฅผ ์ํ ๋๊ท๋ชจ ์ธํฐ๋ท ๋น๋์ค ๋ฐ์ดํฐ์ ์ฒด๊ณ์ ํ์ฉ์ด ์ฒ์ ์๋๋จ
- Motion retargeting๊ณผ RL์ ๊ฒฐํฉํ 2๋จ๊ณ action ๋ณํ ํ์ดํ๋ผ์ธ์ผ๋ก ๋น๋ก๋ด ๋ฐ์ดํฐ์ ์ค๋ก๋ด ์ ์ฉ์ฑ ํ๋ณด
- ํ
์คํธ-์ก์
์์ผ๋ก ์ด๋ฃจ์ด์ง 20๋ฐฑ๋ง ๊ท๋ชจ์ ํด๋จธ๋
ธ์ด๋ ๋ฐ์ดํฐ์
๊ตฌ์ถ์ผ๋ก ๊ธฐ์กด ์ฐ๊ตฌ์ ๋ฐ์ดํฐ ์ค์ผ์ผ ๋ํญ ํ๋
- ์ธ์ด ์กฐ๊ฑด๋ถ ๋ฒ์ฉ ์ ์ด๋ฅผ ์ํ ํตํฉ ํ๋ ์์ํฌ ์ ์์ผ๋ก ์ด์ ์ ์ ํ๋ ๊ธฐ์ (๋ณดํ, ์ ํ) ํ์ต์์ ๋ฒ์ด๋จ
Limitation & Further Study
- Motion retargeting ๊ณผ์ ์์ ์ธ๊ฐ๊ณผ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๊ตฌ์กฐ์ ์ฐจ์ด๋ก ์ธํ ์ ๋ณด ์์ค ๊ฐ๋ฅ์ฑ
- ์ค์ ๋ก๋ด ํ๊ฒฝ์ ๋ฌผ๋ฆฌ์ ์ ์ฝ(ํ ํฌ ํ๊ณ, ์ ์ด ์ํธ์์ฉ)์ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํ ์ ์์
- ํ
์คํธ ์บก์
๋ ์๋ํ ๋๊ตฌ์ ์ค๋ฅ๊ฐ ํ์ต ๋ฐ์ดํฐ ํ์ง์ ๋ฏธ์น๋ ์ํฅ ๋ฏธ๋ถ์
- ๋ณต์กํ ์ ์กฐ์ ๋์์ด๋ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ด ํ์ํ ์์
์ ๋ํ ์ฑ๋ฅ ํ๊ฐ ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ: ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ์ผ์ ํผ๋๋ฐฑ์ ๋ ์ ํํ ๋ชจ๋ธ๋งํ๋ ๊ฐ์ ๋ retargeting ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ ํ์
- ํ์ ์ฐ๊ตฌ: Vision-language ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์บก์
๋ ํ์ง ํฅ์ ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ํ์ต ํ์ฅ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ์ ์ด์ ์ธํฐ๋ท ๋น๋์ค ๋น
๋ฐ์ดํฐ๋ฅผ ์ต์ด๋ก ์ฒด๊ณ์ ์ผ๋ก ์ ์ฉํ๊ณ , ๋๊ท๋ชจ ๋ฐ์ดํฐ์
๊ณผ ๋ฒ์ฉ ๋ชจ๋ธ์ ๊ตฌ์ถํจ์ผ๋ก์จ ๋ก๋ด ํ์ต์ ํ์ฅ์ฑ ๋ฌธ์ ๋ฅผ ์ค์ง์ ์ผ๋ก ํด๊ฒฐํ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ธ๊ณ ์คํ์ ํตํ ๊ฒ์ฆ์ด ์ถฉ๋ถํ๋ฉฐ ๊ธฐ์ ์ ยท์ค๋ฌด์ ๊ฐ์น๊ฐ ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์