Visual Imitation Enables Contextual Humanoid Control
์ ์: Arthur Allshire, Hongsuk Choi, Junyi Zhang, David McAllister, Anthony Zhang, Chung Min Kim, Trevor Darrell, Pieter Abbeel, Jitendra Malik, Angjoo Kanazawa | ๋ ์ง: 2025-05-06 | URL: https://arxiv.org/abs/2505.03729 📄 PDF
Essence
Figure 2: VideoMimic Real-to-Sim. A casually captured phone video provides the only input. We first
VIDEOMIMIC๋ ๋จ์ํ ํด๋ํฐ ์์์์ ์ธ๊ฐ-ํ๊ฒฝ 4D ๊ธฐํํ์ ๊ณต๋ ์ฌ๊ตฌ์ฑํ๊ณ , ์ด๋ฅผ ์๋ฎฌ๋ ์ด์
์์ RL ์ ์ฑ
์ผ๋ก ํ์ตํ ํ ์ค์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ฐฐํฌํ๋ real-to-sim-to-real ํ์ดํ๋ผ์ธ์ด๋ค.
Motivation
- Known: DeepMimic ๋ฑ์ ๋ชจ๋ฐฉ ํ์ต ๋ฐฉ์์ ๋ชจ์
์บก์ฒ ๋ฐ์ดํฐ์ ์์กดํ๊ณ , ์ต๊ทผ legged robot ์ฐ๊ตฌ๋ reward shaping ๋๋ MoCap ๋ฐ์ดํฐ๋ฅผ ํตํด ํน์ ํ๋์ ํ์ตํด์๋ค.
- Gap: ๊ธฐ์กด ์๊ฐ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ์ธ๊ฐ๋ง ๋๋ ์ฅ๋ฉด๋ง ๋
๋ฆฝ์ ์ผ๋ก ์ฌ๊ตฌ์ฑํ๋ฉฐ, ํ๊ฒฝ-์ธ์ ์ ์ ์ ์ด(contextual whole-body control)๋ฅผ ์ํ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด์ฑ ์๋ ์ฐธ์กฐ ๋์์ ์ ๊ณตํ์ง ๋ชปํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ๊ณ๋จ ์ค๋ฅด๊ธฐ, ์์์ ์๊ธฐ ๊ฐ์ ๋ค์ํ ํ๊ฒฝ ์ ์ ํ๋์ ๋จ์ผ ์ ์ฑ
์ผ๋ก ์ํํ ์ ์๋ค๋ฉด, ๋ก๋ด ํ์ต์ ํ์ฅ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: ๋ชจ๋
ธํ๋ฌ RGB ์์์์ VIMO, ViTPose, BSTRO, MegaSaM/MonST3R ๋ฑ ์ฌ์ ํ์ต ๋ชจ๋ธ๋ค๋ก ์ธ๊ฐ ์์ธ์ ์ฅ๋ฉด ํฌ์ธํธํด๋ผ์ฐ๋๋ฅผ ์ถ์ถํ ํ, ๋ฉํธ๋ฆญ ์ค์ผ์ผ๊ณผ joint ์ ๋ ฌ์ ์ํด ์ธ๊ฐ ๋์ด prior๋ฅผ ํ์ฉํ์ฌ ๊ณต๋ ์ต์ ํํ๊ณ , ์ต์ข
์ ์ผ๋ก retarget๋ ๋ชจ์
๊ณผ ๋ฉ์๋ก ์ ์ฑ
์ ํ์ตํ๋ค.
Achievement
Figure 5: The policy performing various skills on the real robot: traversing complex terrain, standing, and
- ์ค์ ๋ก๋ด ๋ฐฐํฌ: Unitree G1 ํด๋จธ๋
ธ์ด๋์์ ๊ณ๋จ ๋ฑํ๊ฐ, ์์/๋ฒค์น ์๊ธฐ/์ผ์ด๋๊ธฐ ๋ฑ robustํ๊ณ ๋ฐ๋ณต ๊ฐ๋ฅํ contextual control ๋ฌ์ฑ
- ๋จ์ผ ํตํฉ ์ ์ฑ
: ํ๊ฒฝ(height-map)๊ณผ root direction์ผ๋ก ์กฐ๊ฑดํ๋ ๋จ์ผ policy๋ก ๋ช
์์ task labeling ์์ด ํ๋ ์ ํ ๋ฐ ์คํ
- Scalable ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ: 123๊ฐ ๋ชจ๋
ธํ๋ฌ RGB ์์ ๋ฐ์ดํฐ์
์ผ๋ก ํ์ตํ์ฌ MoCap ๋ฐ pre-scanned scene ๋ถํ์
- Unseen environment ์ผ๋ฐํ: ํ์ตํ์ง ์์ ํ๊ฒฝ์์๋ ๋์ด๋งต ์ ๋ณด๋ง์ผ๋ก ์ ์ ํ ํ๋ ์์ฑ
How
Figure 2: VideoMimic Real-to-Sim. A casually captured phone video provides the only input. We first
- ์ ์ฒ๋ฆฌ: Grounded SAM2๋ก ์ธ๊ฐ detection/association, VIMO๋ก SMPL ํ๋ผ๋ฏธํฐ ์ถ์ถ, ViTPose๋ก 2D keypoint ๊ฒ์ถ, BSTRO๋ก ๋ฐ contact ํ๊ท, MegaSaM/MonST3R๋ก ์ฅ๋ฉด ํฌ์ธํธํด๋ผ์ฐ๋ ํ๋
- Joint ์ต์ ํ: ์ธ๊ฐ์ global translation/orientation, local pose, ๊ทธ๋ฆฌ๊ณ ์ฅ๋ฉด ์ค์ผ์ผ ฮฑ๋ฅผ ๋์์ ์ต์ ํํ๋ฉฐ, SMPL ์ธ๊ฐ ๋์ด prior๋ฅผ ๋ฉํธ๋ฆญ ์ฐธ์กฐ๋ก ํ์ฉ
- Retargeting: ์ต์ ํ๋ ์ธ๊ฐ ๊ถค์ ์ humanoid ๋ก๋ด์ผ๋ก kinematic retargetingํ๋, joint limits, contact, collision ์ ์ฝ ์กฐ๊ฑด ์ค์
- RL ์ ์ฑ
ํ์ต: Mesh์ retarget ๋ฐ์ดํฐ๋ก goal-conditioned DeepMimic ์คํ์ผ RL ์ํ, mass/friction/latency/sensor noise randomization์ผ๋ก robustness ํ๋ณด
- Policy ์ฆ๋ฅ: DAgger๋ฅผ ํตํด ์ถ์ (tracking) policy๋ฅผ proprioception, 11ร11 height-map patch, goal vector๋ง ๊ด์ฐฐํ๋ generalist controller๋ก ์ฆ๋ฅํ๊ณ PPO fine-tuning ์ํ
Originality
- ๊ณต๋ 4D ์ฌ๊ตฌ์ฑ์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ํ์ฉ: ์ธ๊ฐ-์ฅ๋ฉด์ ๋ฉํธ๋ฆญํ๊ฒ ๊ณต๋ ์ฌ๊ตฌ์ฑํ๊ณ ์ด๋ฅผ ์ง์ physics simulator์ ์ ์ฉ ๊ฐ๋ฅํ ํํ๋ก ๋ณํํ ์ ์ด ์๋ก์
- End-to-end real-to-sim-to-real ํ์ดํ๋ผ์ธ: ๋จ์ ๋ชจ๋
ธํ๋ฌ ์์์์ ๋ก๋ด ์ ์ฑ
๊น์ง ์ผ๊ด๋ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ์ผ๋ก, ๊ธฐ์กด isolated reconstruction + reward engineering ์ ๊ทผ๊ณผ ๊ตฌ๋ณ
- Context-aware generalist policy: ๋ช
์์ task ๋ถ๋ฅ ์์ด height-map๊ณผ root command๋ง์ผ๋ก ๋ค์ํ ํ๋์ ์๋ ์ ํํ๋ unified policy ์ค๊ณ
- ์ค์ ๋ก๋ด ๊ฒ์ฆ: Unitree G1์์ ์ค์ ๋ฐฐํฌ ์ฑ๊ณต์ผ๋ก sim-to-real transfer์ ์ค์ง์ ๊ฐ๋ฅ์ฑ ์
์ฆ
Limitation & Further Study
- ์์ ํ์ง ์์กด์ฑ: ํด๋ํฐ ์์ ๊ธฐ๋ฐ์ด๋ฏ๋ก occlusion, motion blur, low resolution ์ํฉ์์์ ์ฌ๊ตฌ์ฑ ์ ํ๋ ๋ฏธ๊ฒ์ฆ
- Embodiment gap: ์ธ๊ฐ-๋ก๋ด ์ฒดํ ์ฐจ์ด์ ์ํ dynamical mismatch ๊ฐ๋ฅ์ฑ; ํ์ฌ kinematic retargeting๋ง์ผ๋ก๋ contact dynamics๋ฅผ ์๋ฒฝํ ๋ณด์ฅํ์ง ๋ชปํจ
- ํ๊ฒฝ ๋ณต์ก๋ ์ ํ: ํ์ต๋ policy๋ height-map์ด๋ผ๋ ์ ํ๋ ํ๊ฒฝ ํํ์๋ง ์์กดํ๋ฏ๋ก, ๋ณต์กํ ์ฅ์ ๋ฌผ, ๋์ ํ๊ฒฝ ๋์ ๋ฏธํก ๊ฐ๋ฅ
- ์์ ๋ฐ์ดํฐ ๊ท๋ชจ: 123๊ฐ ์์์ผ๋ก ํ์ตํ์ฌ, ๋ ๊ด๋ฒ์ํ ํ๋ ๋ค์์ฑ(๋์ง๊ธฐ, ๋ฏธ์ธ ์กฐ์ ๋ฑ)์ ๋ค๋ฃจ๊ธฐ ์ํด์๋ ๋ฐ์ดํฐ ํ์ฅ ํ์
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ค์ค ์์ ๋๋ RGB-D ์์ ํ์ฉ์ผ๋ก ์ฌ๊ตฌ์ฑ ์ ํ๋ ํฅ์, (2) contact-aware RL ๋ชฉ์ ํจ์๋ก dynamics ์ ํํ, (3) ๋๊ท๋ชจ ์น ์์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ pre-training
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ์ผ์ ์์์ผ๋ก๋ถํฐ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ฌธ๋งฅ-์ธ์ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ์ค์ฉ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ํ์ดํ๋ผ์ธ์ ์ ์ํ๋ฉฐ, ๊ณต๋ 4D ์ฌ๊ตฌ์ฑ๊ณผ RL ๊ธฐ๋ฐ ์ ์ฑ
์ฆ๋ฅ์ ์กฐํฉ์ผ๋ก ๋์ ๋
์ฐฝ์ฑ์ ๋ณด์ธ๋ค. ์ค์ ๋ก๋ด ๋ฐฐํฌ ์ฑ๊ณต์ ์ฐ๊ตฌ์ ๊ฐ์น๋ฅผ ํฌ๊ฒ ๋์ด๋, ํ๊ฒฝ ํํ์ ์ ํ์ฑ๊ณผ ๋์ญํ ์ ํ๋ ์ธก๋ฉด์์ ๊ฐ์ ์ฌ์ง๊ฐ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์