DreamControl: Human-Inspired Whole-Body Humanoid Control for Scene Interaction via Guided Diffusion
์ ์: Dvij Kalaria, Sudarshan S. Harithas, Pushkal Katara, Sangkyung Kwak, Sarthak Bhagat, Shankar Sastry, Srinath Sridhar, Sai Vemprala, Ashish Kapoor, Jonathan Chung-Kuan Huang | ๋ ์ง: 2025-09-30 | DOI: 10.48550/arXiv.2509.14353 📄 PDF
Essence
Fig. 2: DreamControl Overview: (A) we first generate text and spatiotemporally guided human motion trajectories using di
DreamControl์ human motion ๊ธฐ๋ฐ diffusion prior๋ฅผ RL๊ณผ ๊ฒฐํฉํ์ฌ humanoid robot์ whole-body ์กฐ์ ์์
์ ํ์ตํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค.
Motivation
- Known: Diffusion model์ ์กฐ์ ์์
์์ ์ฅ์๊ฐ์ ์ผ๊ด๋ temporal data๋ฅผ ์์ฑํ ์ ์์ผ๋ฉฐ, RL์ ์๋ฎฌ๋ ์ด์
์์ ์์ ์ ์ธ ์ ์ด ์ ์ฑ
์ ํ์ตํ ์ ์๋ค. ๊ทธ๋ฌ๋ ์ง์ RL์ ๋์ ์์ ๋์ whole-body loco-manipulation์์ ํ์ ๋ฌธ์ ๋ก ์ธํด ๋น์์ฐ์ค๋ฌ์ด ํ๋์ ์ผ๊ธฐํ๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ teleoperation data์ ์์กดํ๊ฑฐ๋ ์์ฒด/ํ์ฒด๋ฅผ ๋ถ๋ฆฌํ์ฌ ํ์ตํ๋ ์ ์ฝ์ด ์์ผ๋ฉฐ, human motion data๋ฅผ ํ์ฉํ diffusion prior๋ฅผ RL ์ ์ฑ
ํ์ต์ ์ฒด๊ณ์ ์ผ๋ก ํตํฉํ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: Humanoid robot์ด drawer ์ด๊ธฐ, ๋ฌผ๊ฑด ์ง๊ธฐ ๋ฑ ์ค์ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ์ํํ๋ ค๋ฉด balance, stability, ์ ๊ตํ manipulation์ ๋์์ ์ ์ดํด์ผ ํ๋ฉฐ, ์ด๋ sim-to-real transfer์ ์ด๋ ค์์ ์ผ๊ธฐํ๋ค.
- Approach: OmniControl diffusion model์ ์ฌ์ฉํ์ฌ text์ spatiotemporal guidance๋ก๋ถํฐ human motion trajectory๋ฅผ ์์ฑํ๊ณ , ์ด๋ฅผ robot form factor๋ก retargetํ ํ task completion๊ณผ trajectory tracking์ ๋ชจ๋ ๋ณด์ํ๋ RL ์ ์ฑ
์ ํ์ตํ๋ค.
Achievement
Fig. 1: Unitree G1 humanoid performing various skills trained via
- Human motion prior ํ์ฉ: Teleoperation data ๋์ ํ๋ถํ human motion data๋ฅผ diffusion prior๋ก ํ์ฉํ์ฌ RL์ด ๋ฐ๊ฒฌ ๋ถ๊ฐ๋ฅํ ํด๊ฒฐ์ฑ
์ ์ฐพ์ ์ ์์์ ์
์ฆ
- Whole-body manipulation ์ฑ๊ณต: Unitree G1 robot์์ drawer ์ด๊ธฐ, bimanual pick, button press ๋ฑ ๋์์ ์ํ์ฒด ์ ์ด์ object interaction์ ํฌํจํ ๋ค์ํ ์์
์ํ
- Sim-to-real transfer ๊ฐ์ : Diffusion model์ด ์์ฐ์ค๋ฌ์ด ๋์์ ์ ๋ํ์ฌ ๊ทน๋จ์ motion์ ํํผํ๊ณ , ๋นprivileged policy๋ก๋ ์ค์ ๋ก๋ด ๋ฐฐํฌ ๊ฐ๋ฅ
- Scalability: ํฐ ๊ท๋ชจ์ teleoperation data ์์ด๋ multiple tasks๋ฅผ ํ์ตํ ์ ์๋ ํ์ฅ ๊ฐ๋ฅํ ๋ฐฉ๋ฒ๋ก ์ ์
How
Fig. 2: DreamControl Overview: (A) we first generate text and spatiotemporally guided human motion trajectories using di
- Stage A: OmniControl diffusion model์ text condition ("open the drawer")๊ณผ spatiotemporal guidance (ํน์ ์๊ฐ์ ์๋ชฉ ์์น)๋ฅผ ์
๋ ฅํ์ฌ human motion trajectory ์์ฑ
- Motion retargeting: ์์ฑ๋ human trajectory๋ฅผ Unitree G1์ ํํ๋ก retarget
- Stage B: ์๋ฎฌ๋ ์ด์
์์ RL policy๋ฅผ training reward (task completion) + tracking reward (retargeted trajectory ์ถ์ )๋ก ํ์ต
- Dual policy variant: Privileged (simulation state ์ ๊ทผ) ๋ฐ non-privileged (RGB/depth image ๊ธฐ๋ฐ) ์ ์ฑ
๋ชจ๋ ๊ตฌ์ฑ ๊ฐ๋ฅ
- Stage C: Vision model์ ์ฌ์ฉํ์ฌ spatiotemporal guidance๋ฅผ ์๋ ์์ฑํ๊ณ ์ค์ ๋ก๋ด์ ๋ฐฐํฌ
Originality
- OmniControl์ spatiotemporal guidance๋ฅผ RL training์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ํตํฉํ์ฌ fine-grained control์ ์คํ
- Diffusion prior as inductive bias: ์ง์ RL์ด ์๋ ์ธ๊ฐ์ ์์ง์ ํจํด์ผ๋ก๋ถํฐ ํ์ต๋ ์ฌ์ ์ง์์ RL ํ์์ ์๋ดํ๋ ๋ฉ์ปค๋์ฆ์ผ๋ก ํ์ฉ
- Whole-body loco-manipulation์ multi-timescale ๋ฌธ์ ๋ฅผ diffusion (long-horizon planning) + RL (short-horizon stability) ์กฐํฉ์ผ๋ก ํด๊ฒฐ
- ์ค์ ๋ก๋ด ๋ฐฐํฌ๋ฅผ ์ํด reference trajectory ์์กด์ฑ์ ์ ๊ฑฐํ๋ ์ค๊ณ (vision-based spatiotemporal guidance ์๋ ์์ฑ)
Limitation & Further Study
- Diffusion prior์ ํ์ง์ด ์ต์ข
์ฑ๋ฅ์ ํฌ๊ฒ ์์กดํ๋ฉฐ, OmniControl์ ์ ์ฝ์ฌํญ (์: guidance type, text description coverage)์ด ์ ํ๋ ์ ์์
- Motion retargeting ๋จ๊ณ์์ human-to-robot ๊ฐ์ ํํํ์ ์ฐจ์ด ์ฒ๋ฆฌ ๋ฐฉ๋ฒ์ด ์์ธํ ์ค๋ช
๋์ง ์์
- ์คํ์ Unitree G1 ๋จ์ผ ๋ก๋ด์๋ง ์ํ๋์ด ๋ค๋ฅธ humanoid form factor๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- Sim-to-real gap์ ๋ถ๋ถ์ ์ผ๋ก ํด๊ฒฐ๋์ง๋ง, contact dynamics, friction ๋ณํ ๋ฑ์ ๋ํ robustness ํ๊ฐ ๋ฏธํก
- ํ์ ์ฐ๊ตฌ: ๋ค์ํ humanoid morphology์ ๋ํ ์ ์ ๋ฐฉ๋ฒ, dynamic environment์์์ task generalization, ์ฐ์์ ๋ค์ค ์์
ํ์ต (continual learning) ๋ฉ์ปค๋์ฆ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: DreamControl์ human motion diffusion prior์ RL์ ์ฅ์ ์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ humanoid robot์ whole-body manipulation์ ํ์ตํ๋ ์ฐฝ์์ ์ด๊ณ ์ค์ฉ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ฉฐ, ์ค์ ๋ก๋ด์์์ ๋ค์ํ ์์
์ํ์ผ๋ก ๊ทธ ๊ฐ์น๋ฅผ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์