Ego-Vision World Model for Humanoid Contact Planning
์ ์: Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath | ๋ ์ง: 2026-03-08 | DOI: 10.48550/arXiv.2510.11682 📄 PDF
Essence
Fig. 2: World Model Training Pipeline. The pipeline begins with the offline data collection process shown in (a), where
ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ์ ์ด์ ํ์ฉํ๋ ์ง๋ฅํ ๊ณํ์ ์๋ฆฝํ๊ธฐ ์ํด ํ์ต๋ world model์ sampling-based MPC์ ๊ฒฐํฉํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์คํ๋ผ์ธ ๋ฐ์ดํฐ์
์ผ๋ก๋ถํฐ ์์ถ๋ latent space์์ ๋ฏธ๋ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋ค.
Motivation
- Known: on-policy RL์ ์๊ฐ ์
๋ ฅ์ ํฌํจํ ๋ ์ํ ๋นํจ์จ์ฑ์ด ๋๊ณ ๋ค์ค ์์
ํ์ต์ ์ ํ์ ์ด๋ฉฐ, ์ ํต์ ์ต์ ํ ๊ธฐ๋ฐ ๊ณํ์๋ ์ ์ด์ ๋ณต์ก์ฑ์ผ๋ก ์ด๋ ค์์ ๊ฒช๋๋ค.
- Gap: ์ ์ด์ด ํ๋ถํ ๋์ญํ์์ ์ํ ํจ์จ์ฑ์ ์ ์งํ๋ฉด์๋ ๋ค์ค ์์
์ ์์ฑ์ ๊ฐ์ถ ์๊ฐ ๊ธฐ๋ฐ ๊ณํ ๋ฐฉ๋ฒ์ ๋ถ์ฌ, ํนํ ๋ถ๋ถ์ ์ด๊ณ ๋
ธ์ด์ฆ๊ฐ ์๋ ์ผ์ ๋ฐ์ดํฐ๋ก๋ถํฐ ๊ด์ฐฐ ๋ถ๊ฐ๋ฅํ ์ ์ด ์ํ๋ฅผ ์์ธกํ๋ ์ผ๋ฐํ ๋ฌธ์ .
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ๋น๊ตฌ์กฐํ๋ ํ๊ฒฝ์์ ์์จ์ฑ์ ๋ฌ์ฑํ๋ ค๋ฉด ๋ฒฝ์ ๊ธฐ๋๊ธฐ, ๋ฌผ์ฒด ์ฐจ๋จํ๊ธฐ ๋ฑ ์๋์ ์ธ ์ ์ด ํ์ฉ์ด ํ์์ ์ด๋ฉฐ, ์ด๋ฅผ ์ํด์๋ ์ํ ํจ์จ์ฑ๊ณผ ์ค์๊ฐ ์คํ ๊ฐ๋ฅ์ฑ์ด ๋์์ ์๊ตฌ๋๋ค.
- Approach: ์คํ๋ผ์ธ ๋ฐ์ดํฐ์
์ผ๋ก world model๊ณผ surrogate value function์ ๋์์ ํ์ตํ ํ, value-guided sampling MPC๋ฅผ ํตํด latent space์์ action sequence๋ฅผ ํ์ํ๊ณ Cross-Entropy Method๋ก ์ต์ ํํ๋ค.
Achievement
Fig. 4: Real-World experiments validating the proposed framework. (a) A demonstration of sequential task execution and g
- ํ์ฅ ๊ฐ๋ฅํ ์๊ฐ world model: demonstration-free ์คํ๋ผ์ธ ๋ฐ์ดํฐ์
๋ง์ผ๋ก ๋ค์ํ ์ ์ด ์์
์ ๋์ญํ์ ํฌ๊ด์ ์ผ๋ก ํ์ต
- ๊ฐ ๊ธฐ๋ฐ ๊ณํ ํ๋ ์์ํฌ: surrogate value function์ ํตํ dense guidance๋ก sparse contact reward ๋ฌธ์ ํด๊ฒฐ
- ์ค์ ๋ก๋ด ๋ฐฐํฌ: ๊ณ ์ ๊ฐ๊ฐ๊ณผ ego-centric depth image๋ง์ผ๋ก ๋ฒฝ ์ง์ง, ๋ฌผ์ฒด ์ฐจ๋จ, ์์น ํต๊ณผ ๋ฑ ๋ค์ํ ์ ์ด ํํผ ๊ธฐ์ ์คํ
- ์ํ ํจ์จ์ฑ ๋ฐ ๋ค์ค ์์
๋ฅ๋ ฅ: ๋จ์ผ model๋ก ์ฌ๋ฌ ์์
์ ์ํํ๋ฉด์ on-policy RL ๋๋น ํฅ์๋ ์ํ ํจ์จ์ฑ ๋ฌ์ฑ
How
Fig. 2: World Model Training Pipeline. The pipeline begins with the offline data collection process shown in (a), where
- ์ ์์ค controller๋ high-level command [v, p_ee, h_body]๋ฅผ trackingํ์ฌ proprioceptive ํผ๋๋ฐฑ๋ง์ผ๋ก ๋ชจํฐ ์ ์ด ์ํ
- ์คํ๋ผ์ธ dataset D๋ ์๋ฎฌ๋ ์ด์
์์ low-level policy์ ๋ฌด์์ high-level action์ ์ ์ฉํ์ฌ ์์ง๋๋ฉฐ, ์ ํ ์ฐจ๋ถ์ผ๋ก jittery ํ๋ ์ ๊ฑฐ
- World model์ observation encoder๋ก depth์ proprioception์ latent z_t๋ก ๋ณํํ๊ณ , recurrent network๊ฐ ๋์ญํ์ ์
๋ฐ์ดํธํ๋ฉฐ, ๋์์ ๊ด์ฐฐ latent แบ_t, ์ข
๋ฃ ํ๋ฅ dฬ_t, surrogate action-value Qฬ_t ์์ธก
- Value-guided MPC๋ M=1024๊ฐ์ ํ๋ณด action sequence๋ฅผ N=4 steps ๊ณํ ์ํ์ ์์ ์ํ๋งํ๊ณ , world model์ ์์ธก๊ฐ๋ค๋ก ๊ฐ ๊ถค์ ์ ํ๊ฐํ ํ CEM์ผ๋ก ์ต์ ํ
- ์ข
๋ฃ ํ๋ฅ ์ด 0.9๋ฅผ ์ด๊ณผํ๋ฉด ํด๋น ๊ถค์ ์ ์ดํ ๊ฐ๋ค์ 0์ผ๋ก ์ค์ ํ์ฌ ๋ก๋ด ์คํจ(๋์) ์์ธก
Originality
- demonstration-free ์คํ๋ผ์ธ ํ์ต: ๊ฐ๋น์ผ demonstration ์์ด ๋ฌด์์ action์ผ๋ก ์์งํ ์คํ๋ผ์ธ ๋ฐ์ดํฐ๋ก world model ํ๋ จ
- latent space planning with value guidance: ์์ ํฝ์
์์ธก์ด ์๋ ์์ถ๋ latent space์์ planningํ๊ณ surrogate value function์ผ๋ก dense guidance ์ ๊ณตํ๋ ๊ฒฐํฉ
- end-to-end ์ ์ด ํํผ ๊ณํ: ๊ด์ฐฐ ๋ถ๊ฐ๋ฅํ ์ ์ด ์ํ๋ฅผ ๋ถ๋ถ ๊ด์ฐฐ ์ผ์ ๋ฐ์ดํฐ๋ก๋ถํฐ ์๋ฌต์ ์ผ๋ก ํ์ตํ์ฌ ์์ธก
- ์ค์ ํด๋จธ๋
ธ์ด๋์์ ๋ค์ค ์ ์ด ์์
: ๋จ์ผ model๋ก ์๋ก ๋ค๋ฅธ ์ ์ด ์์(๋ฒฝ, ๋ฌผ์ฒด, ์์น)์ ๋ชจ๋ ์ฒ๋ฆฌ
Limitation & Further Study
- ๋จ๊ธฐ ๊ณํ ์ํ์ : 4 steps์ ์ ํ๋ ๊ณํ ์ํ์ ์ ์ฅ๊ธฐ ๋์์ด๋ ์์ฐจ์ ์ ์ด์ด ํ์ํ ๋ณต์กํ ์์
์ ํ์ฅ ์ด๋ ค์
- ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฐญ: ์คํ๋ผ์ธ ๋ฐ์ดํฐ๊ฐ ์๋ฎฌ๋ ์ด์
์์ ์์ง๋๋ฏ๋ก ํ์ค ์ธ๊ณ์ ์ ์ด ์ญํ, ๋ง์ฐฐ, ์ผ์ ๋
ธ์ด์ฆ์์ ๋ถ์ผ์น ๊ฐ๋ฅ์ฑ
- surrogate value function์ ์ผ๋ฐํ: ํ์ต ๋ฐ์ดํฐ์ ํฌํจ๋์ง ์์ ์๋ก์ด ๊ฐ์ฒด๋ ํ๊ฒฝ์์ value ์์ธก์ ์ ๋ขฐ์ฑ ๋ฏธ๊ฒ์ฆ
- ๊ณ์ฐ ๋น์ฉ ๋ถ์ ๋ถ์ฌ: M=1024 ์ํ๋ก N=4 steps planning์ ์ค์ ๊ณ์ฐ ์๊ฐ, ๋ก๋ด ๋์ญํญ ์๊ตฌ์ฌํญ ์์ธ ๋ถ์ ํ์
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ ๊ธด ๊ณํ ์ํ์ ์ ์ํ hierarchical planning, (2) ์๋ฎฌ-ํ์ค ์ ์ด๋ฅผ ์ํ domain randomization ๋๋ fine-tuning, (3) ์๋ก์ด ์์
์ ๋ํ ์ ์์ value function ์
๋ฐ์ดํธ, (4) ํ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ์ผ๋ฐํ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ํด๋จธ๋
ธ์ด๋์ ์ ์ด ํ์ฉ ๊ณํ์ ์ํด world model๊ณผ value-guided MPC๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ์ํ ํจ์จ์ฑ๊ณผ ๋ค์ค ์์
๋ฅ๋ ฅ์ ๋์์ ๋ฌ์ฑํ ์ฐ์ํ ์ฐ๊ตฌ๋ก, ์ค์ ๋ก๋ด ๋ฐฐํฌ๋ฅผ ํตํด ์ค์ฉ์ฑ์ ์
์ฆํ์ผ๋ ๊ณํ ์ํ์ ์ ์ฝ๊ณผ ์๋ฎฌ-ํ์ค ๊ฐญ์ ๋ํ ์ถ๊ฐ ๋ถ์์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์