Now You See That: Learning End-to-End Humanoid Locomotion from Raw Pixels
์ ์: Wandong Sun, Yongbo Su, Leoric Huang, Alex Zhang, Dwyane Wei, Mu San, Daniel Tian, Ellie Cao, Finn Yan, Ethan Xie, Zongwu Xie | ๋ ์ง: 2026-02-06 | URL: https://arxiv.org/abs/2602.06382 📄 PDF
Essence
Fig. 1: Overview. Our end-to-end vision-based humanoid locomotion policy enables robust traversal across diverse challen
Raw ๊น์ด ์ด๋ฏธ์ง๋ก๋ถํฐ end-to-end ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ๋ณดํ์ ํ์ตํ๊ธฐ ์ํด, ํ์ค์ ์ธ depth ์ผ์ ์๋ฎฌ๋ ์ด์
๊ณผ vision-aware behavior distillation, ๊ทธ๋ฆฌ๊ณ terrain-specific multi-critic/multi-discriminator ํ์ต์ ๊ฒฐํฉํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Motivation
- Known: LiDAR ๊ธฐ๋ฐ elevation map ๋ฐฉ์์ด quadruped ๋ก๋ด์ ์ฑ๊ณตํ์ผ๋, ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋์ ๋ถ์์ ์ฑ์ผ๋ก ์ธํ odometry drift ๋ฌธ์ ์ perception noise๋ก ์ธํ fine-grained ์ ์ด ์ด๋ ค์์ด ์กด์ฌํ๋ค.
- Gap: Vision ๊ธฐ๋ฐ ํด๋จธ๋
ธ์ด๋ ๋ณดํ ์ sim-to-real gap์์ ๋น๋กฏ๋ perception noise๊ฐ ์ผํฐ๋ฏธํฐ ๋จ์ ์ ํ๋ ์๊ตฌ ์์
์์ ์ฑ๋ฅ์ ์ฌ๊ฐํ๊ฒ ์ ํ์ํค๊ณ , ๋ค์ํ terrain์์ ๋จ์ผ ํตํฉ ์ ์ฑ
ํ์ต์ด ์์ถฉํ๋ ํ์ต ๋ชฉํ๋ก ์ธํด ์ด๋ ต๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋น์ ๊ธฐ๋ฐ ๋ณดํ์ embodied intelligence์ ์ค์ํ ๋ฒค์น๋งํฌ์ด๋ฉฐ, ๊ทนํ ์ฅ์ ๋ฌผ(๋์ ํ๋ซํผ, ๋์ ๊ฐ๊ฒฉ)๋ถํฐ fine-grained ์์
(๊ณ๋จ ์ค๋ฅด๋ด๋ฆฌ๊ธฐ)๊น์ง ๋ค์ํ ํ๊ฒฝ์์ robustํ๊ฒ ์๋ํ๋ ์ ์ฑ
์ด ํ์ํ๋ค.
- Approach: ๋ ๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ์ ์ ์ํ๋ค: (1) height scan์ผ๋ก multi-critic/multi-discriminator RL์ ์ฌ์ฉํด privileged policy ํ์ต, (2) ํ์ค์ ์ธ depth ์ผ์ ์๋ฎฌ๋ ์ด์
๊ณผ vision-aware behavior distillation์ ํตํด depth ์ด๋ฏธ์ง ๊ธฐ๋ฐ deployment policy๋ก distill.
Achievement
Fig. 1: Overview. Our end-to-end vision-based humanoid locomotion policy enables robust traversal across diverse challen
- ํ์ค์ Depth ์ผ์ ์๋ฎฌ๋ ์ด์
: Stereo matching artifacts, depth-dependent noise, optical distortions, calibration uncertainties๋ฅผ ์ฌํํ๋ 8๋จ๊ณ augmentation ํ์ดํ๋ผ์ธ ๊ฐ๋ฐ
- Vision-aware Behavior Distillation: Latent space alignment๊ณผ noise-invariant auxiliary tasks๋ฅผ ๊ฒฐํฉํ์ฌ privileged height map์์ noisy depth ๊ด์ฐฐ๋ก์ ํจ๊ณผ์ ์ธ ์ง์ ์ ์ด ๋ฌ์ฑ
- Multi-Critic/Multi-Discriminator ํ์ต: ๊ฐ terrain ํ์
์ ๊ณ ์ ํ dynamics์ motion priors๋ฅผ ํฌ์ฐฉํ๋ dedicated networks๋ก ํตํฉ ์ ์ฑ
๋ด์์ terrain-specific ์ ์ ๊ตฌํ
- Cross-Platform ๊ฒ์ฆ: ์๋ก ๋ค๋ฅธ stereo depth ์นด๋ฉ๋ผ๊ฐ ์ฅ์ฐฉ๋ ๋ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์์ ์ค์ ๋ฐฐํฌ ๊ฒ์ฆ, ๊ทนํ terrain๊ณผ fine-grained ์์
๋ชจ๋ ์ฑ๊ณต์ ์ผ๋ก ์ํ
How
Fig. 4: Method Overview. Our framework consists of two stages: (1)
- Stereo depth fusion์ ์๋ฎฌ๋ ์ด์
ํ์ฌ occlusion๊ณผ textureless ์์ญ์ hole pattern ์ฌํ
- Depth-dependent noise, optical distortion (radial/tangential), calibration uncertainty๋ฅผ ์์ฐจ์ ์ผ๋ก ์ ์ฉํ๋ augmentation ํ์ดํ๋ผ์ธ ๊ตฌ์ฑ
- Terrain-specific reward shaping์ผ๋ก diverse terrain์ ๋ํ ์์ถฉ ๋ชฉํ ๋ฌธ์ ํด๊ฒฐ
- Multi-critic ๊ตฌ์กฐ๋ก ๊ฐ terrain๋ณ value function์ ํ์ตํ๊ณ , multi-discriminator๋ก terrain-specific motion priors ํฌ์ฐฉ
- Latent space alignment๊ณผ DrAC ์คํ์ผ์ consistency regularization์ ํตํฉํ behavior distillation์ผ๋ก noise ๋ถ๋ณ์ฑ ํ๋ณด
- 8๊ฐ ๋์ด๋ ๋ ๋ฒจ์ ํฌํจํ ๊ฐ terrain ํ์
์ ๋ํ curriculum learning ์ ์ฉ
Originality
- Vision-based ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ๋ณดํ์์ ์ฒ์์ผ๋ก end-to-end depth ๊ธฐ๋ฐ ์ ๊ทผ๊ณผ ํ์ค์ ์ธ ์ผ์ ์๋ฎฌ๋ ์ด์
์ ๊ฒฐํฉ
- Stereo ์นด๋ฉ๋ผ์ ๊ตฌ์ฒด์ ์ธ artifacts (hole patterns, stereo matching errors)๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ชจ๋ธ๋งํ depth augmentation ํ์ดํ๋ผ์ธ ์ ์
- Vision-aware behavior distillation ํ๋ ์์ํฌ๋ก privileged policy๋ก๋ถํฐ noise-robustํ ์ ์ฑ
์ถ์ถ
- Multi-critic๊ณผ multi-discriminator๋ฅผ ํ์ฉํ terrain-specific ํ์ต์ผ๋ก ๋จ์ผ ํตํฉ ์ ์ฑ
์์ diverse terrain ์ง์
- Extreme parkour (๋์ ํ๋ซํผ, ๋์ ๊ฐ๊ฒฉ)์ fine-grained ์์
(์๋ฐฉํฅ ์ฅ์๊ฐ ๊ณ๋จ ํต๊ณผ)์ ๋ชจ๋ ์ฒ๋ฆฌํ๋ ์ต์ด์ ํด๋จธ๋
ธ์ด๋ ์ ์ฑ
Limitation & Further Study
- ํ์ฌ ์๋ฎฌ๋ ์ด์
์ ํน์ stereo ์นด๋ฉ๋ผ ๋ชจ๋ธ์ ๊ธฐ๋ฐํ๋ฉฐ, ๋ค๋ฅธ ์ผ์ ํ์
(ToF, structured light ๋ฑ)์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ๋ ๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ์ผ๋ก ์ธํ ํ์ต ๋ณต์ก์ฑ ์ฆ๊ฐ, end-to-end ๋จ์ผ ๋จ๊ณ ํ์ต์ ๊ฐ๋ฅ์ฑ ๋ฏธํ์
- ์คํ์ด indoor/outdoor ํ๊ฒฝ์ ๊ตญํ๋์ด ์์ผ๋ฉฐ, ๊ทน๋๋ก ๋์ ์ธ ํ๊ฒฝ(๊ฐํ ์กฐ๋ช
๋ณํ, ๋ฐ์ฌ ํ๋ฉด ๋ฑ)์์์ ์ฑ๋ฅ ๋ฏธํ๊ฐ
- Multi-critic/discriminator ๊ตฌ์กฐ์ computational overhead์ training ์๊ฐ์ ๋ํ ๋ถ์ ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ๋ก ๋ค์ํ ์ผ์ ๋ชจ๋ฌ๋ฆฌํฐ์ ๋ํ ์ผ๋ฐํ๋ simulation ํ์ดํ๋ผ์ธ ๊ฐ๋ฐ, ๋จ์ผ ๋จ๊ณ end-to-end ํ์ต ์ ๊ทผ๋ฒ ํ์, ์ค์๊ฐ ํ๊ฒฝ ์ ์ ๋ฉ์ปค๋์ฆ ์ถ๊ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ vision-based ๋ณดํ์์ sim-to-real gap๊ณผ ๋ค์ํ terrain ํตํฉ ํ์ต์ ๊ทผ๋ณธ์ ์ธ ๋ ๊ณผ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ํ์ค์ ์ธ ์ผ์ ๋ชจ๋ธ๋ง๊ณผ behavior distillation, terrain-specific ํ์ต์ ๊ฒฐํฉํ ์ฐฝ์์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ๋ ๊ฐ์ ์ค์ ๋ก๋ด ํ๋ซํผ์์ ๊ทนํ ์ฅ์ ๋ฌผ๋ถํฐ fine-grained ์์
๊น์ง ๊ด๋ฒ์ํ ์ฑ๋ฅ ๊ฒ์ฆ์ ํตํด ํ์ ์ ยท์ค๋ฌด์ ๊ฐ์น๊ฐ ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์