Learning Humanoid Navigation from Human Data
์ ์: Weizhuo Wang, Yanjie Ze, C. Karen Liu, Monroe Kennedy | ๋ ์ง: 2026-04-01 | URL: https://arxiv.org/abs/2604.00416 📄 PDF
Essence
Fig. 2. Overview of the proposed method: A rolling buffer of 32 segmented
๋ณธ ๋
ผ๋ฌธ์ ์ธ๊ฐ์ ๋ณดํ ๋ฐ์ดํฐ 5์๊ฐ๋ง์ ํ์ฉํ์ฌ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ๋ฏธ์ง์ ํ๊ฒฝ์์ ์์จ์ ์ผ๋ก ๋ด๋น๊ฒ์ด์
ํ ์ ์๋ EgoNav ์์คํ
์ ์ ์ํ๋ค. ๋ก๋ด ๋ฐ์ดํฐ ์์ด ์์ ์ธ๊ฐ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ ๋ชจ๋ธ์ Unitree G1 ํด๋จธ๋
ธ์ด๋์ ์ ๋ก์ท ๋ฐฐํฌํ์ฌ ์ค์ ํ๊ฒฝ์์์ ํจ๊ณผ๋ฅผ ์
์ฆํ๋ค.
Motivation
- Known: ๊ธฐ์กด ๋ก๋ด ๋ด๋น๊ฒ์ด์
์ฐ๊ตฌ๋ ๋ก๋ด ๋ฐ์ดํฐ ์ง์ ์์ง์ด ํ์์๊ณ , ์ธ๊ฐ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ ๊ทผ์ ๋ก๋ด ๋ฐ๋ชจ ๋ณด์ถฉ์ด ํ์ํ์ผ๋ฉฐ, ์๊ฐ ๊ธฐ๋ฐ ์์ธก์ ์ ํ๋ ์์ผ๊ฐ ๋๋ ๋จ์ผ ๊ถค์ ๋ง ์์ฑํ๋ค.
- Gap: ์ธ๊ฐ ๋ณดํ ๋ฐ์ดํฐ๋ง์ผ๋ก ๋ก๋ด ๋ด๋น๊ฒ์ด์
์ผ๋ก ์ง์ ์ ์ด๋๋ embodiment-agnostic ๋ค๋น๊ฒ์ด์
์ฌ์ (prior)์ ๋ถ์ฌ, 360ยฐ ์ฅ๋ฉด ์ปค๋ฒ๋ฆฌ์ง์ ํ๊ณ, ๋ค์ค ๋ชจ๋ฌ ๊ถค์ ๋ถํฌ ์์ฑ์ ๋ฏธํก, ์ค์๊ฐ ์ถ๋ก ์๋ ๋ฌธ์ ๋ฑ์ด ๋ฏธํด๊ฒฐ ์ํ์ด๋ค.
- Why: ์ธ๊ฐ ๋ณดํ ๋ฐ์ดํฐ๋ ์ ๋ ดํ๊ณ ํ์ฅ ๊ฐ๋ฅํ๋ฉด์ ํ๋ถํ ๋ด๋น๊ฒ์ด์
์์์ ํฌํจํ๊ณ ์์ผ๋ฉฐ, ๋ก๋ด ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ ์ ๊ฑฐํ ์ ์์ด ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ค์ฉ์ ๋ฐฐํฌ์ ์ค์ํ๋ค.
- Approach: 360ยฐ ํ๋
ธ๋ผ๋ฏน visual memory(์์, ๊น์ด, ์๋ฏธ๋ก ์ ๋ณด ์ตํฉ)์ frozen DINOv3 video features๋ก scene์ ํํํ๊ณ , ์กฐ๊ฑด๋ถ diffusion model์ด ๊ณผ๊ฑฐ ๊ถค์ ๊ณผ ์๊ฐ ๋ฌธ๋งฅ์ ์กฐ๊ฑดํ๋์ด ๋ค์ค ๋ชจ๋ฌ ๋ฏธ๋ ๊ถค์ ๋ถํฌ๋ฅผ ์์ฑํ๋ฉฐ, hybrid DDIMโDDPM ์ํ๋ง์ผ๋ก 10 ์คํ
๋ด์ ์ค์๊ฐ ์ถ๋ก ์ ๋ฌ์ฑํ๋ค.
Achievement
Fig. 1.
์คํ๋ผ์ธ ํ๊ฐ: baseline ๋๋น ์ถฉ๋ ํํผ ๋ฐ ๋ค์ค ๋ชจ๋ฌ ์ปค๋ฒ๋ฆฌ์ง ์ฐ์์ฑ ์
์ฆ ์ค์ ๋ฐฐํฌ: Unitree G1 ํด๋จธ๋
ธ์ด๋์์ ๋ฌธ์ด๋ฆผ ๋๊ธฐ, ๊ตฐ์ค ํํผ, ์ ๋ฆฌ๋ฒฝ ํํผ ๋ฑ์ ํ๋์ด ์๋ ํ์ต๋์ด ๋ฏธ์ง์ ์ค๋ดยท์ธ๋ถ ํ๊ฒฝ์์ ์ ๋ก์ท ๋ฐฐํฌ ์ฑ๊ณต ๋ชจ๋ธ ๊ณต๊ฐ: ํ์ต๋ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ์
๊ณต๊ฐ ์์
How
Fig. 2. Overview of the proposed method: A rolling buffer of 32 segmented
- 360ยฐ ํ๋
ธ๋ผ๋ฏน visual memory๋ฅผ rolling buffer์ 32 ์ธ๊ทธ๋จผํธํ๋ RGB ํ๋ ์๊ณผ ์ ์ ๋ ๊น์ด ํ๋ ์์ผ๋ก ๊ตฌ์ฑํ์ฌ ํ์ฅ๋ ์์ผ๊ฐ ํ๋ณด
- DINOv3 ViT-S16 backbone์ผ๋ก ๊น์ด ์ผ์๊ฐ ๊ฐ์งํ์ง ๋ชปํ๋ ์ ๋ฆฌ๋ฒฝ, ๋์ ์์ด์ ํธ ๋ฑ์ ์ธ๊ด ํน์ฑ ํ์ต
- Conditional diffusion model์ human walking data๋ก ํ์ตํ์ฌ ๋ณธ์ง์ ์ผ๋ก ๋ค์ค ๋ชจ๋ฌ ๊ถค์ ๋ถํฌ ์์ฑ
- Hybrid DDIMโDDPM ์ํ๋ง ์คํด์ผ๋ก ์ดํฐ๋ฌํฐ๋ธ denoising์ latency ๊ทน๋ณต
- Receding-horizon controller๋ก ์์ธก ๋ถํฌ์์ ๊ฒฝ๋ก ์ ํ, latency ๋ณด์ ๋ฐ ๋ชจ๋ ์ผ๊ด์ฑ ์ ์ง
Originality
- Embodiment-agnostic navigation prior ๊ฐ๋
์ผ๋ก ์ธ๊ฐ-๋ก๋ด ์ ์ด ๊ฐ๊ทน ํด์
- 360ยฐ ํ๋
ธ๋ผ๋ฏน ์๊ฐ ํํ์ ์๋ฏธ๋ก ์ ๋ณด์ frozen foundation model features ๊ฒฐํฉํ ํ์ ์ scene encoding
- Diffusion model ๊ธฐ๋ฐ ๋ค์ค ๋ชจ๋ฌ ๊ถค์ ์์ธก์ ์ค์๊ฐ ๊ตฌํ (hybrid DDIMโDDPM)
- ์์ ์ธ๊ฐ ๋ฐ์ดํฐ๋ง์ผ๋ก ๋ก๋ด ๋ฐฐํฌ ๋ฌ์ฑํ ์ต์ด ์ฌ๋ก
Limitation & Further Study
๊ธฐ์ ์ ํ๊ณ: 5์๊ฐ์ ์ ํ๋ ์ธ๊ฐ ๋ฐ์ดํฐ๋ก ํ์ต๋์ด ๊ทน๋๋ก ๋ณต์กํ ํ๊ฒฝ์ ์ผ๋ฐํ ์ฑ๋ฅ ๋ฏธ๊ฒ์ฆ, hybrid ์ํ๋ง์ 10 ์คํ
์ด ์ฌ์ ํ ์ค์๊ฐ ์๊ตฌ์ฌํญ์ ์์ ํ ์ถฉ์กฑํ์ง ๋ชปํ ๊ฐ๋ฅ์ฑ, visual memory์ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ ๋ฏธ๋ถ์ ํ์ ์ฐ๊ตฌ: ๋ ๋๊ท๋ชจ ์ธ๊ฐ ๋ฐ์ดํฐ ํ๋ณด ์ ์ฑ๋ฅ ํฅ์ ๊ฒ์ฆ, ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ์ ์ด ๊ฐ๋ฅ์ฑ ํ์ธ, ๊ทนํ ๋ ์จ๋ ๋งค์ฐ ํผ์กํ ํ๊ฒฝ์์์ ๊ฒฌ๊ณ ์ฑ ํ๊ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: EgoNav๋ ์ธ๊ฐ ๋ณดํ ๋ฐ์ดํฐ๋ง์ผ๋ก ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ๋ด๋น๊ฒ์ด์
์ ๊ฐ๋ฅํ๊ฒ ํ๋ ํ์ ์ ์ ๊ทผ์ ์ ์ํ๋ฉฐ, diffusion model ๊ธฐ๋ฐ ๋ค์ค ๋ชจ๋ฌ ๊ถค์ ์์ฑ๊ณผ ์ค์๊ฐ ์ถ๋ก ์ ๊ฒฐํฉ, ์ค์ ๋ฏธ์ง ํ๊ฒฝ์์์ ์ ๋ก์ท ๋ฐฐํฌ ์ฑ๊ณต์ ๋ก๋ด ๋ด๋น๊ฒ์ด์
๋ถ์ผ์ ์๋นํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ๋ค๋ง ํ์ต ๋ฐ์ดํฐ ๊ท๋ชจ์ ๊ทนํ ํ๊ฒฝ ๊ฒฌ๊ณ ์ฑ์ ๊ฒ์ฆ์ด ์ถ๊ฐ๋๋ฉด ๋์ฑ ๊ฐ๋ ฅํ ๋
ผ๋ฌธ์ด ๋ ์ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์