NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance
์ ์: Wenzhe Cai, Jiaqi Peng, Yuqiang Yang, Yujian Zhang, Meng Wei, Hanqing Wang, Yilun Chen, Tai Wang, Jiangmiao Pang | ๋ ์ง: 2025-05-13 | URL: https://arxiv.org/abs/2505.08712 📄 PDF
Essence
Fig. 1: NavDP is solely trained with simulation data but can achieve zero-shot sim-to-real transfer to different types o
NavDP๋ ์๋ฎฌ๋ ์ด์
์์๋ง ํ์ตํ unified transformer ๊ธฐ๋ฐ diffusion policy๋ก, privileged information์ ํ์ฉํ trajectory generation๊ณผ critic value prediction์ ํตํด zero-shot sim-to-real transfer๋ฅผ ๋ฌ์ฑํ๋ค.
Motivation
- Known: Diffusion policy๋ ๋ก๋ด ์กฐ์ ์์
์์ multimodal distribution ํ์ต์ ํจ๊ณผ์ ์ด๋ฉฐ, end-to-end visual navigation์ cross-embodiment ์ ์์ฑ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
- Gap: ๊ธฐ์กด ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ์ค์ ๋ฐ์ดํฐ ์์ง์ ๋น์ฉ๊ณผ ๋ณต์ก์ฑ์ผ๋ก ์ธํ ์ ์ฝ์ด ์์ผ๋ฉฐ, modular ์ ๊ทผ๋ฒ์ hyperparameter ํ๋๊ณผ cascading error์ ๋ฌธ์ ๊ฐ ์๋ค.
- Why: ๋์ ์ด๊ณ ๋ณต์กํ ๊ฐ๋ฐฉ ํ๊ฒฝ์์์ ์์จ๋ก๋ด ๋ค๋น๊ฒ์ด์
์ ๊ตฌ์ฒดํ๋ ์ง๋ฅํ ๋ก๋ด ๊ฐ๋ฐ์ ํต์ฌ์ด๋ฉฐ, ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ๋๊ท๋ชจ ํ์ต์ ์ค์ฉ์ ์ธ ํ์ฅ์ฑ์ ์ ๊ณตํ๋ค.
- Approach: RGB-D ์
๋ ฅ๋ง์ผ๋ก ์กฐ๊ฑดํ๋ unified transformer ๋คํธ์ํฌ๊ฐ trajectory generation๊ณผ evaluation์ ๋์์ ํ์ตํ๋ฉฐ, ์๋ฎฌ๋ ์ด์
์ privileged information(ESDF, global planner)์ผ๋ก๋ถํฐ ๊ฐ๋
์ ํธ๋ฅผ ์ป์ด ์์ ์ฑ์ ๊ฐํํ๋ค.
Achievement
Fig. 4: Visualization of comparison among navigation approaches. Two common failure mode of baselines are displayed:
- ๋๊ท๋ชจ ๋ฐ์ดํฐ์
๊ตฌ์ถ: 3,000๊ฐ ์ฅ๋ฉด์์ 1๋ฐฑ๋ง ๋ฏธํฐ ์ด์์ ๋ค๋น๊ฒ์ด์
๊ฒฝํ์ ํฌํจํ 200K ๊ถค์ ๋ฐ์ดํฐ์
(์ค์๊ฐ ๋ฐ์ดํฐ ์์ง ๋๋น 20๋ฐฐ ํจ์จ)
- ์ฐ์ํ ์ฑ๋ฅ: ์๋ฎฌ๋ ์ด์
๋ฐ ์ค์ ํ๊ฒฝ ๋ชจ๋์์ ๊ธฐ์กด state-of-the-art ๋ฐฉ๋ฒ์ ์๋นํ ์ฐจ์ด๋ก ๋ฅ๊ฐ
- Zero-shot ์ผ๋ฐํ: ํ์ต๋์ง ์์ ๋ค์ํ ํ๊ฒฝ๊ณผ ๋ก๋ด embodiment์ ๋ํ sim-to-real transfer ๋ฌ์ฑ
- ํตํฉ ์ํคํ
์ฒ: trajectory generation๊ณผ evaluation์ ํ๋์ transformer ๋คํธ์ํฌ๋ก ํตํฉํ์ฌ ํจ์จ์ฑ ์ฆ๋
How
Fig. 2: Overview of the network architecture. NavDP is con-
- Embodiment-aware planning: ๋ก๋ด ๋์ด hb๋ฅผ (0.25m, 1.25m) ๋ฒ์์์ ๋ฌด์์ํํ๊ณ camera pitch angle์ ๋์ ์ผ๋ก ์กฐ์
- ESDF ๊ธฐ๋ฐ ๊ถค์ ์์ฑ: voxel map์ 0.05m ํด์๋๋ก ๋ณํ ํ 0.2m์ผ๋ก downsamplingํ์ฌ A* ๊ฒฝ๋ก ๊ณํ
- Waypoint refinement: ์๋ณธ ESDF map์์ greedy search๋ก ์ฅ์ ๋ฌผ๋ก๋ถํฐ์ ๊ฑฐ๋ฆฌ ์ต๋ํ
- Cubic spline interpolation์ผ๋ก smoothํ ์ฐ์ ๊ถค์ ์์ฑ
- Domain randomization: light condition, view, texture ๋ฌด์์ํ๋ก ๋ฐ์ดํฐ ๋ค์์ฑ ์ฆ๋
- Contrastive trajectory samples์ ๋ํ critic value ์์ธก์ผ๋ก ์์ ์ฑ ํ์ต
- BlenderProc๋ฅผ ์ฌ์ฉํ photorealistic RGB-D rendering
- Multi-modal encoder๋ก RGB์ depth ์ ๋ณด fusion
Originality
- Imitation learning์ ํจ์จ์ฑ๊ณผ RL์ counterfactual reasoning์ diffusion policy๋ก ๊ฒฐํฉํ ์๋ก์ด ํ๋ ์์ํฌ
- Privileged information (global ESDF, global planner)์ trajectory generation๊ณผ critic function ํ์ต์ ์ด์ค์ผ๋ก ํ์ฉํ๋ ๊ฐ๋
์ ๋ต
- ์๋ฎฌ๋ ์ด์
์์๋ง ํ์ตํ์ฌ ์ค์ ๋ก๋ด์ zero-shot transfer๊ฐ ๊ฐ๋ฅํ embodiment-aware ์ค๊ณ
- 2,500 trajectories/GPU/day์ ๋งค์ฐ ํจ์จ์ ์ธ ๋ฐ์ดํฐ ์์ฑ ์์ง ๊ฐ๋ฐ
- 200K ๊ถค์ , 1M+ ๋ฏธํฐ์ ๋๊ท๋ชจ ๊ณต๊ฐ ๋ค๋น๊ฒ์ด์
๋ฐ์ดํฐ์
Limitation & Further Study
- Cylinder ๊ธฐ๋ฐ ๋ก๋ด ๋ชจ๋ธ ๋จ์ํ๋ก ์ธํด ์ค์ ๋ก๋ด์ ๋ณต์กํ ํํ๋ฅผ ์์ ํ ๋ฐ์ํ์ง ๋ชปํ ๊ฐ๋ฅ์ฑ
- ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฐญ์ ์ฌ์ ํ ์กด์ฌํ๋ฉฐ, ๊ทน๋จ์ ์ธ ํ์ค ํ๊ฒฝ์์์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- Critic function์ด ์๋ฎฌ๋ ์ด์
์ ์ ์ญ ESDF์ ์์กดํ๋ฏ๋ก, ์์ธก ๋ถ๊ฐ๋ฅํ ๋์ ์ฅ์ ๋ฌผ์ ๋ํ ๋์ ๋ฅ๋ ฅ ์ ํ
- Local RGB-D๋ง ์ฌ์ฉํ๋ฏ๋ก ์ ์ญ ๊ฒฝ๋ก ๊ณํ์ด ํ์ํ ๋งค์ฐ ๋ณต์กํ ์๋๋ฆฌ์ค์์ ์ต์ ์ฑ ๋ณด์ฅ ๋ถ๊ฐ
- ํ์ ์ฐ๊ตฌ: ์ค์ ์๊ฐ์ ๋ณ๋์ฑ ๋ ์ถ๊ฐ, ๋์ ํ๊ฒฝ์์์ ์ค์๊ฐ ๊ณํ ๊ฐํ, ์๊ฐ-์ธ์ด ๋ชจ๋ธ(VLM) ํตํฉ ํ๋
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: NavDP๋ ์๋ฎฌ๋ ์ด์
์ privileged information์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ unified transformer ์ํคํ
์ฒ์ ๋๊ท๋ชจ ํจ์จ์ ๋ฐ์ดํฐ ์์ง์ผ๋ก navigation ๋ถ์ผ์์ significant advance๋ฅผ ๋ฌ์ฑํ์ผ๋ฉฐ, zero-shot sim-to-real transfer์ cross-embodiment ์ผ๋ฐํ ์ธก๋ฉด์์ ๊ฐ๋ ฅํ empirical ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์