Gallant: Voxel Grid-based Humanoid Locomotion and Local-navigation across 3D Constrained Terrains
์ ์: Qingwei Ben, Botian Xu, Kailin Li, Feiyu Jia, Wentao Zhang, Jingping Wang, Jingbo Wang, Dahua Lin, Jiangmiao Pang | ๋ ์ง: 2025-11-18 | URL: https://arxiv.org/abs/2511.14625 📄 PDF
Essence
Figure 1. Overview. Gallant enables a single policy with voxel grids to traverse diverse 3D constrained terrains: (a) as
Gallant๋ Voxel Grid ๊ธฐ๋ฐ์ LiDAR ์ธ์๊ณผ z-grouped 2D CNN์ ํ์ฉํ์ฌ ์ธ๊ฐํ ๋ก๋ด์ด ๊ณ๋จ, ์ฒ์ฅ, ์ธก๋ฉด ์ฅ์ ๋ฌผ ๋ฑ 3D ์ ์ฝ ์งํ์ ๋จ์ผ ์ ์ฑ
์ผ๋ก ํก๋จํ ์ ์๊ฒ ํ๋ ํ๋ ์์ํฌ์ด๋ค.
Motivation
- Known: ๊ธฐ์กด ์ธ๊ฐํ ๋ก๋ด ์ด๋ ๋ฐฉ๋ฒ์ elevation map์ด๋ depth image ๊ธฐ๋ฐ ์ธ์์ ์ฌ์ฉํ์ฌ ์ง๋ฉด ์ฅ์ ๋ฌผ์๋ง ๋์ ๊ฐ๋ฅํ๋ฉฐ, LiDAR ๊ธฐ๋ฐ point cloud ๋ฐฉ๋ฒ์ ์ค์๊ฐ ์ถ๋ก ์ด ๋ถ๊ฐ๋ฅํ๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ 3D ๊ตฌ์กฐ(์ค๋ฒํ, ์ ์ฒ์ฅ, ๋ค์ธต ๊ตฌ์กฐ)๋ฅผ ํฌ์ฐฉํ์ง ๋ชปํ๊ณ , LiDAR ๊ธฐ๋ฐ ์ ๊ทผ๋ ๊ณ์ฐ ํจ์จ์ฑ๊ณผ ํ์ต ํ์ฅ์ฑ ๋ฌธ์ ๊ฐ ์๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ ํ์ค ๋ฐฐํฌ๋ ๋ค์ํ 3D ์ ์ฝ ํ๊ฒฝ์์ ์์ ํ๊ณ ๊ฒฌ๊ณ ํ ์ด๋์ด ํ์ํ๋ฉฐ, ์ด๋ฅผ ์ํด ํจ์จ์ ์ด๋ฉด์๋ 3D ๊ตฌ์กฐ๋ฅผ ์์ ํ ํฌ์ฐฉํ๋ ์ธ์ ์์คํ
์ด ํ์์ ์ด๋ค.
- Approach: Voxel Grid ํํ์ ์ฌ์ฉํ์ฌ LiDAR ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์กฐํํ๊ณ , z-grouped 2D CNN์ผ๋ก ์ด๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ฉฐ, ๊ณ ์ถฉ์ค๋ LiDAR ์๋ฎฌ๋ ์ด์
๊ณผ 8๊ฐ ์งํ ํจ๋ฐ๋ฆฌ ์ปค๋ฆฌํ๋ผ์ผ๋ก sim-to-real ์ผ๊ด์ฑ์ ๋ณด์ฅํ๋ค.
Achievement
Figure 1. Overview. Gallant enables a single policy with voxel grids to traverse diverse 3D constrained terrains: (a) as
- ๋จ์ผ ์ ์ฑ
์ผ๋ก ๋ค์ํ 3D ์ ์ฝ ์งํ ๋์: ๊ณ๋จ ์ค๋ฅด๋ด๋ฆผ, ์ธก๋ฉด ์ก๋์ฌ๋, ์ฒ์ฅ ์ ์ฝ, ๋ค์ธต ๊ตฌ์กฐ, ์ข์ ํต๋ก ๋ฑ์ ํ๋์ ์ ์ฑ
์ผ๋ก ์ฒ๋ฆฌ
- ๋์ ์ฑ๊ณต๋ฅ : ๊ณ๋จ ๋ฑ๋ฐ ๋ฐ ๋์ ํ๋ซํผ ๋๊ธฐ์์ ๊ฑฐ์ 100%์ ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ํจ์จ์ ์ธ ์ธ์ ์ฒ๋ฆฌ: z-grouped 2D CNN์ด 3D CNN ๋๋น ์ฐ์ํ ์ฑ๋ฅ๊ณผ ๋ฎ์ ์ถ๋ก ์ง์ฐ์๊ฐ ์ ๊ณต
- ๊ณ ์ถฉ์ค๋ ์๋ฎฌ๋ ์ด์
: ๋์ LiDAR ์๋ฎฌ๋ ์ด์
์ผ๋ก ๋ก๋ด ์์ง์์ ํฌํจํ ํ์ค์ ๊ด์ธก ์์ฑ
How
Figure 2. Method Overview. (a) Curriculum-based training over 8 representative terrains enhances generalization. (b) Rea
- Voxel Grid ํํ: ๋ก๋ด ์ค์ฌ์ 3D LiDAR point cloud๋ฅผ voxel๋ก ๋ณํํ์ฌ ๋ค์ธต ๊ตฌ์กฐ ๋ณด์กด
- z-grouped 2D CNN: ๋์ด ์ฌ๋ผ์ด์ค๋ฅผ ์ฑ๋๋ก ์ทจ๊ธํ์ฌ sparse voxel grid๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌ
- ๊ณ ์ถฉ์ค๋ LiDAR ์๋ฎฌ๋ ์ด์
: ์ผ์ ๋
ธ์ด์ฆ, ์ง์ฐ, ๋์ ๊ฐ์ฒด ์ค์บ์ ๋ชจ๋ธ๋งํ์ฌ ํ์ค์ ํ๋ จ ๋ฐ์ดํฐ ์์ฑ
- ์ปค๋ฆฌํ๋ผ ํ์ต: 8๊ฐ์ ๋ํ์ ์งํ ํจ๋ฐ๋ฆฌ(์ง๋ฉด ์ฅ์ ๋ฌผ, ์ธก๋ฉด ์ก๋์ฌ๋, ์ฒ์ฅ ์ ์ฝ)๋ฅผ ๋จ๊ณ์ ์ผ๋ก ํ์ต
- End-to-end ์ต์ ํ: Voxel Grid, ๊ณ ์ ๊ฐ๊ฐ, ๋ชฉํ ์์น๋ฅผ ํตํฉํ์ฌ PPO๋ก ๋จ์ผ ์ ์ฑ
ํ์ต
- ์์น ๊ธฐ๋ฐ ๊ณต์ํ: ์๋ ์ถ์ ๋์ ์๋ ๋ชฉํ ์์น๋ฅผ ์
๋ ฅ์ผ๋ก ํ์ฌ ๊ตญ์ ๋ค๋น๊ฒ์ด์
๊ณผ ์ด๋์ ํตํฉ
Originality
- ์ธ๊ฐํ ๋ก๋ด ์ด๋ ๋ถ์ผ์์ Voxel Grid๋ฅผ ์ง์ ์ธ์ ํํ์ผ๋ก ์ฒ์ ๋์
ํ์ฌ ๊ธฐ์กด elevation map์ 3D ์ ๋ณด ์์ค ๋ฌธ์ ํด๊ฒฐ
- z-grouped 2D CNN ์ํคํ
์ฒ: sparse voxel grid์ ์ต์ ํ๋ ํจ์จ์ ์ฒ๋ฆฌ ๋ฐฉ์์ผ๋ก 3D CNN์ ๊ณ์ฐ ๋น์ฉ์ ๊ฐ์
- ๋์ LiDAR ์๋ฎฌ๋ ์ด์
: ๋ก๋ด์ ์์ง์ด๋ ๋งํฌ๋ฅผ ํฌํจํ ํ์ค์ ์ค์บ์ผ๋ก sim-to-real ๊ฐญ ์ถ์
- ์์น ๊ธฐ๋ฐ end-to-end ๊ณต์ํ: ๊ตญ์ ๋ค๋น๊ฒ์ด์
๊ณผ ๋ก์ฝฉ์ ๋จ์ผ ์ ์ฑ
์ผ๋ก ํตํฉ
Limitation & Further Study
- ๊ณ์ฐ ๋ณต์ก๋: Voxel Grid ์์ฑ ๋ฐ CNN ์ฒ๋ฆฌ์ ์ค์๊ฐ์ฑ ๋ถ์ ๋ถ์กฑ
- ์งํ ๋ค์์ฑ: 8๊ฐ ์งํ ํจ๋ฐ๋ฆฌ๊ฐ ๋ชจ๋ ํ์ค ํ๊ฒฝ์ ๋ํํ๋์ง ๊ฒ์ฆ ํ์
- ๋ก๋ด ์ผ๋ฐํ: ํน์ ์ธ๊ฐํ ๋ก๋ด(๊ตฌ์ฒด์ ๋ชจ๋ธ ๋ช
์ ํ์)์ ๋ํด์๋ง ๊ฒ์ฆ๋จ
- ์๋ฎฌ๋ ์ด์
์ ํ๋: ์ค์ LiDAR ์ผ์์ ๋ณต์กํ ํน์ฑ(multipath, ์ฌ์ง๋ณ ๋ฐ์ฌ)์ ๋ชจ๋ธ๋ง ์์ฑ๋ ๋ฏธํก ๊ฐ๋ฅ
- ํ์์ฐ๊ตฌ: (1) ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ์ ์ด ํ์ต (2) ์ค์๊ฐ ๊ณ์ฐ๋ ์ต์ ํ (3) ์ผ์ธ ํ๊ฒฝ์ ๋ ์จ ์ํฅ ํฌํจ (4) ๋์ฑ ๋ณต์กํ 3D ์งํ ํ
์คํธ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Gallant๋ Voxel Grid์ ํจ์จ์ CNN์ ๊ฒฐํฉํ์ฌ ์ธ๊ฐํ ๋ก๋ด์ 3D ์งํ ์ธ์ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๊ณ , ๊ณ ์ถฉ์ค๋ ์๋ฎฌ๋ ์ด์
๊ณผ end-to-end ์ต์ ํ๋ก sim-to-real ์ผ๊ด์ฑ์ ๋ฌ์ฑํ ์ํฉํธ ์๋ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง ์ค์๊ฐ ์ฑ๋ฅ๊ณผ ์งํ ์ผ๋ฐํ์ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์