Collision-Free Humanoid Traversal in Cluttered Indoor Scenes
์ ์: Han Xue, Sikai Liang, Zhikai Zhang, Zicheng Zeng, Yun Liu, Yunrui Lian, Jilong Wang, Qingtao Liu, Xuesong Shi, Li Yi | ๋ ์ง: 2026-01-23 | DOI: 10.48550/arXiv.2601.16035 📄 PDF
Essence
Fig. 2: Overall pipeline. We learn a visuomotor policy that maps diverse obstacle geometries and spatial layouts to
์ธ๊ฐํ ๋ก๋ด์ด ์ด์์ ํ ์ค๋ด ํ๊ฒฝ์์ ์ฅ์ ๋ฌผ์ ํผํ๋ฉฐ ์ด๋ํ ์ ์๋๋ก Humanoid Potential Field (HumanoidPF)๋ฅผ ์ ์ํ๊ณ , ํ์ด๋ธ๋ฆฌ๋ ์ฅ๋ฉด ์์ฑ ๋ฐฉ์๊ณผ RL ๊ธฐ๋ฐ ํ์ต์ผ๋ก ํ์ค ์ธ๊ณ์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ด์ํจ ์ฐ๊ตฌ์ด๋ค.
Motivation
- Known: ์ฌ์กฑ ๋ก๋ด์ ๋ณต์กํ ํ๊ฒฝ์์์ ์ด๋ ๋ฅ๋ ฅ์ด ์
์ฆ๋์๊ณ , ์ธ๊ฐํ ๋ก๋ด๋ ํน์ ์งํ์ด๋ ์ฅ์ ๋ฌผ(๊ณ๋จ, ํํ๋ ๋ฑ)์์์ ์ด๋์ด ๊ฐ๋ฅํ๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด ์ฐ๊ตฌ๋ ๋ถ๋ถ์ ๊ณต๊ฐ ๋ฐฐ์น์ ๋จ์ํ ๊ธฐํํ์ ํํ์ ์ฅ์ ๋ฌผ๋ง ๋ค๋ฃฌ๋ค.
- Gap: ์์ ํ ๊ณต๊ฐ ์ ์ฝ(๋ฐ๋ฅ, ์, ์)์ ๋์์ ๊ณ ๋ คํ๋ฉด์ ๋ณต์กํ ๊ธฐํํ์ ํํ์ ์ฅ์ ๋ฌผ์ด ์๋ ์ด์์ ํ ์ค๋ด ์ฅ๋ฉด์์์ ์ธ๊ฐํ ๋ก๋ด ์ด๋์ ๋ค๋ฃฌ ์ฒด๊ณ์ ์ธ ์ฐ๊ตฌ๊ฐ ๋ถ์กฑํ๋ค. ๋ํ ์ธ๊ฐํ ๋ก๋ด-์ฅ์ ๋ฌผ ๊ด๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํํํ๋ ๋ฐฉ์์ด ์์ด RL ๊ธฐ๋ฐ ํ์ต์ด ์ด๋ ต๋ค.
- Why: ๊ฐ์ ์ฉ ์ธ๊ฐํ ๋ก๋ด์ ์ค์ ์ ์ฉ์ ์ํด์๋ ํ์ค์ ์ธ ์ค๋ด ํ๊ฒฝ์ ๋ค์ํ ์ฅ์ ๋ฌผ์ ์ธ์งํ๊ณ ํํผํ๋ฉด์ ์์ฐ์ค๋ฝ๊ฒ ์ด๋ํ ์ ์๋ ๋ฅ๋ ฅ์ด ํ์์ ์ด๊ณ , ์ด๋ ๋ก๋ด์ ์์ ์ฑ๊ณผ ์ ์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.
- Approach: APF(Artificial Potential Field)๋ฅผ ์ธ๊ฐํ ๋ก๋ด์ ์ ์ ์ด๋์ ๋ง๊ฒ ์ฌ๊ตฌ์ฑํ HumanoidPF๋ฅผ ์ ์ํ์ฌ ์ธ์ ํํ๊ณผ ๋ณด์ ์ ํธ๋ก ํ์ฉํ๊ณ , ํ์ค์ ์ธ 3D ์ค๋ด ์ฅ๋ฉด ์กฐ๊ฐ๊ณผ ์ ์ฐจ์ ์ผ๋ก ์์ฑ๋ ์ฅ์ ๋ฌผ์ ๊ฒฐํฉํ ํ์ด๋ธ๋ฆฌ๋ ์ฅ๋ฉด ์์ฑ ๋ฐฉ์์ผ๋ก ๋ค์ํ ์๋๋ฆฌ์ค์์์ ํ์ต์ ์คํํ๋ค.
Achievement
Fig. 1: Using a single generalist policy, our humanoid robot achieves collision-free traversal in cluttered indoor envir
- HumanoidPF ์ ์: ์ธ๊ฐํ ๋ก๋ด-์ฅ์ ๋ฌผ ๊ด๊ณ๋ฅผ collision-free motion direction์ ์ฐ์ ๋ฏธ๋ถ ๊ฐ๋ฅํ gradient field๋ก ์ธ์ฝ๋ฉํ์ฌ, ์ ์ฑ
์ด raw ํ๊ฒฝ ์ ๋ณด๊ฐ ์๋ ๋ช
์์ ์ธ ์ด๋ ๋ฐฉํฅ ๋จ์๋ก๋ถํฐ ํ๋จํ ์ ์๊ฒ ํจ
- Sim-to-real gap ์ต์ํ: HumanoidPF์ ์ฐ์ field ๊ณต์์ด ์์ฐ์ค๋ฝ๊ฒ low-pass perceptual filter ์ญํ ์ ํ์ฌ ์ธ์ artifacts๋ฅผ ํํํํ๊ณ robustํ ํ์ค ์ด์ ๋ฌ์ฑ
- ํ์ด๋ธ๋ฆฌ๋ ์ฅ๋ฉด ์์ฑ: ํ์ค์ ์ธ 3D ์ค๋ด ๋ฐ์ดํฐ์
๊ณผ ์ ์ฐจ์ ํฉ์ฑ ์ฅ์ ๋ฌผ์ ๊ฒฐํฉํ์ฌ ๊ธฐ์กด ๋ฐ์ดํฐ์
์ ๋๋ฌธ ๊ณ ๋๋ก ์ ์ฝ๋ clutter ๋ฐฐ์น ๋
ธ์ถ๋ก robustness ํฅ์
- ์์ ํ ๊ณต๊ฐ ์ ์ฝ ์ฒ๋ฆฌ: ground, lateral, overhead ์ฅ์ ๋ฌผ์ด ๋์์ ์กด์ฌํ๋ ์์ ํ ์ด์์ ํ ์ค๋ด ์ฅ๋ฉด์์ ์ด๋ ๊ฐ๋ฅํ ์ต์ด์ ์ฒด๊ณ์ ์ฐ๊ตฌ ๋ฌ์ฑ
- ์ค์ธ๊ณ ๋ฐฐํฌ ์ฑ๊ณต: Click-and-Traverse(CAT) ํ
๋ ์คํผ๋ ์ด์
์์คํ
์ผ๋ก ์ฌ์ฉ์ ์นํ์ ์ธ ์ค์๊ฐ ์ด๋ ์ ์ด ๊ฐ๋ฅ
How
Fig. 2: Overall pipeline. We learn a visuomotor policy that maps diverse obstacle geometries and spatial layouts to
- APF์ ๋ชฉํ ์์น(attractive pole)์ ์ฅ์ ๋ฌผ(repulsive surface) ๊ฐ๋
์ ๊ธฐ๋ฐ์ผ๋ก ํ๋, ์ธ๊ฐํ ๋ก๋ด์ ๋ณต์ key body part์์ ์ฟผ๋ฆฌํ์ฌ ๊ฐ ๋ถ๋ถ๋ณ ์ด๋ ๋ฐฉํฅ์ ์ง๋
- HumanoidPF๋ฅผ ์ ์ฑ
์ observation์ผ๋ก ์ง์ ํ์ฉํ์ฌ ๊ณ ์ฐจ์ raw ํ๊ฒฝ ์ ๋ณด ๋์ ์ ์ฐจ์ ๋ฐฉํฅ ์ ํธ ์ ๊ณต
- collision-aware reward design์ HumanoidPF์ field ๋ถํฌ๋ฅผ ํ์ฉํ์ฌ ์ ์ฑ
์ด๋๊ณผ field alignment๋ฅผ ์ ๋ํ๋ฏ๋ก denseํ๊ณ ์์ธก์ ์ธ supervision ์ ๊ณต
- specialist policies๋ฅผ ๋ค์ํ obstacle ๊ตฌ์ฑ์์ ๋ณ๋ ฌ ํ์ต ํ distillation์ ํตํด generalist policy ํ๋
- ํ์ค์ ์ธ 3D indoor scene crops์ procedurally synthesized obstacles๋ฅผ ์กฐํฉํ curriculum ํํ์ ์ฅ๋ฉด ์์ฑ์ผ๋ก ๋ค์์ฑ๊ณผ ๋์ ์ฑ ๋์ ํ๋ณด
- ์ค์ humanoid ๋ก๋ด์ ์ ์ฑ
์ ์ด ํ ํ
๋ ์คํผ๋ ์ด์
์ธํฐํ์ด์ค๋ก goal click ๊ธฐ๋ฐ ์๋ collision-free traversal ์คํ
Originality
- Classical APF๋ฅผ humanoid whole-body traversal์ ์ํด ์ฒซ ์ฒด๊ณ์ ์ผ๋ก ์ฌ๊ตฌ์ฑํ์ฌ, ๊ธฐ์กด์ center of mass๋ foot joint ๋จ์ผ rigid body ์ถ์ํ๋ฅผ ๋์ด์ ์ฐฝ์
- HumanoidPF๋ฅผ perception representation๊ณผ reward signal์ผ๋ก ์ด์ค ํ์ฉํ๋ ๋ฐฉ์์ ๊ธฐ์กด potential field ํ์ฉ๊ณผ ์ฐจ๋ณํ
- sim-to-real gap์ field formulation์ low-pass filter ํน์ฑ์ผ๋ก ์์ฐ์ค๋ฝ๊ฒ ํด๊ฒฐํ๋ ํต์ฐฐ๋ ฅ ์๋ ์ ๊ทผ
- ํ์ค์ dataset crop๊ณผ ์ ์ฐจ์ ํฉ์ฑ ์ฅ์ ๋ฌผ ๊ฒฐํฉ์ ํ์ด๋ธ๋ฆฌ๋ scene generation์ ๋ฐ์ดํฐ ๋ค์์ฑ ํ๋ณด์ ์๋ก์ด ์ ๋ต
- ground/lateral/overhead ์ฅ์ ๋ฌผ์ ๋์์ ๋ค๋ฃจ๋ ์ฒซ ์ฒด๊ณ์ humanoid traversal ์ฐ๊ตฌ
Limitation & Further Study
- HumanoidPF์ continuous field ๊ตฌ์ฑ ์ ๋ณต์กํ ๊ธฐํํ์ ์ฅ์ ๋ฌผ์ ๋ํ ์ ํํ ๊ฑฐ๋ฆฌ ๊ณ์ฐ ๋ฐ gradient ์ถ์ถ ๋ฐฉ์์ ๊ณ์ฐ ๋ณต์ก๋๊ฐ ์์ธํ ๋
ผ์๋์ง ์์
- ํ์ค ์ค๋ด ํ๊ฒฝ์ ๋์ ์ฅ์ ๋ฌผ์ด๋ ์ด๋ ์ค์ธ ๋ค๋ฅธ ๋์์์ ๋ํ ๋์ ๋ฅ๋ ฅ์ด ๋ฏธํฌํจ
- specialist policy ํ์ต ๋จ๊ณ์์์ ์ฅ์ ๋ฌผ ๊ตฌ์ฑ๋ณ ์๋ ด ํน์ฑ ๋ถ์ ๋ฐ distillation ํจ์จ์ ๋ํ ์ฌ์ธต ๋ถ์ ๋ถ์กฑ
- ์ ์ฑ
์ generalization ๋ฒ์ ์ ๋ํ(์: ํ๋ จ๋์ง ์์ obstacle geometry์ ๋ํ ์ฑ๊ณต๋ฅ )๊ฐ ๋ช
ํํ์ง ์์
- ํ์์ฐ๊ตฌ: ๋์ ํ๊ฒฝ ๋ฐ ์ค์๊ฐ obstacle detection/updating์ ์ง์ํ๋ ํ์ฅ ํ์, ๊ณ์ฐ ํจ์จ์ฑ ๊ฐ์ ๋ฐ ๋ ๋ณต์กํ indoor scene์ ๋ํ ํ๊ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ humanoid ๋ก๋ด์ ํ์ค์ ์ค๋ด ์ด๋์ด๋ผ๋ ์ค์ํ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ฒ์ ๋ค๋ฃจ๋ฉด์, HumanoidPF๋ผ๋ ์ฐฝ์์ ์ด๊ณ ํจ๊ณผ์ ์ธ ํํ ๋ฐฉ์๊ณผ ํ์ด๋ธ๋ฆฌ๋ scene generation์ ํตํด ์ค์ ๋ก๋ด์์ ์ฑ๊ณต์ ์ ์ด๋ฅผ ๋ณด์ฌ์ค๋ค. ๊ธฐ์ ์ ๊น์ด, ์คํ์ ํฌ๊ด์ฑ, ๊ทธ๋ฆฌ๊ณ ์ค์ฉ์ ๊ฐ์น ์ธก๋ฉด์์ humanoid robotics ๋ถ์ผ์ ์๋นํ ๊ธฐ์ฌ๋ฅผ ํ๋ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์