VB-Com: Learning Vision-Blind Composite Humanoid Locomotion Against Deficient Perception
์ ์: Junli Ren, Tao Huang, Huayi Wang, Zirui Wang, Qingwei Ben, Junfeng Long, Yanchao Yang, Jiangmiao Pang, Ping Luo | ๋ ์ง: 2025-02-20 | URL: https://arxiv.org/abs/2502.14814 📄 PDF
Essence
Fig. 1: Overview. VB-Com enables humanoid robots (move direction in orange arrorw) to traverse dynamic terrains and obst
VB-Com์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ์๊ฐ ์ ๋ณด์ ๊ฒฐ์์ ๋์ํ๊ธฐ ์ํด ์๊ฐ ๊ธฐ๋ฐ ์ ์ฑ
๊ณผ ๊ณ ์ ๊ฐ๊ฐ ๊ธฐ๋ฐ์ ๋งน๋ชฉ ์ ์ฑ
์ ๋์ ์ผ๋ก ์ ํํ๋ ๋ณตํฉ ์ ์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Motivation
- Known: ๋ค๋ฆฌ ๋ก๋ด์ ์ด๋ ์ ์ด๋ RL ๊ธฐ๋ฐ์ผ๋ก ์ ์ฐ๊ตฌ๋์์ผ๋ฉฐ, ์๊ฐ ์ ์ฑ
์ ๋ฏธ๋ฆฌ ๊ณํํ๊ณ ๋งน๋ชฉ ์ ์ฑ
์ ๋์ ๊ฒฌ๊ณ ์ฑ์ ์ ๊ณตํ๋ค. ํ์ง๋ง ๊ฐ๊ฐ ์๋ ์ ํ๊ณผ ๋์ ํ๊ฒฝ ๋์ ๋ฅ๋ ฅ์ ํ๊ณ๊ฐ ์๋ค.
- Gap: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ถ์์ ํ ์ด์กฑ ๊ตฌ์กฐ๋ก ์ธํด ์ง๊ฐ ๊ฒฐ์์ ๋งค์ฐ ์ทจ์ฝํ๋ฉฐ, ํนํ ๋์ ์งํ์ด๋ ์ผ์ ๋
ธ์ด์ฆ์ ์ํ ์ ๋ขฐํ ์ ์๋ ์ธ๋ถ ์ํ ์ ๋ณด๊ฐ ์ฆ์ ๋์์ผ๋ก ์ด์ด์ง ์ ์๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ ์ฃผ๋ก ์ ์ ์งํ์ ์ ํ๋์ด ์๋ค.
- Why: ๋์ ์ฅ์ ๋ฌผ๊ณผ ๋ณํ ์งํ์ ํฌํจํ ๋ณต์กํ ํ๊ฒฝ์์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์์ ์ ์ด๋์ด ๊ฐ๋ฅํด์ง๋ฉด ์ค์ ํ๊ฒฝ ๋ฐฐํฌ ์ ๊ฒฌ๊ณ ์ฑ๊ณผ ์ฑ๋ฅ ๊ฐ ํธ๋ ์ด๋์คํ๋ฅผ ํด๊ฒฐํ ์ ์์ด ์ค์ฉ์ ๊ฐ์น๊ฐ ๋๋ค.
- Approach: ๋น์ ์ ์ฑ
๊ณผ ๋งน๋ชฉ ์ ์ฑ
๋ ๊ฐ๋ฅผ ๋
๋ฆฝ์ ์ผ๋ก ํ๋ จํ๊ณ , return estimator๋ฅผ ํตํด ๊ฐ ์ ์ฑ
์ ๋ฏธ๋ ์ฑ๋ฅ์ ์์ธกํ์ฌ ํ์ฌ ๊ณ ์ ๊ฐ๊ฐ ์ํ์ ๊ธฐ๋ฐํด ๋ ์ ์ฑ
์ค ํ๋๋ฅผ ์ ํํ๋๋ก ํ๋ ๋ฐฉ์์ด๋ค.
Achievement
Fig. 1: Overview. VB-Com enables humanoid robots (move direction in orange arrorw) to traverse dynamic terrains and obst
- ๋น์ ๋ฐ ๋งน๋ชฉ ์ ์ฑ
๊ฐ๋ฐ: ๊ฐ๊ฒฉ ํต๊ณผ, ํ๋ค ํํผ, ์ฅ์ ๋ฌผ ํํผ๊ฐ ๊ฐ๋ฅํ ๋ ๊ฐ์ ๋
๋ฆฝ์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ์ด๋ ์ ์ฑ
๊ตฌํ
- ํ๋์จ์ด ๋ฐฐํฌ ๊ฐ๋ฅํ Return Estimator: ๊ณ ์ ๊ฐ๊ฐ ์ํ๋ง์ผ๋ก ๋ฏธ๋ return์ ์์ธกํ๋ ํ์ต ๊ฐ๋ฅํ ์ถ์ ๊ธฐ ๊ฐ๋ฐ
- ์ ์ํ ์ ์ฑ
ํฉ์ฑ ์์คํ
: ์ง๊ฐ ๊ฒฐ์ ์ํฉ์์ ๋์ ์ผ๋ก ์ ์ฑ
์ ์ ํํ์ฌ Unitree G1, H1์์ ๋์ ์ฅ์ ๋ฌผ๊ณผ ์งํ ํต๊ณผ ์ฑ๊ณต
How
Fig. 2: Overview of our framework: In VB-Com, we develop two locomotion policiesโone perceptive and one non-perceptiveโt
- PPO๋ฅผ ์ฌ์ฉํ์ฌ ์ธ๋ถ ์๊ฐ ์ ๋ณด๋ฅผ ์
๋ ฅ๋ฐ๋ ๋น์ ์ ์ฑ
๊ณผ ๊ณ ์ ๊ฐ๊ฐ๋ง ์ฌ์ฉํ๋ ๋งน๋ชฉ ์ ์ฑ
์ ๋ณ๋๋ก ํ๋ จ
- ๊ฐ ์ ์ฑ
์ value function์ ํตํด ํ์ฌ ์ํ์์ ๋ฌ์ฑ ๊ฐ๋ฅํ ๊ธฐ๋ return์ ์ถ์ ํ๋ return estimator ํ์ต
- ํ์ฌ ๊ณ ์ ๊ฐ๊ฐ ๊ด์ธก๊ฐ ๊ธฐ๋ฐ์ผ๋ก ๋ ์ ์ฑ
์ ์์ return์ ๋น๊ตํ์ฌ ์ ํ ํ๋ฅ ์ ๊ฒฐ์
- Generalized Advantage Estimation (GAE)๋ฅผ ํ์ฉํ์ฌ return ์ถ์ ์ ํ๋ ํฅ์
- ์๋ฎฌ๋ ์ด์
์์ 4๊ฐ์ง ์ ํ์ ์ง๊ฐ ๋
ธ์ด์ฆ(๊ฐ์์ค๋ฌ์ด ์ฅ์ ๋ฌผ, ๋ณํ ๊ฐ๊ฒฉ, ์ผ์ ํ์, ๋
ธ์ด์ฆ)๋ฅผ ๋์
ํ์ฌ ํ๋ จ ๋ฐ ํ๊ฐ
Originality
- ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ถ์์ ํ ์ด์กฑ ๊ตฌ์กฐ์ ํนํ๋ ์ง๊ฐ ๊ฒฐ์ ๋์ ๋ฐฉ๋ฒ๋ก ์ ์ (๊ธฐ์กด ์ฐ๊ตฌ๋ ์ฃผ๋ก ์ฌ์กฑ ๋ก๋ด)
- ์ ์ฑ
์ ํ์ ์ํด return estimator๋ฅผ ์ฌ์ฉํ๋ ์ ๊ทผโ๋จ์ threshold ๊ธฐ๋ฐ์ด ์๋ ํ์ต ๊ฐ๋ฅํ affordance ์ถ์
- ๋น์ ์ ์ฑ
๊ณผ ๋งน๋ชฉ ์ ์ฑ
์ ๋์ผํ ์ํ-ํ๋ ๊ณต๊ฐ ๊ณต์ ๋ก ๋น ๋ฅธ ํ๋ณต ๊ฐ๋ฅ์ฑ ์คํ
- ๋์ ์งํ, ๋ณํ ๊ฐ๊ฒฉ ๋ฑ ๊ธฐ์กด ์๋ฎฌ๋ ์ด์
์์ ๋ค๋ฃจ๊ธฐ ์ด๋ ค์ด ์๋๋ฆฌ์ค ์์คํ
์ ์ผ๋ก ํฌํจ
Limitation & Further Study
- ํ๋ จ ์ค ์ ์ฉ๋ 4๊ฐ์ง ์ง๊ฐ ๋
ธ์ด์ฆ ์ ํ์ด ์ ํ์ ์ผ ์ ์์ผ๋ฉฐ, ๋ค๋ฅธ ํํ์ ์ผ์ ์คํจ์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ๋ฏธ๊ฒ์ฆ
- Return estimator์ ์ฑ๋ฅ์ด ์ ์ฒด ์์คํ
์ ํจ๊ณผ์ฑ์ ๊ฒฐ์ ์ ์ด์ง๋ง, ๊ณ ์ ๊ฐ๊ฐ๋ง์ผ๋ก ๋ณต์กํ ์ธ๋ถ ์ํ๋ฅผ ์ถ์ ํ๋ ๋ฐ ๋ด์ฌ์ ํ๊ณ ์กด์ฌ
- ์ค์ ๋ก๋ด ๋ฐฐํฌ ๊ฒฐ๊ณผ๊ฐ ์ ํ์ ์ด๋ฉฐ ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฐญ(sim-to-real gap)์ ๋ํ ์์ธ ๋
ผ์ ๋ถ์กฑ
- ์ ์ฑ
์ ํ ์ ์ง์ฐ์ด๋ ๋ถ์์ฐ์ค๋ฌ์ด ๋์ ์ ํ์ ๋ํ ๋ถ์ ๋ฏธํก
- ํ์ ์ฐ๊ตฌ๋ก ๋ ๋ณต์กํ ์ง๊ฐ ๊ฒฐ์ ํจํด, ๋ค์ค ๋ก๋ด ํ๋ ฅ, ์จ๋ผ์ธ ์ ์ํ ํ์ต ๋ฉ์ปค๋์ฆ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: VB-Com์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ง๊ฐ ๊ฒฌ๊ณ ์ฑ ๋ฌธ์ ๋ฅผ ์ ์ฑ
ํฉ์ฑ์ผ๋ก ์ฐ์ํ๊ฒ ํด๊ฒฐํ๋ฉฐ, return estimator ๊ธฐ๋ฐ ๋์ ์ ํ ๋ฉ์ปค๋์ฆ์ ์ฐฝ์์ ์ด๊ณ ์ค์ฉ์ ์ด๋ค. ๋์ ์งํ ๋ฐ ์ง๊ฐ ๋
ธ์ด์ฆ ์๋๋ฆฌ์ค์ ์ฒด๊ณ์ ๊ตฌ์ฑ๊ณผ ๋ ํด๋จธ๋
ธ์ด๋ ํ๋ซํผ์์์ ๊ฒ์ฆ์ด ๊ฐ์ ์ด๋, ์ค์ ๋ฐฐํฌ ๊ฒฐ๊ณผ ํ์ฅ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ ๋ถ์์ด ๋ณด๊ฐ๋๋ฉด ๋์ฑ ์ค๋๋ ฅ ์์ ๊ฒ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์