Humanoid Whole-Body Locomotion on Narrow Terrain via Dynamic Balance and Reinforcement Learning
์ ์: Weiji Xie, Chenjia Bai, Jiyuan Shi, Junkai Yang, Yunfei Ge, Weinan Zhang, Xuelong Li | ๋ ์ง: 2025-02-24 | URL: https://arxiv.org/abs/2502.17219 📄 PDF
Essence
Fig. 1: The locomotion capabilities of full-sized Humanoid without vision or LiDAR sensors. (a) Narrow Path (25cm):
ZMP(Zero Moment Point) ๊ธฐ๋ฐ ๋ฆฌ์๋์ ๊ฐํํ์ต์ ๊ฒฐํฉํ ๋์ ๊ท ํ ๋ฉ์ปค๋์ฆ์ ๋์
ํ์ฌ, ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ์ธ๋ถ ์ผ์ ์์ด ๊ณ ์ ๊ฐ๊ฐ๋ง์ผ๋ก ์ข์ ๊ฒฝ๋ก์ ์์ ๋ชปํ ์ฅ์ ๋ฌผ์ด ์๋ ๊ทน๋จ์ ์งํ์ ์์ ์ ์ผ๋ก ํต๊ณผํ๋๋ก ํ๋ ์ ์ ๋ณดํ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ๋ค.
Motivation
- Known: ์ต๊ทผ ๊ฐํํ์ต ๊ธฐ๋ฐ ํด๋จธ๋
ธ์ด๋ ๋ณดํ ์๊ณ ๋ฆฌ์ฆ์ ๊ท์น์ ๋ณดํ(phase-based gait) ๋๋ ์์ง์ ๋ชจ๋ฐฉ์ ์์กดํ๋ฉฐ, ๋ณ๋ ฌ ์๋ฎฌ๋ ์ด์
๊ณผ ์ ์ฑ
์ต์ ํ ๊ธฐ๋ฒ์ ํตํด ์ผ๋ฐ์ ์งํ์์๋ ์ ์ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋ค. ๊ณ ์ ์ ์ ์ด ๋ฐฉ์์ ZMP ๊ฐ๋
์ ์ด์ฉํ์ฌ ๋์ ์์ ์ฑ์ ๋ณด์ฅํด์๋ค.
- Gap: ๊ธฐ์กด ๊ฐํํ์ต ๊ธฐ๋ฐ ํด๋จธ๋
ธ์ด๋ ๋ณดํ ๋ฐฉ๋ฒ๋ค์ ์ฃผ๊ธฐ์ ๋ณดํ์ด๋ ๋ชจ์
ํ๋ฆฌ๋ฏธํฐ๋ธ์ ์์กดํ์ฌ ๊ฐ์์ค๋ฌ์ด ๋ถ์์ ์ฑ ์ํฉ์์ ๋น ๋ฅด๊ณ ๋ค์ํ ๋ณดํ ์กฐ์ ์ ํ ์ ์์ผ๋ฉฐ, ์ธ๋ถ ์ง๊ฐ(vision, LiDAR)์ ์์กดํ๊ฑฐ๋ ์ข์ ์งํ๊ณผ ๊ฐ์ ๊ทน๋จ์ ํ๊ฒฝ์์ ๋์ ๊ท ํ์ ์ ์งํ์ง ๋ชปํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ์ธ๊ฐ์ฒ๋ผ ๋ฏธ๋๋ฌ์ง, ์์ ๋ชปํ ์ฅ์ ๋ฌผ, ์ธ๋ถ ๋ฐฉํด์ ๋์ํ์ฌ ๋น ๋ฅด๊ฒ ๋ฐ๋๋ค์ ์กฐ์ ํ๊ณ ๋์ ๊ท ํ์ ํ๋ณตํ ์ ์๊ฒ ํ๋ ๊ฒ์ ์ค์ ๋ณต์กํ ํ๊ฒฝ์์์ ์์ ์ ์ด๋์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ์ธ๋ถ ์ผ์ ์์ด ๊ณ ์ ๊ฐ๊ฐ๋ง์ผ๋ก ์ด๋ฅผ ๋ฌ์ฑํ๋ฉด ๋ก๋ด์ ์ค์ฉ์ฑ๊ณผ ์์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.
- Approach: ZMP ๊ฐ๋
์ ๋นํ๋ฉด(non-planar) ํ๋ฉด์ผ๋ก ํ์ฅํ์ฌ ZMP ์ (line of ZMPs)์ ํ์ฑํ๊ณ , ์ด๋ฅผ ์ด์ฉํ ๋ฆฌ์๋ ํจ์๋ฅผ ์ค๊ณํ์ฌ ZMP ์ขํ๊ฐ ์ง์ง ๋ค๊ฐํ ์ค์ฌ ๊ทผ์ฒ์ ์๋๋ก ์ ๋ํ๋ค. ๋น๋์นญ actor-critic ํ๋ ์์ํฌ์์ ํน๊ถ ์ ๋ณด(privileged information)๋ก ๋ฆฌ์๋๋ฅผ ๊ณ์ฐํ๋ ์ ์ฑ
์ ๊ณ ์ ๊ฐ๊ฐ๋ง์ผ๋ก ํ์ตํ์ฌ, ์ค์ ๋ก๋ด ๋ฐฐํฌ ์ ์ธ๋ถ ์ง๊ฐ ์์ด๋ ๋์ํ๋๋ก ํ๋ค.
Achievement
Fig. 1: The locomotion capabilities of full-sized Humanoid without vision or LiDAR sensors. (a) Narrow Path (25cm):
- ZMP ๊ธฐ๋ฐ ๋์ ๊ท ํ ๋ฉ์ปค๋์ฆ: ZMP๋ฅผ ๊ฐํํ์ต ๋ฆฌ์๋๋ก ํตํฉํ์ฌ ์ง์ง ๋ค๊ฐํ ๋ด์์์ ZMP ์์น๋ฅผ ์ธก์ ํจ์ผ๋ก์จ ๋ณต์กํ ์งํ์์์ ๋์ ๊ท ํ์ ์คํํ๋ค.
- ์ ์ ์ ์ด ํ๋ ์์ํฌ ํ์ฅ: reward vectorization, angular momentum regularization, multiplicative action noise ๋ฑ์ ์๋ก์ด ๊ธฐ๋ฒ์ ๋์
ํ์ฌ ์์ฒด์ ํ์ฒด์ ํ์กฐ์ ๋์์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- ๊ด๋ฒ์ํ ์ค์ฆ ๊ฒ์ฆ: ์๋ฎฌ๋ ์ด์
๋ฐ full-sized Unitree H1-2 ๋ก๋ด์ ์ด์ฉํ ์ค์ ์คํ์ ํตํด ์ข์ ๊ฒฝ๋ก(25cm), ๋ฏธ์ง ์ฅ์ ๋ฌผ, ๊ณ๋จ, ์ธ๋ถ ๋ฐ๋ฆผ, ์ง ์ด๋ฐ ๋ฑ ๋ค์ํ ๊ทน๋จ์ ์๋๋ฆฌ์ค์์ ์์ ์ฑ์ ์
์ฆํ๋ค.
How
Fig. 2: The overall training process of the proposed method.
- ZMP๋ฅผ ๋นํ๋ฉด ํ๋ฉด์ผ๋ก ํ์ฅํ์ฌ support polygon ์ค์ฌ๊ณผ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ด์ฉํ ๋ฆฌ์๋ ํจ์ ์ค๊ณ
- ์๋ฎฌ๋ ์ด์
์์ ํ๋ํ ํน๊ถ ์ ๋ณด(contact forces, support polygon, centroid)๋ก ๋ฆฌ์๋ ๊ณ์ฐ
- ๋น๋์นญ actor-critic ํ๋ ์์ํฌ๋ก ์ ์ฑ
์ ๊ณ ์ ๊ฐ๊ฐ(proprioception) ๊ธฐ๋ฐ ํ์ต, ๋ฐฐํฌ๋ ์ธ๋ถ ์ผ์ ๋ถํ์
- ์ ์ ์ ์ด(whole-body control)์์ ์์ฒด ์ค์์ ํ์ฉํ ๋์ ๊ท ํ ๋ณด์กฐ
- Angular momentum regularization์ผ๋ก ์์น ์๋ ๋ชธ ํ์ ์ ์ฝ, multiplicative action noise๋ก ๋์ ๋ฒ์ ์ ์ด
- Reward vectorization ๊ธฐ๋ฒ์ผ๋ก ZMP ๊ธฐ๋ฐ ๋ฆฌ์๋, command-following ๋ฆฌ์๋, regularization ๋ฆฌ์๋๋ฅผ ๊ฐ๊ฐ์ value function๊ณผ ์ฐ๊ฒฐํ์ฌ ์ ํํ ๊ฐ์น ์ถ์ ๋ฌ์ฑ
- PPO(Proximal Policy Optimization) ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ ์ฑ
ํ์ต
Originality
- ZMP ๊ฐ๋
์ ํ๋ ๊ฐํํ์ต ๊ธฐ๋ฐ ํด๋จธ๋
ธ์ด๋ ์ ์ด์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ํตํฉํ ๊ฒ
- ๋นํ๋ฉด ํ๋ฉด์์์ ZMP ๋ผ์ธ ๊ฐ๋
๋์
์ผ๋ก ๊ณ ์ ์ ์งํ์์์ ZMP ์ ์ ํ์ฅ
- ํน๊ถ ์ ๋ณด๋ฅผ ํ์ฉํ ๋น๋์นญ actor-critic ๊ตฌ์กฐ๋ก ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ฐฐํฌ ๊ฐ ๊ฐ๊ทน์ ํด๊ฒฐํ ์ค๊ณ
- Reward vectorization ๊ธฐ๋ฒ ์ ์ฉ์ผ๋ก ๋ณต์์ ๋ฆฌ์๋ ํญ์ด ์ ํํ๊ฒ value function์ ๋ฐ์๋๋๋ก ํ ํ์
- ์ธ๋ถ ์ผ์ ์์ด ๊ณ ์ ๊ฐ๊ฐ๋ง์ผ๋ก ๊ทน๋จ์ ์งํ(์ข์ ๊ฒฝ๋ก, ๋ฏธ์ง ์ฅ์ ๋ฌผ)์ ํต๊ณผํ๋ ๋ฅ๋ ฅ ์
์ฆ
Limitation & Further Study
- ์งํ ๋ค์์ฑ: ๋
ผ๋ฌธ์์ ๋ณด์ฌ์ฃผ๋ ์คํ ์๋๋ฆฌ์ค๋ ์ฃผ๋ก ์ข์ ๊ฒฝ๋ก, ๊ณ๋จ, ์ฅ์ ๋ฌผ ํํผ ๋ฑ์ ์ ํ๋๋ฉฐ, ๋์ฑ ๋ค์ํ ์งํ(์งํ, ๋ชจ๋, ๋ฌผ ๋ฑ)์์์ ์ฑ๋ฅ ๊ฒ์ฆ ํ์
- ๋ก๋ด ํ๋ซํผ ํนํ์ฑ: Unitree H1-2 ๋ก๋ด์ ๋ํด์๋ง ์คํํ์ผ๋ฏ๋ก, ๋ค๋ฅธ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด(Atlas, Spot, NAO ๋ฑ)์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ถ๋ช
ํ
- ์ค์๊ฐ ๊ณ์ฐ ์๊ตฌ์ฌํญ: ๋
ผ๋ฌธ์์ ์ ์๋์ง ์์ ๋ฐฐํฌ ์ ๊ณ์ฐ๋, ์ค์๊ฐ ์ฑ๋ฅ, ๋ฐฐํฐ๋ฆฌ ์๋ชจ๋ ๋ฑ์ ๋ํ ๋ถ์ ๋ถ์กฑ
- ์ธ๋ถ ๊ฐ์ญ์ ํ๊ณ: ๊ฐํ ์ธ๋ถ ๋ฐ๋ฆผ์ด๋ ๋์ด์ง ์ํ์ด ์๋ ์์ค์ ๊ทน๋จ์ ๊ฐ์ญ์ ๋ํ ์ฑ๋ฅ ํ๊ณ ๋ฏธ์ธ๊ธ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: ๋ ๊ทน๋จ์ ์งํ์์์ ์ ์, ๋ค์ค ๋ชจ๋ฌ ๊ฐ๊ฐ(vision, LiDAR)๊ณผ์ ๊ฒฐํฉ์ ํตํ ์ฑ๋ฅ ํฅ์, ์ค์๊ฐ ์ฌํ์ต ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๊ณ ์ ์ ZMP ๊ฐ๋
์ ํ๋ ๊ฐํํ์ต์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ์ฌ ์ธ๋ถ ์ผ์ ์์ด ๊ทน๋จ์ ์งํ ํต๊ณผ ๋ฅ๋ ฅ์ ํ๋ณดํ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ์ค์ full-sized ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์์์ ๊ด๋ฒ์ํ ์ค์ฆ์ด ๊ฐ์ ์ด๋, ๋ค์ํ ๋ก๋ด ํ๋ซํผ๊ณผ ๊ทน๋จ์ ์งํ์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์