Advancing Humanoid Locomotion: Mastering Challenging Terrains with Denoising World Model Learning
์ ์: Xinyang Gu, Yen-Jen Wang, Xiang Zhu, Chengming Shi, Yanjiang Guo, Yichen Liu, Jianyu Chen | ๋ ์ง: 2024-08-26 | URL: https://arxiv.org/abs/2408.14472 📄 PDF
Essence
Fig. 1: Extensive showcase of locomotion skills using the proposed framework. Displayed is a sequence illustrating a hum
Denoising World Model Learning (DWL)์ด๋ผ๋ end-to-end ๊ฐํํ์ต ํ๋ ์์ํฌ๋ฅผ ํตํด ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ๋๋ฎ์ธ ์ธ๋, ๊ณ๋จ, ๋ถ๊ท์นํ ์งํ ๋ฑ ํ์ค์ ๋ณต์กํ ์งํ์ ์ฒ์์ผ๋ก ๋ง์คํฐํ์ผ๋ฉฐ, zero-shot sim-to-real transfer๋ก ๊ฐ์ ์ ๊ฒฝ๋ง์ ๋ชจ๋ ์๋๋ฆฌ์ค์์ ๊ตฌ๋ํ๋ค.
Motivation
- Known: ๊ธฐ์กด์ model-based control (ZMP, MPC, WBC)๊ณผ model-free RL์ ๊ฐ๊ฐ์ ์ฅ๋จ์ ์ ๊ฐ๊ณ ์์ผ๋ฉฐ, quadrupedal ๋ฐ bipedal ๋ก๋ด์ ๋ํ RL ๊ธฐ๋ฐ ๋ณดํ ์ ์ด ์ฐ๊ตฌ๋ ์งํ๋์ด์์ผ๋ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ํ์ค ์ ์ฉ์ ๋จ์ ์งํ์๋ง ์ ํ๋์ด ์์๋ค.
- Gap: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋์ ๋ฌด๊ฒ์ค์ฌ, ๋ค๋ฆฌ ํ๋ค๋ฆผ ๋ถ์์ ์ฑ, ํฐ ๋ค๋ฆฌ ๊ด์ฑ, ๋ชธํต๊ณผ ํ์ ์ถ๊ฐ ๋ฌด๊ฒ ๋ฑ์ผ๋ก ์ธํด ํ์ค์ ๋ณต์กํ ์งํ์์ robustํ end-to-end RL ๊ธฐ๋ฐ ๋ณดํ ์ ์ด๊ฐ ๋ฌ์ฑ๋์ง ๋ชปํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ์ธ๊ฐ ์ค์ฌ์ ํ๊ฒฝ์ ์ต์ ํ๋์ด ์์ผ๋ฏ๋ก, ํ์ค์ ๋ค์ํ ์งํ์ ์์ ์ ์ผ๋ก ํต๊ณผํ ์ ์๋ ๋ฅ๋ ฅ์ด ์ค์ ์์ฉ ๋ฐฐํฌ์ ํ์์ ์ด๋ค.
- Approach: ๋ถ๋ถ ๊ด์ฐฐ์ฑ์ ๊ฐ๋ POMDP ํ๊ฒฝ์์ encoder-decoder ๊ตฌ์กฐ์ world model์ ํตํด ํ๊ฒฝ ๋
ธ์ด์ฆ, ๋์ญํ ๋
ธ์ด์ฆ, ์ผ์ ๋
ธ์ด์ฆ, masking ๋
ธ์ด์ฆ๋ฅผ denoisingํ์ฌ true state๋ฅผ ๋ณต์ํ๊ณ , ์ด๋ฅผ policy gradient ๋ฐฉ๋ฒ๊ณผ ๊ฒฐํฉํ์ฌ sim-to-real gap์ ๊ทน๋ณตํ๋ค.
Achievement
Fig. 1: Extensive showcase of locomotion skills using the proposed framework. Displayed is a sequence illustrating a hum
- ์ต์ด ๋ฌ์ฑ: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด end-to-end RL๊ณผ zero-shot sim-to-real transfer๋ก ํ์ค์ ๋์ ์ ์งํ(๋๋ฎ์ธ ๊ฒฝ์ฌ์ง, ๊ณ๋จ, ๊ทน๋๋ก ๋ถ๊ท์นํ ์งํ)์ ๋ง์คํฐํ ์ต์ด ์ฌ๋ก
- ์ผ๋ฐํ ๋ฐ ๊ฒฌ๊ณ ์ฑ: ๋จ์ผ์ ํ์ต๋ ์ ๊ฒฝ๋ง์ด ๋ชจ๋ ์๋๋ฆฌ์ค์์ ๋์ํ๋ฉฐ ์ธ๋ถ ๊ฐ์ญ์ ๋ํ ์ ํญ๋ ฅ ์์ฐ
- ํ๋์จ์ด ํ์ : 2-DoF Closed Kinematic Chain Ankle Mechanism์ ํ์ฉํ active ankle control๋ก ๋ค๋ฆฌ ๊ด์ฑ ๊ฐ์์ ์์ ์ฑ ํฅ์์ ๋์ ๋ฌ์ฑ
- ๋ ๊ฐ์ง ๋ก๋ด ํ๋ซํผ ๊ฒ์ฆ: XBot-S (38kg, 1.2m)์ XBot-L (57kg, 1.65m)์์ ๋ชจ๋ ์ฑ๊ณต์ ์ผ๋ก ์๋ ์
์ฆ
How
Fig. 3: Illustration of the Denoising World Model Learning Framework. This diagram details the information flow from sen
- POMDP ๊ธฐ๋ฐ ๊ฐํํ์ต ๋ฌธ์ ์ ์ํ๋ก ๋ถ๋ถ ๊ด์ฐฐ์ฑ์ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋ง
- ์๋ฎฌ๋ ์ด์
๋ด์์ ๋ค ๊ฐ์ง ์ ํ์ ๋
ธ์ด์ฆ(environmental, dynamics, sensory, masking)๋ฅผ ์ฃผ์
ํ์ฌ ํ์ค ์กฐ๊ฑด ๋ชจ๋ฐฉ
- Encoder-decoder ์ํคํ
์ฒ๋ก noisy observation์ latent space์ ์๋ฒ ๋ฉํ๊ณ true state๋ฅผ ๋ณต์
- Policy gradient ๋ฐฉ๋ฒ์ผ๋ก world model๊ณผ ์ ์ด ์ ์ฑ
์ end-to-end๋ก ์ต์ ํ
- Closed Kinematic Chain Ankle Mechanism์ 2-DoF active ankle ์ ์ด๋ก ์์ ์ฑ๊ณผ ์ ์ฐ์ฑ ํ๋ณด
Originality
- ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ํ DWL ํ๋ ์์ํฌ์ ์ต์ด ์ ์์ผ๋ก sim-to-real gap์ ์ฒด๊ณ์ ์ผ๋ก denoisingํ๋ ์ ๊ทผ
- ๋ค ๊ฐ์ง ๋
ธ์ด์ฆ ํ์
(ํ๊ฒฝ, ๋์ญํ, ์ผ์, masking)์ ๋ช
์์ ์ผ๋ก ๋ถ๋ฅํ๊ณ ๊ฐ๊ฐ์ ๋ค๋ฃจ๋ ํตํฉ ๋ฐฉ์
- Active 2-DoF ankle control์ด closed kinematic chain์ ํตํด ๊ตฌํ๋์ด ๊ธฐ์กด์ passive ankle ๋๋ 1-DoF ankle ์ฐ๊ตฌ์ ์ฐจ๋ณํ
- Zero-shot sim-to-real transfer๋ก ์ฌ์ fine-tuning ์์ด ํ์ค ์ ์ฉ์ด ๊ฐ๋ฅํ ์ ์ด ํ๊ธฐ์
Limitation & Further Study
- ๋
ผ๋ฌธ ๋ฐ์ท๋ณธ์์ ๊ตฌ์ฒด์ ์ธ ์คํ ๊ฒฐ๊ณผ(์ฑ๊ณต๋ฅ , ์์ ์ฑ ๋ฉํธ๋ฆญ, ๋น๊ต ๋์๊ณผ์ ์ ๋์ ๋น๊ต)๊ฐ ์ ์๋์ง ์์ ์ฑ๋ฅ ๊ฒ์ฆ ๋ฒ์ ๋ถ๋ช
ํ
- DWL์ ์ธ๋ถ ์์ค ํจ์, masking loss ์ค๊ณ, encoder-decoder ๋คํธ์ํฌ ๊ตฌ์กฐ์ ๋ํ ์์ธ ์ค๋ช
๋ถ์กฑ
- computational cost, ์ค์๊ฐ ์ถ๋ก ์ฑ๋ฅ, ๋ฐฐํฐ๋ฆฌ ์ง์ ์๊ฐ ๋ฑ ์ค์ฉ์ ์ ์ฝ ์ฌํญ์ ๋ํ ๋
ผ์ ์์
- ํ์ ์ฐ๊ตฌ๋ก๋ ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ(bipedal ๋ก๋ด, quadrupedal ๋ก๋ด)์ ๋ํ DWL์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ, ๋์ฑ ๊ทน๋จ์ ์งํ ์กฐ๊ฑด, ๋์ ํ๊ฒฝ(์ด๋ ์ฅ์ ๋ฌผ ๋ฑ)์์์ ์ฑ๋ฅ ๊ฒ์ฆ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: DWL์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ํ์ค ๋ณต์ก ์งํ ๋ณดํ ๋ฌธ์ ๋ฅผ ์ฒ์์ผ๋ก ํด๊ฒฐํ ํ์ ์ ์ฐ๊ตฌ์ด๋ฉฐ, noisy observation์ผ๋ก๋ถํฐ true state๋ฅผ ๋ณต์ํ๋ encoder-decoder ๊ธฐ๋ฐ denoising ์ ๊ทผ๊ณผ 2-DoF ankle mechanism์ ํ๋์จ์ด ํ์ ์ด ๊ฒฐํฉ๋์ด ๋์ ์ํฅ๋ ฅ์ ๊ธฐ๋ํ ์ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์