Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies
์ ์: Zixuan Chen, Xialin He, Yen-Jen Wang, Qiayuan Liao, Yanjie Ze, Zhongyu Li, S. Shankar Sastry, Jiajun Wu, Koushil Sreenath, Saurabh Gupta, Xue Bin Peng | ๋ ์ง: 2024-10-15 | URL: https://arxiv.org/abs/2410.11825 📄 PDF
Essence
Fig. 2: Lipschitz continuity is a method of quantifying the
๋ณธ ๋
ผ๋ฌธ์ Reinforcement Learning์ผ๋ก ํ๋ จํ humanoid robot์ locomotion policy์ Lipschitz ์ ์ฝ์ ๋ถ์ฌํ์ฌ smooth behavior๋ฅผ ์๋์ผ๋ก ์ ๋ํ๋ Lipschitz-Constrained Policies (LCP) ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
Motivation
- Known: ์๋ฎฌ๋ ์ด์
์์ ํ๋ จํ legged robot ์ ์ด๊ธฐ๋ sim-to-real transfer๋ฅผ ์ํด smoothness rewards๋ low-pass filters ๊ฐ์ ๋น๋ฏธ๋ถ ๊ฐ๋ฅํ ๊ธฐ๋ฒ์ ํตํด smooth behavior๋ฅผ ๊ฐ์ ํด์ผ ํ๋ค.
- Gap: ๊ธฐ์กด smoothing ๊ธฐ๋ฒ๋ค์ hyperparameter ํ๋์ด ํ์ํ๊ณ robot ํ๋ซํผ๋ง๋ค ์ฌ์ค์ ํด์ผ ํ๋ฉฐ, ๋น๋ฏธ๋ถ ๊ฐ๋ฅํ ํน์ฑ์ผ๋ก ์ธํด ํ์ต ํ๋ ์์ํฌ์ ํตํฉํ๊ธฐ ์ด๋ ต๋ค.
- Why: Smooth policy behavior๋ ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ๊ฐ์ domain gap์ ์ค์ด๊ณ jittery bang-bang control์ ๋ฐฉ์งํ์ฌ ์ฑ๊ณต์ ์ธ sim-to-real transfer์ robust locomotion ์คํ์ ํต์ฌ์ด๋ค.
- Approach: Policy์ gradient norm์ ์ ํํ๋ gradient penalty ํํ์ Lipschitz ์ ์ฝ์ ํตํด ๋ฏธ๋ถ ๊ฐ๋ฅํ๊ณ ์๋ ๋ฏธ๋ถ ํ๋ ์์ํฌ์ ์ฝ๊ฒ ํตํฉ ๊ฐ๋ฅํ smoothness ๊ฐ์ ๊ธฐ๋ฒ์ ๊ฐ๋ฐํ๋ค.
Achievement
Fig. 1: Lipschitz-constrained policies (LCP) provide a simple and general method for training policies to produce smooth
- ์ผ๋ฐ์ ์ ์ฉ์ฑ: ์ฌ๋ฌ humanoid robot ํ๋ซํผ์ ์ฝ๊ฒ ์ ์ฉ ๊ฐ๋ฅํ๋ฉฐ ์๋ ํ๋ ์ต์ํ
- ๋ฏธ๋ถ ๊ฐ๋ฅ์ฑ: Gradient penalty ํํ๋ก ๊ตฌํ๋์ด ๊ธฐ์กด RL ํ๋ ์์ํฌ์ ์๋ ๋ฏธ๋ถ์ผ๋ก ์์ ํตํฉ ๊ฐ๋ฅ
- ์คํ ๊ฒ์ฆ: ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ robot์์ smoothํ๊ณ robustํ locomotion ๋ฌ์ฑ, zero-shot transfer ์ฑ๊ณต
- ์ฌํ์ฑ: ๋ชจ๋ simulation ๋ฐ deployment ์ฝ๋, checkpoint ๊ณต๊ฐ
How
Fig. 3: Gradient of policies trained with and without smooth-
- Lipschitz continuity์ ์ ์๋ฅผ ์ด์ฉํ์ฌ ||โ_x f(x)|| โค K ์ ์ฝ์ด smooth behavior๋ฅผ ๋ณด์ฅํจ์ ํ์ฉ
- Gradient penalty L_gp = (||โ_s ฯ(s)||_2 - K)^2 ํํ๋ก policy์ gradient norm ์ ํ
- Teacher-student framework์ domain randomization์ ํ์ฉํ sim-to-real transfer
- Multiple humanoid robot morphology์ ๋ํด ๋์ผํ LCP ๋ชฉํํจ์ ์ ์ฉ ๋ฐ ํ๊ฐ
- Smoothness metric (policy output ๋ณํ์จ)๊ณผ task return์ ๋์์ ๋ชจ๋ํฐ๋งํ์ฌ ํจ๊ณผ์ฑ ๊ฒ์ฆ
Originality
- Gradient penalty๋ฅผ GAN ์์ ํ์์ motion control adversarial imitation learning (AMP, CALM, ASE)์ผ๋ก์ ์ฌ์ฉ์ ๋์ด policy ์์ฒด์ smoothness ๊ฐ์ ์ ์ง์ ์ ์ฉํ ์๋ก์ด ๊ด์
- Lipschitz continuity๋ผ๋ ์ํ์ ์ผ๋ก well-defined๋ ๊ฐ๋
์ robot locomotion์ smoothness ๋ฌธ์ ์ ์ฐ๊ฒฐ
- Non-differentiable smoothness rewards, low-pass filters์ ๋ฌ๋ฆฌ ์์ ํ ๋ฏธ๋ถ ๊ฐ๋ฅํ ํตํฉ ์๋ฃจ์
์ ์
- Zero-shot transfer๋ก ์๋ก ๋ค๋ฅธ morphology์ humanoid robot๋ค์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ์
์ฆ
Limitation & Further Study
- Lipschitz constant K ๊ฐ ์ ํ์ ๋ํ ์ด๋ก ์ ๊ฐ์ด๋ ๋ถ์ฌ - ์คํ์ ๊ฒฐ์ ์ ์์กด
- Gradient norm ์ ์ฝ์ด ๋ชจ๋ robot morphology์์ optimal์ธ์ง ๋ฏธ๊ฒ์ฆ - robot๋ณ ์ต์ ๊ฐ ์กด์ฌ ๊ฐ๋ฅ์ฑ
- Real-world ์คํ์ด ์ ํ๋ ์์ humanoid robot์์๋ง ์ํ๋จ - ๋ ๋ค์ํ ํ๋ซํผ์์์ ๊ฒ์ฆ ํ์
- Lipschitz constraint์ ๊ณ์ฐ ๋น์ฉ(gradient ๊ณ์ฐ)์ด ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์ผ๋ง๋ ์ฆ๊ฐํ๋์ง์ ๋ํ ๋ถ์ ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ: K ๊ฐ์ adaptive ์ ํ ๋ฉ์ปค๋์ฆ, ๋ค์ํ morphology์ ๋ํ ์๋ ํ์ดํผํ๋ผ๋ฏธํฐ ๊ฒฐ์ , ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ(quadruped ๋ฑ)์ผ๋ก์ ํ์ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Lipschitz constraint์ ํตํ smooth policy ํ์ต์ ์ด๋ก ์ ์ผ๋ก ๋ช
ํํ๊ณ ์ค์ฉ์ ์ด๋ฉฐ, ๊ธฐ์กด์ ๋ณต์กํ smoothing ๊ธฐ๋ฒ๋ค์ ๋จ์ํ๊ณ ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ฐฉ์์ผ๋ก ๋์ฒดํ๋ ์ฐ์ํ ๊ธฐ์ฌ์ด๋ค. ์ค์ humanoid robot์์์ ๊ฒ์ฆ๊ณผ ์ฌํ์ฑ ์๋ ๊ณต๊ฐ ์ฝ๋ ๊ณต๊ฐ๋ก high impact์ ๊ธฐ๋ํ ์ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์