Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control
์ ์: Zhongyu Li, Xue Bin Peng, Pieter Abbeel, Sergey Levine, Glen Berseth, Koushil Sreenath | ๋ ์ง: 2024-01-30 | URL: https://arxiv.org/abs/2401.16889 📄 PDF
Essence
์ด์กฑ ๋ก๋ด์ ๋ค์ํ ๋์ ๋ณดํ ๊ธฐ์ (๊ฑท๊ธฐ, ๋ฐ๊ธฐ, ์ ํ)์ ํตํฉ์ ์ผ๋ก ์ ์ดํ๊ธฐ ์ํด dual-history ์ํคํ
์ฒ๋ฅผ ๊ฐ์ถ ์ฌํ๊ฐํํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ , ์๋ฎฌ๋ ์ด์
์์ ์ค์ ๋ก๋ด(Cassie)์ผ๋ก ๋ฌดํ๋ ์ ์ด ๋ฐฐํฌ๋ฅผ ์ฑ๊ณต์์ผฐ๋ค.
Motivation
- Known: ์ด์กฑ ๋ก๋ด ๋ณดํ ์ ์ด๋ ์์ญ ๋
์ฐ๊ตฌ๋์์ผ๋, ์ธ๋์ก์ถ์์ด์
๋์ญํ, ๋น์ ํ์ฑ, ์ ์ด ๋ถ์ฐ์์ฑ, ์ฃผ๊ธฐ/๋น์ฃผ๊ธฐ ์ด๋์ ๋ค์์ฑ์ผ๋ก ์ธํด ์ผ๋ฐํ๋ ์ ์ด ์๋ฃจ์
๊ฐ๋ฐ์ด ๋ฏธํด๊ฒฐ ๊ณผ์ ๋ก ๋จ์์๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ ๋จ์ผ ๋ณดํ ๊ธฐ์ ์ ์ง์คํ๊ฑฐ๋ ์ ์ฒด ๋์ญํ์ ํ์ฉํ์ง ๋ชปํ์ผ๋ฉฐ, ์๊ฐ ๋ณํํ๋ ๋์ญํ ์ ์์ฑ๊ณผ ์ฌ๋ฌ ๊ธฐ์ ๊ฐ ๊ฐ๊ฑด์ฑ์ ๋์์ ๋ฌ์ฑํ๋ ํตํฉ ํ๋ ์์ํฌ๊ฐ ๋ถ์กฑํ๋ค.
- Why: ์ธ๊ฐ ํ๊ฒฝ์ ์ด์กฑ ๋ณดํ์ ์ต์ ํ๋์ด ์์ผ๋ฏ๋ก, ๋ค์ํ ๋์ ๋ณดํ ๊ธฐ์ ์ ๊ฐ๊ฑดํ๊ฒ ์ํํ๋ ์ด์กฑ ๋ก๋ด์ ์ค์ ํ๊ฒฝ ๋ฐฐํฌ์ ํต์ฌ ์๊ตฌ์ฌํญ์ด๋ฉฐ, ์ด๋ ๋ก๋ด ์ฐ๊ตฌ์ ํฐ ๋ณ๋ชฉ ๋ฌธ์ ์ด๋ค.
- Approach: Model-free RL์ ์ฌ์ฉํ์ฌ long-term๊ณผ short-term I/O ํ์คํ ๋ฆฌ๋ฅผ ๋ชจ๋ ํ์ฉํ๋ dual-history ์ ์ฑ
์ํคํ
์ฒ๋ฅผ ์ค๊ณํ๊ณ , ๋ค์ค ๋จ๊ณ ํ์ต ํ๋ ์์ํฌ์ task randomization์ ํตํด ์ ์์ฑ๊ณผ ๊ฐ๊ฑด์ฑ์ ํ๋ณดํ๋ค.
Achievement
- ์ผ๋ฐํ๋ ์ด์กฑ ๋ณดํ ์ ์ด ํ๋ ์์ํฌ: ์ฃผ๊ธฐ์ ๊ธฐ์ (๊ฑท๊ธฐ, ๋ฐ๊ธฐ)๋ถํฐ ๋น์ฃผ๊ธฐ์ ๊ธฐ์ (์ ํ), ์ ์ ๊ธฐ์ (์๊ธฐ)๊น์ง ๋จ์ผ RL ํ๋ ์์ํฌ๋ก ํตํฉ ์ ์ดํ๋ฉฐ ์ค์ ๋ก๋ด ๋ฌดํ๋ ๋ฐฐํฌ ์ฑ๊ณต
- Dual-history ์ํคํ
์ฒ: Non-recurrent RL ์ ์ฑ
์ ๋ช
์์ ์ฅ๋จ๊ธฐ I/O ํ์คํ ๋ฆฌ ๋ฐ ๋ก๋ด ํฌ๊ธฐ ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ๋ค์ํ ๋ณดํ ๊ธฐ์ ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ ๋ฌ์ฑ
- ์ ์์ฑ ์ค์ฆ: ์๊ฐ ๋ถ๋ณ ๋์ญํ ๋ณํ์ ์ ์ด ์ด๋ฒคํธ ๊ฐ์ ์๊ฐ ๋ณํ ํ์ ๋ชจ๋์ ๋ํ ์ ์์ฑ์ ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด์์ ๊ฒ์ฆ
- Task randomization ๊ฐ๊ฑด์ฑ: ๋์ญํ ๋ฌด์์ํ ์ธ์ ๋ค์ํ ๊ณผ์ ํ์ต์ ํตํ ๊ฐ๊ฑด์ฑ ๊ฐ์ ์ผ๋ก ์ธ๋ถ ๋ฐฉํด์ ๋ํ ๊ท์์ฑ ๋ฌ์ฑ
- ๊ด๋ฒ์ํ ์ค์ ๊ฒ์ฆ: Cassie ๋ก๋ด์ผ๋ก ์์ ์ ์๊ธฐ ํ๋ณต, ๋ค์ํ ์๋ ๋ณดํ, 400m ๋์, ๋์ด๋ฐ๊ธฐ ๋ฐ ๋ฉ๋ฆฌ๋ฐ๊ธฐ ๋ฑ ๋ค์ํ ๋ณดํ ๊ธฐ์ ์ค์ ๊ตฌํ
How
Fig. 3: The proposed RL-based controller architecture that leverages
- Robot proprioceptive I/O๋ฅผ long-term ํ์คํ ๋ฆฌ ์ธ์ฝ๋์ short-term ํ์คํ ๋ฆฌ๋ก ๋ถ๋ฆฌํ์ฌ ์ ์ฑ
์
๋ ฅ ๊ตฌ์ฑ
- Base ์ ์ฑ
ํ์ต ์ short-term ํ์คํ ๋ฆฌ์ long-term ํ์คํ ๋ฆฌ ์ธ์ฝ๋๋ฅผ ๊ด์ (joint) ํ์ตํ๋ ๋ค์ค ๋จ๊ณ ํ์ต ์ ๋ต ์ ์ฉ
- ํ๊ฒฝ ๋์ญํ ๋งค๊ฐ๋ณ์์ ๊ณผ์ ๋ช
๋ น(๋ชฉํ ์๋, ์ ํ ๊ฑฐ๋ฆฌ ๋ฑ)์ ๊ด๋ฒ์ํ๊ฒ ๋ฌด์์ํํ์ฌ ์๋ฎฌ๋ ์ด์
ํ์ต ์ํ
- ํ์ต๋ ์ ์ฑ
์ ์ค์ Cassie ๋ก๋ด์ ์ง์ ๋ฐฐํฌํ์ฌ ์ถ๊ฐ ์ค์ ์ธ๊ณ ํ๋ ์์ด ์ ์ด ํ์ต ์ฑ๊ณต ๊ฒ์ฆ
- ๋ค์ํ ์ธ๋ถ ๋ฐฉํด(ํธ์, ๊ฒฝ์ฌ์งํ ๋ณํ ๋ฑ)์ ๋ํ ๊ฐ๊ฑด์ฑ ์คํ ๋ฐ ์ ์์ฑ ๋ถ์ ์ํ
Originality
- Dual-history ์ํคํ
์ฒ๋ ๊ธฐ์กด recurrent ์ ์ฑ
๊ณผ ๋ฌ๋ฆฌ non-recurrent ๋ฐฉ์์ผ๋ก ๋ช
์์ ์ฅ๋จ๊ธฐ ์ ๋ณด ํตํฉ์ผ๋ก ์๋ก์ด ์ค๊ณ
- Task randomization์ ๋จ์ ๋์ญํ ๋ฌด์์ํ์ ๊ตฌ๋ถํ์ฌ ๊ฐ๊ฑด์ฑ ํฅ์์ ๋
๋ฆฝ์ ์์ธ์ผ๋ก ์๋ณํ ์ ์ด ํ์ ์
- ๋จ์ผ RL ํ๋ ์์ํฌ๋ก ์ฃผ๊ธฐ/๋น์ฃผ๊ธฐ/์ ์ ๋ณดํ์ ํตํฉํ๋ ์ผ๋ฐํ ์ ๊ทผ์ด ๊ธฐ์กด ๊ธฐ์ ๋ณ ๊ฐ๋ณ ์ ์ด์ ์ฐจ๋ณํ
- RL ์ ์ด๊ธฐ์ ์๊ฐ ๋ณํํ๋ ๋์ญํ ์ ์์ฑ์ ์ค์ฆ์ ์ผ๋ก ์์ธ ๋ถ์ํ ๊ฒ์ ์ ์ด ์ด๋ก ๊ณผ RL ์ฐ๊ฒฐ์ ์๋ก์ด ์๋
Limitation & Further Study
- ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฐ ์ฐจ์ด(Sim2Real gap)๋ฅผ ์์ ํ ํด๊ฒฐํ์ง ๋ชปํ์ผ๋ฉฐ, task randomization์ ๊ด๋ฒ์ํจ์ด ํ์ํ์์ ํ์ต ํจ์จ์ฑ ๋ฌธ์ ๋ฅผ ์์ฌ
- Dual-history ์ํคํ
์ฒ์ ์ฅ๊ธฐ ํ์คํ ๋ฆฌ ๊ธธ์ด ์ ํ์ ๋ํ ์ฒด๊ณ์ ๊ฐ์ด๋๋ผ์ธ ๋ถ์ฌ ๋ฐ ํ์ดํผํ๋ผ๋ฏธํฐ ๋ฏผ๊ฐ๋ ๋ถ์ ๋ถ์กฑ
- Cassie์ ํนํ๋ ๊ฒ์ฆ์ด๋ฏ๋ก ๋ค๋ฅธ ์ด์กฑ ํ๋ซํผ(์: Atlas, Boston Dynamics Figure)์์์ ์ผ๋ฐํ ๊ฒ์ฆ ํ์
- 400m ๋์ ๊ฐ์ ์ฅ์๊ฐ ์ด๋์์์ ์๋์ง ์๋น, ์ด ๊ด๋ฆฌ, ์ฅ๊ธฐ ์์ ์ฑ์ ๋ํ ๋ถ์ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ๋ก ๋ ๋ณต์กํ ์งํ(๊ณ๋จ, ์ธํ๋ถํํ ์งํ), ๋ค์ค ์ฐ๋ฝ ๋ชจ๋(๋ฏธ๋๋ฌ์ง), ์ํ ์ด์กฑ ๋ก๋ด ํ์ฅ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด์กฑ ๋ก๋ด ์ ์ด๋ผ๋ ๋์ ์ ๊ณผ์ ์์ dual-history ์ํคํ
์ฒ์ task randomization์ ํตํด ํตํฉ RL ํ๋ ์์ํฌ๋ฅผ ๋ฌ์ฑํ๊ณ , ๊ด๋ฒ์ํ ์ค์ ๋ก๋ด ์คํ์ผ๋ก ๋ค์ํ ๋์ ๋ณดํ ๊ธฐ์ ์ ๊ฐ๊ฑดํ ๊ตฌํ์ ์
์ฆํ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง ์ํคํ
์ฒ ์ค๊ณ ์ ํ์ ์ด๋ก ์ ๊ทผ๊ฑฐ ๊ฐํ์ ๋ค๋ฅธ ํ๋ซํผ์ผ๋ก์ ํ์ฅ์ฑ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์