Learning agile and dynamic motor skills for legged robots
์ ์: Jemin Hwangbo, Joonho Lee, Alexey Dosovitskiy, Dario Bellicoso, Vassilios Tsounis, Vladlen Koltun, Marco Hutter | ๋ ์ง: 2019-01-24 | URL: https://arxiv.org/abs/1901.08652 📄 PDF
Essence
Fig. 5. Training control policies in simulation. The policy net-
๋ณธ ๋
ผ๋ฌธ์ ์๋ฎฌ๋ ์ด์
์์ reinforcement learning์ผ๋ก ์ฌ์กฑ ๋ก๋ด์ ์ ์ด ์ ์ฑ
์ ํ์ตํ๊ณ ํ์ค์ ANYmal ๋ก๋ด์ ์ ์ดํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ, ๊ณ ์ ์ฃผํ๊ณผ ๋ํ ๋ณต๊ตฌ ๋ฑ์ ๋์ ์ด๋ ๊ธฐ์ ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: Modular controller design๊ณผ trajectory optimization ๋ฐฉ๋ฒ๋ค์ด ์ฌ์กฑ ๋ก๋ด ์ ์ด์ ์ฃผ๋ก ์ฌ์ฉ๋์ด ์์ผ๋, ์์์
ํ๋์ด ๋ง์ด ํ์ํ๊ณ ์ฑ๋ฅ ์ ์ฝ์ด ์๋ค. Reinforcement learning์ ์๋ฎฌ๋ ์ด์
์์ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ง๋ง ํ์ค ๋ก๋ด ์ ์ฉ์ ์ ํ์ ์ด์๋ค.
- Gap: ์๋ฎฌ๋ ์ด์
๊ณผ ํ์ค ๊ฐ์ reality gap์ ํจ๊ณผ์ ์ผ๋ก ๊ทน๋ณตํ์ฌ ํ์ต๋ ์ ์ฑ
์ ๋ฌผ๋ฆฌ์ ์ฌ์กฑ ๋ก๋ด์ ์์ ์ ์ผ๋ก ์ ์ดํ ์ ์๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: ์ฌ์กฑ ๋ก๋ด์ ๋ณต์กํ ๋์ญํ, ๋น๋ฒํ ์ ์ด ๋ณํ, ๋์ ์ฐจ์์ ๋น์ ํ ์ ์ด ๋ฌธ์ ๋ฅผ ๊ฐ์ง๊ณ ์์ด ์๋ํ๋ ํ์ต ๋ฐฉ๋ฒ์ ํตํด ํจ์จ์ ์ด๊ณ ๋ฏผ์ฒฉํ ์ ์ด๊ธฐ๋ฅผ ๊ฐ๋ฐํ๋ ๊ฒ์ด ์ค์ํ๋ค.
- Approach: Simulation-to-reality transfer๋ฅผ ์ํด dynamics randomization, reference state initialization randomization, action delay randomization ๋ฑ์ ๋๋ฉ์ธ ๋๋๋ง์ด์ ์ด์
๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ์ ์ฑ
์ ๊ฐ๊ฑด์ฑ์ ํฅ์์ํค๊ณ , ์ค์ ๋ก๋ด์์์ ํ๋ผ๋ฏธํฐ ๋์ ์ ํตํด ์๋ฎฌ๋ ์ด์
์ ํ๋๋ฅผ ๊ฐ์ ํ๋ค.
Achievement
- ๊ณ ์ ์ฃผํ ๋ฅ๋ ฅ: ANYmal์ด ์ด์ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ๋น ๋ฅธ ์๋๋ก ์์ ์ ์ผ๋ก ์ฃผํํ ์ ์๊ฒ ๋จ
- ์ ๋ฐํ ์๋ ์ ์ด: ๊ณ ์์ค์ ์ ์ฒด ์๋ ๋ช
๋ น์ ์ ํํ๊ณ ์๋์ง ํจ์จ์ ์ผ๋ก ์ถ์
- ๋ํ ๋ณต๊ตฌ: ๋ณต์กํ ์์ธ์์๋ ๋ํ๋ก๋ถํฐ ํ๋ณตํ๋ ๋ฅ๋ ฅ ํ๋
- ์๋ํ๋ ํ์ต: ์์์
ํ๋ ์ต์ํ๋ก ์๋ก์ด ๋ก๋ด์ด๋ ๊ณผ์ ์ ๋น ๋ฅธ ์ ์ ๊ฐ๋ฅ
How
- PPO (Proximal Policy Optimization) ๋๋ ์ ์ฌํ actor-critic reinforcement learning ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ ๊ฒฝ๋ง ์ ์ฑ
ํ์ต
- Randomized dynamics parameters (์ง๋, ๋ง์ฐฐ, damping, actuator response ๋ฑ)๋ฅผ ํฌํจํ domain randomization ์ ์ฉ
- Reference state initialization randomization์ผ๋ก ๋ค์ํ ์ด๊ธฐ ์ํ์ ๋ํ ๊ฐ๊ฑด์ฑ ํ๋ณด
- Action delay์ observation noise randomization์ผ๋ก ํ์ค์ ์ง์ฐ๊ณผ ๋
ธ์ด์ฆ์ ๋์
- ์ค์ ๋ก๋ด ํ๋์จ์ด์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ธก์ ํ์ฌ ์๋ฎฌ๋ ์ดํฐ์ ๋ฐ์
- ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์์ ๋ฆฌ์๋ ํจ์ ์ค๊ณ๋ก ์ํ๋ ๋์ ์ ๋
Originality
- ์ฌ์กฑ ๋ก๋ด์ ๋์ ์ด๋ ๊ธฐ์ ํ์ต์ ๋ํ ํฌ๊ด์ ์ธ domain randomization ํ๋ ์์ํฌ ์ ์
- Reality gap์ ๊ทน๋ณตํ๊ธฐ ์ํ ์ฒด๊ณ์ ์ธ ์๋ฎฌ๋ ์ด์
ํ๋ผ๋ฏธํฐ ๋์ ๊ณผ randomization ์ ๋ต์ ์กฐํฉ
- ์ค์ ์์ค ๋ก๋ด(ANYmal)์ ๋์์ผ๋ก ํ reinforcement learning ์ ์ฉ์ ์ฑ๊ณต์ ์ฌ๋ก ์ ์
- Modular design์ ๋จ์ ์ ๊ทน๋ณตํ๋ end-to-end ํ์ต ๋ฐฉ์์ ํจ๊ณผ ์ค์ฆ
Limitation & Further Study
- ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ด ์๋ฒฝํ๊ฒ ํ์ค์ ๋ชจ์ฌํ์ง ๋ชปํ๋ฏ๋ก ์ผ๋ถ ๋ชจ์
์ ๋ฏธ์ธํ ๋ถ์์ฐ์ค๋ฌ์ ๊ฐ๋ฅ์ฑ
- Domain randomization์ ๊ณผ๋ํ ์ ์ฉ์ผ๋ก ์๋ฎฌ๋ ์ด์
์์์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ (trade-off)
- ANYmal ํน์ ๋ก๋ด์ ๋ํ ์ ์ฑ
์ผ๋ก, ๋ค๋ฅธ ํ๋์จ์ด ํ๋ซํผ์ผ๋ก์ ์ผ๋ฐํ ๊ฒ์ฆ ํ์
- ํ์ต ๊ณผ์ ์์ ๋ก๋ด ์์ ์ํ์ ์์ ํ ์ ๊ฑฐํ์ง ๋ชปํจ
- ํ์ ์ฐ๊ตฌ: ๋ ๋ค์ํ ์งํ๊ณผ ๋ณต์กํ ํ๊ฒฝ์์์ ์ฑ๋ฅ ํ๊ฐ, multi-task ํ์ต์ ํตํ ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฐ์ , ๋ ํจ์จ์ ์ธ domain randomization ์ ๋ต ๊ฐ๋ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ฌ์กฑ ๋ก๋ด์ ๋์ ์ ์ด์ reinforcement learning๊ณผ domain randomization์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ์๋ฎฌ๋ ์ด์
-ํ์ค ์ ์ด ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ์ผ๋ฉฐ, ์ค์ ๊ณ ๊ธ ๋ก๋ด ํ๋ซํผ์์ ์ด์ ์ ๋ฌ์ฑํ์ง ๋ชปํ ์์ค์ ์ด๋ ๊ธฐ์ ์ ๊ตฌํํจ์ผ๋ก์จ ๋ก๋ด ์ ์ด ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์