Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes
์ ์: Chen Tang, Ben Abbatematteo, Jiaheng Hu, Rohan Chandra, Roberto Martรญn-Martรญn, Peter Stone | ๋ ์ง: 2024-08-07 | URL: https://arxiv.org/abs/2408.03539 📄 PDF
Essence
Figure 1: The four aspects of our taxonomy: (a) Robot competencies learned with DRL;
๋ณธ ๋
ผ๋ฌธ์ ๋ก๋ด ๊ณตํ์์์ ์ค์ ์ฑ๊ณต ์ฌ๋ก๋ค์ ์ค์ฌ์ผ๋ก Deep Reinforcement Learning(DRL)์ ํํฉ์ ์ข
ํฉ์ ์ผ๋ก ์กฐ์ฌํ๋ฉฐ, ๋ก๋ด ์ญ๋, ๋ฌธ์ ๊ณต์ํ, ํด๊ฒฐ ๋ฐฉ๋ฒ, ์ค์ธ๊ณ ์ฑ๊ณต ์์ค์ ๋ค ๊ฐ์ง ์ถ์ผ๋ก ์ด๋ฃจ์ด์ง ์๋ก์ด ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ์ ์ํ๋ค.
Motivation
- Known: RL๊ณผ deep neural networks๋ฅผ ๊ฒฐํฉํ DRL์ board games, video games, healthcare, recommendation systems ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ผ๋, ๋๋ถ๋ถ์ ์ฑ๊ณผ๋ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์๋ง ๋ฌ์ฑ๋์๊ณ ์ค์ ๋ก๋ด ์์คํ
์ ์ ์ฉ ์์๋ ์ํ ํจ์จ์ฑ, ์์ ์ฑ, ์๋ฎฌ๋ ์ด์
๊ณผ ํ์ค์ ๊ดด๋ฆฌ ๋ฑ ๊ทผ๋ณธ์ ์ธ ์ด๋ ค์์ด ์กด์ฌํ๋ค.
- Gap: ๊ธฐ์กด RL ๊ด๋ จ ๋ก๋ด ๊ณตํ ์ค๋ฌธ์ ์ค์ธ๊ณ ์ฑ๊ณต์ ์ด์ ์ ๋ง์ถ์ง ์์์ผ๋ฉฐ, DRL์ด ๋ค์ํ ๋ก๋ด ์์ฉ ๋ถ์ผ์์ ์ด๋ค ์์ค์ ์ฑ์๋๋ฅผ ๋ฌ์ฑํ๋์ง ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๊ณ ๋๋ฉ์ธ ๊ฐ ๊ณตํต ๊ธฐ๋ฒ๊ณผ ๋ฏธ๊ฐ์ฒ ์์ญ์ ์๋ณํ๋ ์ข
ํฉ์ ์ธ ๋ถ์์ด ๋ถ์กฑํ๋ค.
- Why: ๋ก๋ด ๊ณตํ์์ DRL์ ์ค์ ๋ฐฐํฌ ์ฌ๋ก๊ฐ ์ฆ๊ฐํ๊ณ ์์ผ๋ฉฐ, ์ค์ธ๊ณ ํ๊ฒฝ์ ๋ณต์ก์ฑ ์์์ DRL์ ์ ์ฉ ๊ฐ๋ฅ์ฑ๊ณผ ํ๊ณ๋ฅผ ๋ช
ํํ ํ์
ํ๋ ๊ฒ์ด ํฅํ ๋ก๋ด ์์คํ
๊ฐ๋ฐ์ ๋ฐฉํฅ์ ๊ฒฐ์ ํ๋ ๋ฐ ์ค์ํ๊ธฐ ๋๋ฌธ์ด๋ค.
- Approach: ๋ก๋ด ์ญ๋(locomotion, navigation, manipulation, mobile manipulation, multi-robot interaction, human-robot interaction)์ ๋ถ๋ฅํ๊ณ , ๋ฌธ์ ๊ณต์ํ์ ํด๊ฒฐ ๋ฐฉ๋ฒ๋ก ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๋ฉฐ, ์ค์ธ๊ณ ์ฑ๊ณต ์์ค(Level 0-5: ์๋ฎฌ๋ ์ด์
๋งโ์์ฉํ)์ ํ๊ฐํ๋ ์ข
ํฉ ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ๊ตฌ์ถํ์ฌ ํํฉ์ ํ๊ฐํ๋ค.
Achievement
Figure 1: The four aspects of our taxonomy: (a) Robot competencies learned with DRL;
- DRL์ ์ค์ธ๊ณ ์ฑ๊ณต ์ฌ๋ก ๋ฌธ์ํ: ๋๋ก ์ฑํผ์ธ ๋ ์ด์ฑ, ์ฌ์กฑ ๋ก๋ด ๋ณดํ ์ ์ด, ์์จ ์ฃผํ ๋ฑ ์ฃผ์ ์์ฉ ๋ถ์ผ์์ DRL์ ๋ฌ์ฑ ์์ค์ ๊ตฌ์ฒด์ ์ผ๋ก ์ ์
- 4์ถ ๋ถ๋ฅ ์ฒด๊ณ ์ ์: ๋ก๋ด ์ญ๋, ๋ฌธ์ ๊ณต์ํ, ์๋ฃจ์
์ ๊ทผ๋ฒ, ์ค์ธ๊ณ ์ฑ๊ณต ์์ค์ผ๋ก ์ด๋ฃจ์ด์ง ์๋ก์ด ๋ถ๋ฅ๋ฒ์ ํตํด DRL ๋ฌธํ์ ์ฒด๊ณ์ ์ผ๋ก ์กฐ์งํ
- ๋๋ฉ์ธ ๊ฐ ๊ณตํต ๊ธฐ๋ฒ ์๋ณ: ์๋ก ๋ค๋ฅธ ๋ก๋ด ์์ฉ ๋ถ์ผ ๊ฐ์ ๊ธฐ๋ฒ ๊ต์ฐจ ๋ถ์์ ํตํด ์ผ๋ฐ์ ์ผ๋ก ์ ์ฉ ๊ฐ๋ฅํ ๋ฐฉ๋ฒ๋ก ๊ณผ ๋ฏธ๊ฐ์ฒ ์์ญ ํ์
- ํ์ฅ ๋์ ๊ณผ์ ๋ถ์: ์ํ ํจ์จ์ฑ, ์์ ์ฑ, ์๋ฎฌ-ํฌ-๋ฆฌ์ผ ์ ์ด, ์ฅ๊ธฐ ์ํ ์์
ํตํฉ ๋ฑ ์ค์ธ๊ณ ๋ฐฐํฌ์ ์ฃผ์ ์ฅ์ ๋ฌผ ๋ช
์
How
Figure 1: The four aspects of our taxonomy: (a) Robot competencies learned with DRL;
- ๋ก๋ด ์ญ๋์ ๋จ์ผ ๋ก๋ด ์ญ๋(mobility, manipulation)๊ณผ ๋ค์ค ๋ก๋ด ์ํธ์์ฉ์ผ๋ก ๊ณ์ธตํํ๊ณ , mobility๋ฅผ locomotion๊ณผ navigation์ผ๋ก ์ธ๋ถํ
- ๋ฌธ์ ๊ณต์ํ ์ธก๋ฉด์์ RL agent-environment ์ํธ์์ฉ, ํ์ต ํ๊ฒฝ(์๋ฎฌ๋ ์ด์
/์ค์ ), ๋ฐ์ดํฐ ์์ค(experience tuples, offline dataset, expert, learned model) ๊ตฌ๋ถ
- ์๋ฃจ์
์ ๊ทผ๋ฒ์ผ๋ก policy network์ planning-based ๋ฐฉ๋ฒ๋ก ๋น๊ต
- ์ค์ธ๊ณ ์ฑ๊ณต ์์ค์ 6๋จ๊ณ(Level 0: ์๋ฎฌ๋ ์ด์
๊ฒ์ฆ ~ Level 5: ์์ฉํ ์ ํ ๋ฐฐํฌ)๋ก ์ ์ํ์ฌ ์ฑ์๋ ํ๊ฐ
- ๊ฐ ๋ก๋ด ์ญ๋ ์์ญ๋ณ๋ก ์ฃผ์ ๋
ผ๋ฌธ, ๊ธฐ๋ฒ, ์ฑ๊ณต ์ฌ๋ก, ๊ฐ๋ฐฉํ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๊ฒํ
Originality
- ๊ธฐ์กด ์ค๋ฌธ๊ณผ ๋ฌ๋ฆฌ ์ค์ธ๊ณ ์ฑ๊ณต์ ๋ช
์์ ์ผ๋ก ์ด์ ์ ๋ง์ถ๋ฉฐ, ์ค์ ๋ฐฐํฌ ์์ค์ 6๋จ๊ณ๋ก ์ ๋ํํ๋ ํ๊ฐ ์ฒด๊ณ ๋์
- ๋ค์ถ ๋ถ๋ฅ ์ฒด๊ณ(4์ถ)๋ก ๊ธฐ์กด์ ํน์ ์์
์ด๋ ๊ธฐ๋ฒ ์ค์ฌ ๋ถ๋ฅ๋ฅผ ๋์ด ์ ์ฒด ๊ฒฝ๊ด์ ํตํฉ์ ์ผ๋ก ๋ถ์
- ์ต๊ทผ 5๋
๋ฌธํ ์ค์ฌ(DRL์ ์ฃผ์ ์ฑ๊ณผ ์๊ธฐ)์ผ๋ก ํ๋์ ๊ด์ ์์ ํ๋๋ฅผ ์ฌํ๊ฐํ๋ฉฐ, ๋๋ฉ์ธ ๊ฐ ๊ต์ฐจ ๋ถ์์ ํตํด ๊ณตํต ํจํด๊ณผ ๋ฏธ๊ฐ์ฒ ์์ญ ์๋ณ
- ๋ก๋ด ๊ณตํ์์ RL ์ ๋ฌธ๊ฐ๋ฅผ ๋ชจ๋ ๋์์ผ๋ก ํ๋ ์ด์ค ๊ด์ ์ ๋ถ์ ์ ์
Limitation & Further Study
- ์ํ ํจ์จ์ฑ: ์ค์ธ๊ณ ๋ก๋ด์ ์ํธ์์ฉ ๋น์ฉ์ด ๋์ ์ถฉ๋ถํ ํ์ต ๋ฐ์ดํฐ ์์ง์ ์ด๋ ค์์ด ์ฌ์ ํ ๋ฏธํด๊ฒฐ ๊ณผ์
- ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฐญ: ์๋ฒฝํ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
์ ๊ตฌํํ ์ ์์ด sim-to-real transfer์ ์ ๋ขฐ์ฑ์ด ์ ํ์
- ์ฅ๊ธฐ ์ํ ์์
: ๋ณต์กํ ๊ฐ๋ฐฉํ ํ๊ฒฝ์ ์ฅ๊ธฐ ์์
์์๋ฅผ ์ํด ์ฌ๋ฌ ์ญ๋์ ํตํฉํ๋ holistic ์ ๊ทผ๋ฒ์ด ๋ฏธ๊ฐ๋ฐ
- ํ๊ฐ ๋ฐฉ๋ฒ๋ก ํ์คํ ๋ถ์กฑ: ๋ก๋ด ์์คํ
๊ฐ ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํ ๋ฒค์น๋งํฌ ๋ฐ ํ๊ฐ ์ ์ฐจ์ ํ์คํ ํ์
- ํ์ ์ฐ๊ตฌ: ์์ ์ ์ด๊ณ ์ํ ํจ์จ์ ์ธ ์ค์ธ๊ณ RL ํจ๋ฌ๋ค์ ๊ฐ๋ฐ, ๋ค์ํ ๋ก๋ด ์ญ๋์ ๋ฐ๊ฒฌํ๊ณ ํตํฉํ๋ ์์น ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก , ์๊ฒฉํ ๊ฐ๋ฐ ๋ฐ ํ๊ฐ ์ ์ฐจ ์๋ฆฝ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ DRL์ด ๋ก๋ด ๊ณตํ์์ ๋ฌ์ฑํ ์ค์ ์ฑ๊ณต๊ณผ ํ๊ณ๋ฅผ ๋ช
ํํ๊ณ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๋ ํ๋์ ์ค๋ฌธ์ผ๋ก, ๋ค ๊ฐ์ง ์ถ์ ๋ถ๋ฅ ์ฒด๊ณ๋ ํ๋์ ํํฉ์ ์ดํดํ๊ณ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์๋ฆฝํ๋ ๋ฐ ์ ์ฉํ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ค. ํนํ ์ค์ธ๊ณ ๋ฐฐํฌ ์์ค์ ์ ๋ํ๋ ๊ธฐ์กด ์ค๋ฌธ๊ณผ์ ์ฐจ๋ณ์ฑ ์๋ ๊ธฐ์ฌ์ด๋ฉฐ, RL ์ค๋ฌด์์ ๋ก๋ด ๊ณตํ์ ๋ชจ๋์๊ฒ ๊ฐ์น ์๋ ์ฐธ๊ณ ์๋ฃ๊ฐ ๋ ์ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์