Hierarchical visuomotor control of humanoids
์ ์: Josh Merel, Arun Ahuja, Vu Pham, Saran Tunyasuvunakool, Siqi Liu, Dhruva Tirumala, Nicolas Heess, Greg Wayne | ๋ ์ง: 2018-11-23 | URL: https://arxiv.org/abs/1811.09656 📄 PDF
Essence
Figure 4: Schematic of the architecture: a high-level controller (HL) selects among multiple low-
์ธ๊ฐํ ๋ก๋ด์ ๊ณ ์ฐจ์ ์๊ฐ-์ด๋ ์ ์ด๋ฅผ ์ํด ์ ์์ค ๋ชจํฐ ์ ์ด๊ธฐ์ ๊ณ ์์ค ์์
์กฐ์ ๊ธฐ๋ฅผ ๊ณ์ธต์ ์ผ๋ก ๊ตฌ์ฑํ๋ ์ํคํ
์ฒ๋ฅผ ์ ์ํ๋ค. Motion capture ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋ ์ ์์ค sub-policy๋ค์ ๊ณ ์์ค controller๊ฐ ์๊ฐ ์ ๋ณด์ ๊ธฐ๋ฐํด ๋์ ์ผ๋ก ์ ํํ์ฌ ๋ณต์กํ humanoid ์ ์ด๋ฅผ ์ํํ๋ค.
Motivation
- Known: RL์ ์ด์ฉํ ๊ณ ์ฐจ์ ์๊ฐ ๊ธฐ๋ฐ ์ ์ฑ
ํ์ต๊ณผ ๊ณ DoF ๋ฐ๋ ์ ์ด ๊ธฐ์ ์ด ๊ฐ๊ฐ ๋ฐ์ ํ์ผ๋, ์๊ฐ ์
๋ ฅ๊ณผ ๊ณ DoF ์ถ๋ ฅ์ ๋์์ ์ฒ๋ฆฌํ๋ ํตํฉ๋ visuomotor ์ ์ด๋ ์์ง ๋ฏธํกํ๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๋จ์ ์ ์์ค ์ ์ด๋ ๋จํธ์ ์ธ ์๊ฐ-์ด๋ ์ฐ๊ฒฐ์ ์ง์คํ์ผ๋ฉฐ, ๊ณ ๋ณต์ก๋์ humanoid๋ฅผ ์๊ฐ ํผ๋๋ฐฑ์ผ๋ก ์ค์๊ฐ ์ ์ดํ๋ฉด์ ๋ค์ํ ์์
์ ์ํํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: Humanoid ๋ก๋ด์ ์์จ์ ํ๋ ์์ฑ์ ๋ก๋ณดํฑ์ค, ์ ๋๋ฉ์ด์
, ๋์ ๊ฒฝ๊ณผํ ๋ฑ ๋ค๋ถ์ผ์ ์ค์ํ๋ฉฐ, ๊ณ์ธต์ ์ ์ด ๊ตฌ์กฐ๋ ๊ณตํ์ ๋ณต์ก์ฑ ๊ฐ์์ ์๋ฌผํ์ ํ๋น์ฑ์ ๋์์ ์ ๊ณตํ๋ค.
- Approach: Motion capture์์ ์ถ์ถํ ์๊ฐ-์ธ๋ฑ์ฑ๋ ์ถ์ ์ ์ฑ
๋ค์ ์ ์์ค motor skill๋ก ์ฌ์ ํ์ตํ๊ณ , ์๊ฐ๊ณผ ๊ธฐ์ต์ ๊ฐ์ง ๊ณ ์์ค controller๊ฐ sparse ์์
๋ณด์์ ์ต๋ํํ๋๋ก ํ์ตํ์ฌ sub-policy๋ค์ ์ ํ-์ํ์ฑํ๋ค.
Achievement
Figure 2: Training settings for explicit training of transition-capable controllers. Panel A depicts a
- Motion capture ๊ธฐ๋ฐ ์ ์์ค ์ ์ด๊ธฐ: ์๋์ง ํจ์์ RL ๊ธฐ๋ฐ imitation learning์ ๊ฒฐํฉํ์ฌ 2-6์ด์ ๋จ์ ๋ชจ์
์ ๊ฐ๊ฑดํ๊ฒ ์ถ์ ํ๋ policy 56๊ฐ ์์ฑ
- ๊ณ์ธต์ ์ํคํ
์ฒ: ๊ณ ์์ค controller๊ฐ egocentric ์๊ฐ๊ณผ proprioception์ ์
๋ ฅ์ผ๋ก ์ ์์ค sub-policy ์ ํ์ ํ์ตํ์ฌ ๋ค์ํ ์์
ํด๊ฒฐ
- ์๊ฐ-์ด๋ ํตํฉ: ๋ถ์์ ํ egocentric RGB ์นด๋ฉ๋ผ ์
๋ ฅ์ ์ฒ๋ฆฌํ๋ฉด์ ํ๊ฒฝ ๋ด ์ด๋์ ์ํํ๋ integrated visuomotor ์ ์ด ๋ฌ์ฑ
- ๋ค์ค ์ ํ ์ ๋ต: cold-switching, smooth-blending, direct-parameter-modulation ๋ฑ ์ ๊ณ ์์ค ์ธํฐํ์ด์ค ๋ฐฉ์ ๋น๊ต ๋ถ์
How
Figure 1:
- Motion capture ํด๋ฆฝ์์ reference trajectory ์ถ์ถ ํ, ์์น ์ ์ด๋ 56-DoF humanoid์์ joint angle ์ถ์ ์ค์ฐจ๋ฅผ ์ต์ํํ๋ ์๋์ง ํจ์ (Eq. 1) ์ค๊ณ
- Supervised learning์ผ๋ก pose ์์ธก ์ฌ์ ํ์ต ํ, distributed actor-critic RL๋ก policy ฯฮธ(a|s, t) ์ต์ ํํ์ฌ ๊ฐ๊ฑดํ ์ถ์ ์คํ
- High-level controller๋ฅผ POMDP๋ก ๋ชจ๋ธ๋งํ์ฌ sparse task reward์ ๊ธฐ๋ฐํ sub-policy ์ ํ ํ์ต
- Proprioceptive features (๊ด์ ๊ฐ, ์๋, end-effector ๋ฒกํฐ, ์ค๋ ฅ์ผ์ ๋ฑ)์ egocentric vision์ ์
๋ ฅ์ผ๋ก ์์ฉ
- Cold-switching, smooth-blending, direct-parameter-modulation ๋ฑ ๋ค์ํ ์ ๊ณ ์์ค ์ธํฐํ์ด์ค ๋ฐฉ์ ์คํ์ ๋น๊ต
Originality
- Motion capture ๊ธฐ๋ฐ sub-policy ํ์ ์๊ฐ-๊ธฐ๋ฐ ๊ณ ์์ค ์กฐ์ ๊ธฐ์ ํตํฉํ ๊ตฌ์ฒด์ ๊ตฌํ: ๊ธฐ์กด ์ด๋ก ์ ๋
ผ์๋ฅผ ์ค์ ๊ณ ๋ณต์ก๋ humanoid์ ์ ์ฉ
- Neuroscience์ ์ฒ์๋ฐ์ฌ ๋ฐ ๊ธฐ์ ํต ์ด๋ ์ ์ด ๊ฐ๋
์ control fragments์ ์ต์
ํ๋ ์์ํฌ๋ก ํ์ํํ์ฌ scalableํ๊ฒ ๊ตฌํ
- Egocentric vision ๊ธฐ๋ฐ task-directed exploration๋ก ๊ณ ์์ค ์ ์ด ํ์ต: ์ด์ control fragments ์ฐ๊ตฌ๋ค์ด ์๊ฐ ์
๋ ฅ์ ํ์ฉํ์ง ๋ชปํ๋ ํ๊ณ ๊ทน๋ณต
- ๋ค์ํ ๊ณ ์์ค-์ ์์ค ์ธํฐํ์ด์ค ์ค๊ณ (cold-switching, smooth-blending) ์ฒด๊ณ์ ๋น๊ต ๋ถ์
Limitation & Further Study
- ์ ์์ค policy๋ค์ ์๊ฐ-์ธ๋ฑ์ฑ๋์ด ๊ณ ์ ๊ธธ์ด ๋ชจ์
์๋ง ์ ํฉํ๋ฉฐ, ๋์ ํ๊ฒฝ ๋ณํ์ ๋ฐ๋ฅธ ์ ์์ ์กฐ์ ๋ฅ๋ ฅ ๋ถ์กฑ
- Motion capture ๋ฐ์ดํฐ ์์กด์ฑ: ์๋ก์ด ์ด๋ ์์ ์์ฑ ์ ์ถ๊ฐ mocap ์ทจ๋ ํ์
- Sparse task reward๋ง ์ฌ์ฉํ์ฌ ๊ณ ์์ค ํ์ต ํจ์จ์ฑ์ด ๋ฎ์ ์ ์์ผ๋ฉฐ, reward shaping์ ํ์์ฑ ๊ฒํ ํ์
- ํ์ ์ฐ๊ตฌ: (1) ์ฐ์์ ๋์ ์์ฑ์ ์ํ ์กฐ๊ฑด๋ถ ์์ฑ ๋ชจ๋ธ ํ์ฉ, (2) domain adaptation์ ํตํ ์ค์ ๋ก๋ด ์ ์ฉ, (3) ๋ ํฐ sub-policy ํ์ ๋ํ ํ์ฅ์ฑ ๊ฒ์ฆ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Motion capture ๊ธฐ๋ฐ ์ ์์ค ์ ์ด์ ์๊ฐ-๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ ๊ณ ์์ค ์กฐ์ ์ ๊ฒฐํฉํ์ฌ ๊ณ ๋ณต์ก๋ humanoid์ integrated visuomotor ์ ์ด๋ฅผ ๋ฌ์ฑํ ์ฐ์ํ ์ฐ๊ตฌ๋ก, ์ ๊ฒฝ๊ณผํ์ ์๊ฐ๊ณผ ์ค์ ๊ตฌํ์ ๊ท ํ์ด ์ ๋ง์ผ๋ฉฐ ICLR ๋ฐํ์ ์ ํฉํ ์์ค์ ๊ธฐ์ฌ๋ฅผ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์