MimicPlay: Long-Horizon Imitation Learning by Watching Human Play
์ ์: Chen Wang, Linxi Fan, Jiankai Sun, Ruohan Zhang, Li Fei-Fei, Danfei Xu, Yuke Zhu, Anima Anandkumar | ๋ ์ง: 2023-02-24 | URL: https://arxiv.org/abs/2302.12422 📄 PDF
Essence
Figure 1: Human is able to complete a long-horizon task much faster than a teleoperated robot. This
MimicPlay๋ ์ ๋น์ฉ์ ์ธ๊ฐ ํ๋ ์ด ๋ฐ์ดํฐ์์ ๊ณ ์์ค ๊ณํ์ ํ์ตํ๊ณ ์๋์ ์๊ฒฉ์กฐ์ข
๋ฐ์ดํฐ์์ ์ ์์ค ์ ์ด ์ ์ฑ
์ ํ์ตํ๋ ๊ณ์ธต์ ๋ชจ๋ฐฉ ํ์ต ํ๋ ์์ํฌ๋ก, ์ฅ๊ธฐ ์กฐ์ ์์
์ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋ํญ ํฅ์์ํจ๋ค.
Motivation
- Known: ๋ชจ๋ฐฉ ํ์ต์ ๋ก๋ด ์กฐ์ ๊ธฐ์ ํ์ต์ ์ ๋งํ์ง๋ง ์ฅ๊ธฐ ์์
์ ์ํด ๋ง์ ์์ฐ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ค. ๊ณ์ธต์ ๋ชจ๋ฐฉ ํ์ต๊ณผ ํ๋ ์ด ๋ฐ์ดํฐ ํ์ต์ ์ด๋ฅผ ํด๊ฒฐํ๋ ค๋ ๊ธฐ์กด ๋ฐฉํฅ์ด๋ค.
- Gap: ๊ธฐ์กด ๊ณ์ธต์ ๋ฐฉ๋ฒ๋ค์ ๋ชจ๋ ๋น์ผ ๋ก๋ด ์๊ฒฉ์กฐ์ข
๋ฐ์ดํฐ๋ก ๊ณ ์์ค ๊ณํ๊ณผ ์ ์์ค ์ ์ด๋ฅผ ํ์ตํด์ผ ํ๋ฉฐ, ๋ก๋ด ํ๋ ์ด ๋ฐ์ดํฐ ์์ง๋ 4.5~6์๊ฐ์ผ๋ก ์ฌ์ ํ ๋ง์ ์๊ฐ์ด ์์๋๋ค.
- Why: ์ฅ๊ธฐ ์กฐ์ ์์
ํ์ต์ ๋ก๋ด ์ฐ์
์์ ํ์์ ์ด๊ณ , ๋ฐ์ดํฐ ์์ง ๋น์ฉ ๊ฐ์๋ ์ค์ ๋ฐฐํฌ ๊ฐ๋ฅ์ฑ์ ํฌ๊ฒ ๋์ธ๋ค. ์ธ๊ฐ๊ณผ ๋ก๋ด์ ํํ ์ฐจ์ด์๋ ๋ถ๊ตฌํ๊ณ ์ธ๊ฐ ํ๋ ๋ฐ์ดํฐ์์ ์ ์ฉํ ๊ณํ์ ์ถ์ถํ ์ ์๋ค๋ฉด ํ์ต ํจ์จ์ด ๊ธ๊ฒฉํ ๊ฐ์ ๋๋ค.
- Approach: 3D-์ธ์ latent plan space๋ฅผ ์ค๊ฐ ํํ์ผ๋ก ํ์ฉํ์ฌ ์ธ๊ฐ๊ณผ ๋ก๋ด ๊ฐ์ embodiment gap์ ์ฐ๊ฒฐํ๋ค. ์ธ๊ฐ ํ๋ ์ด ๋ฐ์ดํฐ(10๋ถ)์์ goal-conditioned latent planner๋ฅผ ํ์ตํ๊ณ , ์๋์ ๋ก๋ด ์๊ฒฉ์กฐ์ข
๋ฐ์ดํฐ(30๋ถ ๋ฏธ๋ง)์์ ์ด ๊ณํ์ ๋ฐ๋ฅด๋ ์ ์์ค controller๋ฅผ ํ์ตํ๋ค.
Achievement
Figure 4: Evaluation of multi-task policy
- ๋ฐ์ดํฐ ํจ์จ์ฑ: ์ธ๊ฐ ํ๋ ์ด ๋ฐ์ดํฐ(10๋ถ) + ๋ก๋ด ์์ฐ(30๋ถ ๋ฏธ๋ง)์ผ๋ก ํ์ต ๊ฐ๋ฅํ์ฌ ๊ธฐ์กด 4.5~6์๊ฐ ํ๋ ์ด ๋ฐ์ดํฐ ์์ง ์๊ฐ์ ๋ํญ ๊ฐ์
- ์ฐ์ํ ์ฑ๋ฅ: 14๊ฐ ์ค์ ์ฅ๊ธฐ ์กฐ์ ์์
์์ state-of-the-art ๋ชจ๋ฐฉ ํ์ต ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํ๋ ์์
์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ์ผ๋ฐํ ๋ฅ๋ ฅ: ํ์ต ์ค ๋ณด์ง ๋ชปํ ์๋ก์ด ์์
์ ๋ํ ์ฐ์ํ ์ผ๋ฐํ ์ฑ๋ฅ ๋ฐ ์ธ๋ถ ๋ฐฉํด์ ๋ํ ๊ฐ๊ฑด์ฑ ์
์ฆ
- ๋ค์ค ์ธํฐํ์ด์ค: ์ธ๊ฐ ๋น๋์ค๋ฅผ ๋ก๋ด ์กฐ์ ์์
์ 'ํ๋กฌํํธ'๋ก ์ง์ ์ฌ์ฉ ๊ฐ๋ฅํ ํตํฉ latent plan space ๊ตฌ์ถ
How
Figure 2: Overview of MIMICPLAY. (a) Training Stage 1: using cheap human play data to train a
- Stage 1 - High-level Planner ํ์ต: ์ธ๊ฐ ํ๋ ์ด ๋ฐ์ดํฐ๋ก๋ถํฐ goal image๊ฐ ์ฃผ์ด์ก์ ๋ ๋ฏธ๋ 3D ์ธ๊ฐ ์ ๊ถค์ ์ ์์ธกํ๋ goal-conditioned latent planner๋ฅผ ํ์ต
- Stage 2 - Low-level Controller ํ์ต: ์์ธก๋ latent plan์ ์กฐ๊ฑด์ผ๋ก ํ์ฌ ๋ก๋ด ์ํ ์ ๋ณด๋ฅผ ํตํฉํด ์ต์ข
action์ ์์ฑํ๋ multi-task visuomotor controller๋ฅผ ์๋์ ์๊ฒฉ์กฐ์ข
๋ฐ์ดํฐ๋ก ํ์ต
- 3D ํํ ํ์ฉ: latent plan space๋ฅผ 3D-awareํ๊ฒ ์ค๊ณํ์ฌ embodiment gap์ ์ต์ํํ๊ณ ์ธ๊ฐ๊ณผ ๋ก๋ด ๋ฐ์ดํฐ ๊ฐ ์๋ฏธ๋ก ์ ์ฐ๊ฒฐ ํ๋ณด
- ๋ค์ค ์์
ํ์ต: ๋ค์ํ ์กฐ์ ์์
์ ๋จ์ผ ๋ชจ๋ธ์์ ํ์ตํ์ฌ ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฐํ
Originality
- ๋ฐ์ดํฐ ์์ฒ์ ๋ถ๋ฆฌ: ๊ธฐ์กด ๊ณ์ธต์ ํ์ต์์ ์ฒ์์ผ๋ก ๊ณ ์์ค ๊ณํ๊ณผ ์ ์์ค ์ ์ด๋ฅผ ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ ํ์
(์ธ๊ฐ vs ๋ก๋ด)์ผ๋ก ํ์ตํ๋ ํ์ ์ ํจ๋ฌ๋ค์ ์ ์
- 3D latent plan space: embodiment gap์ ๋ช
์์ ์ผ๋ก ๋ค๋ฃจ๊ธฐ ์ํด 3D-์ธ์ ์ค๊ฐ ํํ ๋์
์ผ๋ก, ์ธ๊ฐ๊ณผ ๋ก๋ด ๊ฐ ์๋ฏธ ์ ๋ฌ ๊ฐ๋ฅํ๊ฒ ํจ
- ์ธ๊ฐ ํ๋ ์ด ๋ฐ์ดํฐ์ ํ์ฉ: ๊ธฐ์กด ๋ก๋ด ํ๋ ์ด ๋ฐ์ดํฐ ์ค์ฌ ์ฐ๊ตฌ์์ ๋ฒ์ด๋ ์ ๋น์ฉ ์ธ๊ฐ ํ๋ ์ด ๋ฐ์ดํฐ์ ๊ฐ์น๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์
์ฆ
- ๋น๋์ค ํ๋กฌํํ
: ํ์ต๋ latent space๋ฅผ ํตํด ์ธ๊ฐ ์์ฐ ๋น๋์ค๋ฅผ ์ง์ ๋ก๋ด ์กฐ์ ์์
์ ์ง๋ น์ผ๋ก ์ฌ์ฉ ๊ฐ๋ฅํ ์๋ก์ด ์ธํฐํ์ด์ค ์ ์
Limitation & Further Study
- embodiment gap์ ๋ถ์์ ํ ํด๊ฒฐ: 3D latent plan์ผ๋ก ์ผ๋ถ ํด์ํ์ง๋ง ์ธ๊ฐ ์๊ณผ ๋ก๋ด ๊ทธ๋ฆฌํผ์ ๊ทผ๋ณธ์ ์ฐจ์ด๋ก ์ธํ ์์ ํ ์ผ๋ฐํ๋ ์ฌ์ ํ ์ด๋ ค์
- ๋ฐ์ดํฐ ์ ํ ํธํฅ: ์ธ๊ฐ์ด ์์ ๋กญ๊ฒ ์์งํ ํ๋ ์ด ๋ฐ์ดํฐ์ ๋์ ๋ฒ์๊ฐ ํน์ ์์
์์ญ์ผ๋ก ํธํฅ๋ ์ ์์
- multi-modal ํ๋ ๋ถํฌ: ๋์ผ goal์ ๋ค์ํ ์ธ๊ฐ ํ๋์ด ์กด์ฌํ ๋ ๋จ์ผ plan์ผ๋ก ์ถฉ๋ถํ์ง ๊ฒ์ฆ ํ์
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ ๊ฐ๋ ฅํ embodiment ๋งตํ ํ์ต ๋ฐฉ๋ฒ ๊ฐ๋ฐ, (2) ๋๋ฉ์ธ ์ ์ ๊ธฐ๋ฒ์ผ๋ก ๋ค์ํ ํ๊ฒฝ ์ผ๋ฐํ ๊ฐ์ , (3) ์ธ๊ฐ ํ๋ ์ด์ ๋ก๋ด ๋ฅ๋ ฅ์ ํ๊ณ๋ฅผ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ ๋ฉ์ปค๋์ฆ ์ถ๊ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: MimicPlay๋ ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ด๋ผ๋ ๋ชจ๋ฐฉ ํ์ต์ ๊ทผ๋ณธ์ ๋ฌธ์ ๋ฅผ ์ฐฝ์์ ์ผ๋ก ํด๊ฒฐํ๋ฉด์ ์ค์ ๋ก๋ด ์์
์์ ์ฐ์ํ ์ฑ๋ฅ์ ์
์ฆํ ์๋ฏธ์๋ ์ฐ๊ตฌ์ด๋ค. ์ธ๊ฐ๊ณผ ๋ก๋ด ๋ฐ์ดํฐ์ ์๋ณด์ ํ์ฉ์ด๋ผ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ๋ก๋ด ํ์ต์ ํ์ฅ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ค๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์