Towards Diverse Behaviors: A Benchmark for Imitation Learning with Human Demonstrations
์ ์: Xiaogang Jia, Denis Blessing, Xinkai Jiang, Moritz Reuss, Atalay Donat, Rudolf Lioutikov, Gerhard Neumann | ๋ ์ง: 2024-02-22 | URL: https://arxiv.org/abs/2402.14606 📄 PDF
Essence
Figure 3: D3IL Visualizations. This figure provides an overview of various tasks and behaviors
์ด ๋
ผ๋ฌธ์ ์ธ๊ฐ์ ํ๋ ๋ค์์ฑ์ ํ์ตํ ์ ์๋ imitation learning ์๊ณ ๋ฆฌ์ฆ์ ํ๊ฐํ๊ธฐ ์ํด D3IL์ด๋ผ๋ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
๊ณผ ํ๊ฒฝ์ ์ ์ํ๊ณ , ๋ค์ค ๋ชจ๋ ํ๋์ ๋ค์์ฑ์ ์ ๋ํํ๋ ๋ฉํธ๋ฆญ์ ๋์
ํ๋ค.
Motivation
- Known: Imitation learning์ ์ธ๊ฐ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ก๋ด์๊ฒ ๋ณต์กํ ์์
์ ํ์ต์ํค๋ ๊ฐ๋ ฅํ ๋ฐฉ๋ฒ์ด์ง๋ง, ์ต๊ทผ ๋ค์ํ ํ๋์ ์บก์ฒํ๋ ค๋ ๋
ธ๋ ฅ๋ค์ด ํฉ์ฑ ๋ฐ์ดํฐ์
์ด๋ ์ ํ๋ ๋ค์์ฑ์ ๋ฐ์ดํฐ์์๋ง ํ
์คํธ๋์ด ์๋ค.
- Gap: ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ค(D4RL, Robomimic, Block-Push ๋ฑ)์ ๋ค์ํ ์ธ๊ฐ ํ๋์ ํฌํจํ๋ฉด์๋ closed-loop feedback์ ์๊ตฌํ๋ ๋ณตํฉ์ ์ธ ํ๊ฒฝ์ด ๋ถ์กฑํ๋ฉฐ, ํ๋ ๋ค์์ฑ์ ์ ๋์ ์ผ๋ก ์ธก์ ํ๋ ๋ฉํธ๋ฆญ์ด ์๋ค.
- Why: ๋ก๋ด์ด ์ธ๊ฐ์ ๋ค์ํ ๋ฌธ์ ํด๊ฒฐ ๋ฐฉ์์ ํ์ตํ ์ ์๋๋ก ํ๊ฐํ๋ ๊ฒ์ ์ค์ ์์ฉ์์์ ์ ์์ฑ๊ณผ ๊ฐ๊ฑด์ฑ์ ๋์ด๊ธฐ ์ํด ์ค์ํ๋ฉฐ, ๋ฏธ๋์ imitation learning ์๊ณ ๋ฆฌ์ฆ ์ค๊ณ์ ํ์์ ์ธ ๊ธฐ์ค์ ์ ๊ณตํ๋ค.
- Approach: ๋ค์ค ์๋ธํ์คํฌ, ๋ค์ค ๊ฐ์ฒด ์กฐ์, closed-loop feedback์ด ํ์ํ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ๋ค์ ์ค๊ณํ๊ณ , behavior entropy ๋ฉํธ๋ฆญ์ผ๋ก ํ๋ ๋ค์์ฑ์ ์ ๋ํํ ํ ์ต์ imitation learning ๋ฐฉ๋ฒ๋ค์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ค.
Achievement
Figure 3: D3IL Visualizations. This figure provides an overview of various tasks and behaviors
- D3IL ๋ฒค์น๋งํฌ ์ ์: ์ธ๊ฐ์ ๋ค์ํ ํ๋ ์์ฐ์ ํฌํจํ๋ฉฐ multiple sub-tasks, multiple objects, closed-loop feedback ์๊ตฌ์ฌํญ์ ๋ชจ๋ ๋ง์กฑํ๋ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ ๋ฐ ๋ฐ์ดํฐ์
๊ตฌ์ถ
- ํ๋ ๋ค์์ฑ ์ ๋ํ ๋ฉํธ๋ฆญ: behavior entropy๋ฅผ ํตํด ํ์ต๋ ์ ์ฑ
์ด ๋ค์ค ๋ชจ๋ ํ๋ ๋ถํฌ๋ฅผ ์ผ๋ง๋ ์ ์บก์ฒํ๋์ง ๊ฐ๊ด์ ์ผ๋ก ์ธก์ ํ ์ ์๋ ๋ฐฉ๋ฒ ์ ์
- ํฌ๊ด์ ๋ฒค์น๋งํน: MLPs, transformers, clustering, VAEs, IBC, diffusion ๋ฑ ๋ค์ํ ์ํคํ
์ฒ์ ๋ฐฉ๋ฒ๋ก ์ D3IL์์ ํ๊ฐํ์ฌ ๊ฐ ๋ฐฉ๋ฒ์ ๊ฐ์ ๊ณผ ์ฝ์ ๋ถ์
- ์ค์ฆ์ ์ธ์ฌ์ดํธ: state vs. image observations, ์์ ๋ฐ์ดํฐ์
์์์ ์ฑ๋ฅ, ํ์ดํผํ๋ผ๋ฏธํฐ ํจ๊ณผ ๋ฑ ์ค๋ฌด์ ์ผ๋ก ์ค์ํ ๊ฒฐ๊ณผ ์ ์
How
- Behavior descriptor ฮฒ๋ฅผ task-specificํ๊ฒ ์ ์ํ์ฌ discrete behavior level์์์ multimodality ํ๊ฐ
- Behavior entropy H(ฯ(ฮฒ)) = -ฮฃ ฯ(ฮฒ) log|B| ฯ(ฮฒ) ๋ฉํธ๋ฆญ์ผ๋ก ์ ์ฑ
์ ํ๋ ๋ค์์ฑ ์ ๋ํ
- ๊ฐ behavior descriptor๋ง๋ค ๋๋ต ๋๋ฑํ ์์ ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ ์์ง
- ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ํ์ต๋ ์ ์ฑ
์ ์คํํ์ฌ ๋ฌ์ฑํ ํ๋ ๋ถํฌ ฯ(ฮฒ) ๊ณ์ฐ
- ์ฌ๋ฌ backbone ๊ตฌ์กฐ(MLP, Transformer variants)์ multimodality ์บก์ฒ ๋ฐฉ์(clustering, VAE, IBC, diffusion) ์กฐํฉ ํ๊ฐ
- Proprioceptive state์ image observations ์์ชฝ ์
๋ ฅ์ ๋ํ ์ฑ๋ฅ ๋น๊ต ๋ถ์
Originality
- ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ํ๊ณ๋ฅผ ๋ช
ํํ ์๋ณํ๊ณ ์ด๋ฅผ ๋ชจ๋ ํด๊ฒฐํ๋ ํตํฉ์ ์ธ ๋ฒค์น๋งํฌ ํ๊ฒฝ ์ค๊ณ (Table 1์ ๋น๊ต ๋ถ์)
- State-level multimodality๋ฅผ ์ง์ ์ธก์ ํ ์ ์๋ ํ์ค์ ์ ์ฝ์ ๊ทน๋ณตํ๊ธฐ ์ํด behavior-level descriptor ๊ธฐ๋ฐ์ ์๋ก์ด ์ ๋ํ ์ ๊ทผ๋ฒ ์ ์
- ๋ค์ํ SOTA ๋ฐฉ๋ฒ๋ค์ ๋ํ ๊ด๋ฒ์ํ ablation study๋ก architecture, ์๊ณ ๋ฆฌ์ฆ, ์
๋ ฅ ํํ์ ์ํฅ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์
Limitation & Further Study
- Behavior descriptor ฮฒ์ ์ ์๊ฐ task-specificํ๋ฏ๋ก ์๋ก์ด ํ๊ฒฝ๋ง๋ค ์๋์ผ๋ก ์ ์ํด์ผ ํ๋ ํ์ฅ์ฑ ์ ์ฝ
- ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ๋ง ์ ๊ณต๋๋ฏ๋ก ์ค์ ๋ก๋ด์์์ ์ฑ๋ฅ ๊ฒ์ฆ ๋ถ์ฌ (sim-to-real gap ๋ฏธ๋ค๋ฃธ)
- ๋ค์์ฑ ๋ฉํธ๋ฆญ์ด behavior entropy์๋ง ์ด์ ์ ๋ง์ถ๊ณ ์์ด ๋ค๋ฅธ ํํ์ ๋ค์์ฑ(์: ๊ถค์ ๋ค์์ฑ)์ ๋ฏธํฌํจ
- ํ์ ์ฐ๊ตฌ๋ก self-supervised learning์ ํตํ ์๋ behavior descriptor ํ์ต, ์ค์ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ๊ฒ์ฆ, ๋ ์ ๊ตํ ๋ค์์ฑ ๋ฉํธ๋ฆญ ๊ฐ๋ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ imitation learning์ ์ค์ํ ๊ณผ์ ์ธ ๋ค์ํ ์ธ๊ฐ ํ๋ ํ์ต์ ํ๊ฐํ๊ธฐ ์ํ ํฌ๊ด์ ์ด๊ณ ์ ์ค๊ณ๋ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์ค์ฉ์ ์ธ ์ ๋ํ ๋ฉํธ๋ฆญ๊ณผ ๊ด๋ฒ์ํ ์ค์ฆ ํ๊ฐ๋ฅผ ํตํด ํฅํ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ์ ๋ช
ํํ ๊ธฐ์ค์ ์ ๊ณตํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์