MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge
์ ์: Linxi Fan, Guanzhi Wang, Yunfan Jiang, Ajay Mandlekar, Yuncong Yang, Haoyi Zhu, Andrew Tang, De-An Huang, Yuke Zhu, Anima Anandkumar | ๋ ์ง: 2022-06-17 | URL: https://arxiv.org/abs/2206.08853 📄 PDF
Essence
Figure 1: MINEDOJO is a novel framework for developing open-ended, generally capable agents
MineDojo๋ Minecraft ๊ฒ์์ ๊ธฐ๋ฐ์ผ๋ก ์์ฒ ๊ฐ์ ๊ฐ๋ฐฉํ ์์
, ์ธํฐ๋ท ๊ท๋ชจ์ ๋ฉํฐ๋ชจ๋ฌ ์ง์๋ฒ ์ด์ค(YouTube ์์, Wiki, Reddit), ๊ทธ๋ฆฌ๊ณ ์ฌ์ ํ์ต๋ ๋น๋์ค-์ธ์ด ๋ชจ๋ธ์ ๋ณด์ํจ์๋ก ํ์ฉํ๋ ์์ด์ ํธ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ํตํฉํ์ฌ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ถ embodied agent๋ฅผ ๊ฐ๋ฐํ๋ ํ๋ ์์ํฌ์ด๋ค.
Motivation
- Known: Atari, Go ๊ฐ์ ์ ๋ฌธ ์์ญ์์ ์์จ ์์ด์ ํธ๊ฐ ๋์ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ์ง๋ง, ์ด๋ค์ ๊ณ ๋ฆฝ๋ ํ๊ฒฝ์์ ์ ํ๋ ์๋ ์ค๊ณ ๋ชฉํ๋ก ํ์ตํ์ฌ ๊ด๋ฒ์ํ ์์
์ผ๋ฐํ์ ์คํจํ๋ค.
- Gap: ๊ธฐ์กด ์์ด์ ํธ๋ (1) ๋ค์ํ ๊ฐ๋ฐฉํ ์์
์ ์ง์ํ๋ ํ๊ฒฝ, (2) ๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ์ฌ์ ์ง์, (3) ์ ์ฐํ๊ณ ํ์ฅ ๊ฐ๋ฅํ ์์ด์ ํธ ์ํคํ
์ฒ ์ค ํ๋ ์ด์์ด ๋ถ์กฑํ์ฌ ์ผ๋ฐํ ๊ฐ๋ฅํ ์์ด์ ํธ ๊ฐ๋ฐ์ด ์ ํ๋์ด ์๋ค.
- Why: ์ธ๊ฐ์ฒ๋ผ ์ง์์ ์ผ๋ก ํ์ตํ๊ณ ์ ์ํ ์ ์๋ ์ผ๋ฐํ๋ embodied agent๋ AI ๋ถ์ผ์ ์ฅ๊ธฐ์ ๋ชฉํ์ด๋ฉฐ, ์ด๋ ๋ค์ํ ์ค์ ์์ฉ(๋ก๋ด๊ณตํ, ๊ฒ์ AI ๋ฑ)์ ํ์์ ์ด๋ค.
- Approach: MineDojo๋ ๊ฐ๋ฐฉํ Minecraft ํ๊ฒฝ์ ์์ฒ ๊ฐ์ ์์ฐ์ด ์์
์ ์ ์ํ๊ณ , 100๋ง ์ด์์ Minecraft ํ๋ ์ด์ด๊ฐ ์์ฑํ 730K+ YouTube ์์, 6K+ Wiki ํ์ด์ง, 340K+ Reddit ํฌ์คํธ๋ฅผ ์์งํ ๋ค, CLIP ์คํ์ผ์ contrastive video-language model (MineClip)์ ์ด์ฉํด ์๋ ๋ณด์ํจ์๋ฅผ ํ์ตํ์ฌ ์์ด์ ํธ๋ฅผ ํ๋ จํ๋ค.
Achievement
Figure 2: Visualization of our agentโs learned behaviors on four selected tasks. Leftmost texts are the
- ์๋ฎฌ๋ ์ด์
ํ๋ซํผ: MineRL Challenge ๋๋น ๋ ์๋ฆฌ ์ ๊ท๋ชจ๋ก ํ๋๋ 1,581๊ฐ์ programmatic ์์
๊ณผ creative ์์
๋ค๋ก ๊ตฌ์ฑ๋ ๋ฒค์น๋งํฌ ์ ๊ณต
- ์ง์๋ฒ ์ด์ค: 730K+ YouTube ์์(์๊ฐ ์ ๋ ฌ ์๋ง ํฌํจ), 6K+ Wiki ํ์ด์ง, 340K+ Reddit ๋ฉํฐ๋ฏธ๋์ด ํฌ์คํธ๋ก ๊ตฌ์ฑ๋ ์ธํฐ๋ท ๊ท๋ชจ ๋ฐ์ดํฐ์
๊ตฌ์ถ
- ํ์ต ์๊ณ ๋ฆฌ์ฆ: ์ฌ์ ํ์ต๋ video-language model์ ๋ณด์ํจ์๋ก ํ์ฉํ์ฌ ์๋ ๋ณด์ ์ค๊ณ ์์ด ์์ฐ์ธ์ด ์์
์ํ ๊ฐ๋ฅ
- ํ๊ฐ ํ๋กํ ์ฝ: YouTube ์์์์ ์ฌ์ ํ์ต๋ ๋๊ท๋ชจ video-language model์ ํ์ฉํ ์๋ ํ๊ฐ ๋ฉํธ๋ฆญ ์ ์(Inception score, FID score์์ ์๊ฐ)
- ์ฑ๋ฅ: 12๊ฐ ์คํ ์์
์ ๋๋ค์๋ฅผ ํด๊ฒฐํ์ผ๋ฉฐ, ์๋ ์ค๊ณ ๋ณด์ ๋๋น ์ต๋ 73% ์ฑ๊ณต๋ฅ ๊ฐ์ ๋ฌ์ฑ
How
Figure 4: Algorithm design. MINECLIP is a contrastive video-language model pre-trained on
- Minecraft์ three worlds (Overworld, Nether, End)๋ฅผ ๋ชจ๋ ์ง์ํ๋๋ก MineRL ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ดํฐ ํ์ฅ
- Programmatic ์์
(์๋ ๊ฒ์ฆ ๊ฐ๋ฅ)๊ณผ Creative ์์
(์๋ ๊ฒ์ฆ ๋ถ๊ฐ๋ฅ)์ ๋ ๋ฒ์ฃผ๋ก ์์
์ ์
- GPT-3๋ฅผ ํ์ฉํ์ฌ YouTube ํํ ๋ฆฌ์ผ์์ ์ฑ๊ตดํ ์์ด๋์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฐฝ์์ ์์
์ ์ ์๋ํ
- 730K+ Minecraft YouTube ์์๊ณผ ์๊ฐ ์ ๋ ฌ ์๋ง์ ์์งํ์ฌ MineClip (contrastive video-language model) ํ๋ จ
- MineClip์ learned correlation score๋ฅผ ๊ฐ๋ฐฉ์ดํ(open-vocabulary) ๋ฉํฐํ์คํฌ ๋ณด์ํจ์๋ก ํ์ฉํ์ฌ RL ํ๋ จ
- ์์ฐ์ธ์ด ์์
์ง์ ์ ๋ฐ๋ผ ์์ด์ ํธ๊ฐ ์กฐ๊ฑด๋ถ๋ก ํ๋ํ๋ unified observation/action space ์ค๊ณ
- Human scoring๊ณผ ๋ณด์์ ์ฑ์ง์ learned evaluation metric์ ์ ์ํ์ฌ creative ์์
ํ๊ฐ
Originality
- ๊ฐ๋ฐฉํ ํ๊ฒฝ๊ณผ ๊ท๋ชจ: Minecraft์ procedural generation์ ํ์ฉํ์ฌ ๊ธฐ์กด ๋ฒค์น๋งํฌ(MineRL, 161๊ฐ)๋ณด๋ค ๋ ์๋ฆฌ ์ ๋ง์ ๊ฐ๋ฐฉํ ์์
๊ตฌ์ฑ
- ์ธํฐ๋ท ๊ท๋ชจ ๋ฐ์ดํฐ ์ฒด๊ณ์ ๊ตฌ์ถ: Minecraft ์ปค๋ฎค๋ํฐ์ ์ง๋จ ์ง์์ ๊ตฌ์กฐํํ์ฌ ๋ค์ค ์์ค(YouTube, Wiki, Reddit) ํตํฉ ์ง์๋ฒ ์ด์ค ๊ตฌ์ฑ
- Video-language ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ณด์ํ์ต: CLIP-style contrastive learning์ ์์-ํ
์คํธ ์ ๋ ฌ์ ํ์ฉํ์ฌ ๋ฐ์ง ๋ณด์ ์ค๊ณ ์์ด ๊ฐ๋ฐฉ์ดํ ๋ณด์ํจ์ ํ์ต
- ์๋ ํ๊ฐ ํ๋กํ ์ฝ: ์์ฑํ AI(์ด๋ฏธ์ง ํ์ง ํ๊ฐ ๋ฉํธ๋ฆญ ์๊ฐ) ํ๊ฐ ๋ฐฉ์์ embodied agent ํ๊ฐ์ ์ ์ฉํ์ฌ human evaluation์ ๋น์ฉ ๋ฌธ์ ํด๊ฒฐ
- Unified agent architecture: ๋ชจ๋ ์์
์ ๋์ผํ observation/action space์ natural language conditioning์ ์ ์ฉํ์ฌ Transformer pre-training ํจ๋ฌ๋ค์ ํ์ฉ ๊ฐ๋ฅ ์ค๊ณ
Limitation & Further Study
- Learned evaluation metric์ด human judgment์์ ํฉ์๋๊ฐ ๊ฒ์ฆ๋์์ง๋ง, ์ค์ creative ์์
์ ๋ณต์กํ ์ฑ๊ณต ๊ธฐ์ค์ ์๋ฒฝํ ํฌ์ฐฉํ์ง ๋ชปํ ๊ฐ๋ฅ์ฑ
- ํ์ฌ ์์ด์ ํธ๋ 12๊ฐ ์์
์ ๋ํด ํ๊ฐ๋์์ผ๋ฏ๋ก, ๋ ๊ด๋ฒ์ํ ์์
๋ฒ์์์์ ์ผ๋ฐํ ์ฑ๋ฅ ๊ฒ์ฆ ํ์
- Minecraft ๋๋ฉ์ธ์ ํนํ๋ ํ๋ ์์ํฌ๋ก, ๋ค๋ฅธ embodied environment(๋ก๋ด๊ณตํ, ๋ค๋ฅธ ๊ฒ์)๋ก์ ์ ์ด ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒํ
- MineClip ๋ชจ๋ธ์ ํ์ต์ ์ฌ์ฉ๋ YouTube ๋ฐ์ดํฐ์ ํธํฅ(ํน์ ํ๋ ์ด ์คํ์ผ, ์ธ์ด ํธํฅ) ์ํฅ ๋ถ์ ๋ถ์ฌ
- ๊ธด ์งํ(long-horizon) creative ์์
์ ๋ํ ๊ตฌ์ฒด์ ์ฑ๊ณต ์ฌ๋ก์ ์คํจ ์ฌ๋ก ๋ถ์ ํ์
- ํ์์ฐ๊ตฌ: ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ ํตํฉ(์ฌ์ด๋, 3D ๊ธฐํํ), ์ฐ์ ํ์ต(continual learning) ๋ฅ๋ ฅ ๊ฐํ, ๋ค๋ฅธ ๋๋ฉ์ธ ์ ์ ๊ฐ๋ฅ์ฑ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: MineDojo๋ ๊ฐ๋ฐฉํ ํ๊ฒฝ, ์ธํฐ๋ท ๊ท๋ชจ ์ง์๋ฒ ์ด์ค, ๋๊ท๋ชจ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ํตํฉํ์ฌ ์ผ๋ฐํ๋ embodied agent ์ฐ๊ตฌ์ ์์ฑ๋ ๋์ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ฉฐ, ์ ์ฒด ์ฝ๋์ ๋ฐ์ดํฐ๋ฅผ ๊ณต๊ฐํจ์ผ๋ก์จ ์ปค๋ฎค๋ํฐ ๊ธฐ์ฌ๋ ์ฐ์ํ๋ค. ๋ค๋ง ๋ค๋ฅธ ๋๋ฉ์ธ ์ ์ด ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ๊ณผ ๋ ๋ณต์กํ ์์
์์์ ์ฑ๋ฅ ํ์ฅ์ด ํฅํ ๊ณผ์ ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์