MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception
์ ์: Yiran Qin, Enshen Zhou, Qichang Liu, Zhenfei Yin, Lu Sheng, Ruimao Zhang, Yu Qiao, Jing Shao | ๋ ์ง: 2023-12-12 | URL: https://arxiv.org/abs/2312.07472 📄 PDF
Essence
Figure 2. Overview of module interaction in MP5. After receiving the task instruction, MP5 first utilizes Parser to gene
MP5๋ Minecraft์์ ์ฅ๊ธฐ-์งํ์ ๊ฐ๋ฐฉํ ํ์คํฌ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด MLLMs ๊ธฐ๋ฐ์ ๋ค์ค๋ชจ๋ embodied ์์คํ
์ผ๋ก, active perception scheme์ ํตํด ํ๋ก์ธ์ค ์์กด์ฑ๊ณผ ์ปจํ
์คํธ ์์กด์ฑ์ ๋ชจ๋ ์ฒ๋ฆฌํ๋ค.
Motivation
- Known: ์ต๊ทผ LLMs๋ ์ฅ๊ธฐ-์งํ์ ํ์คํฌ๋ฅผ sub-objectives๋ก ๋ถํดํ๋ ๋ฐ ์ฑ๊ณตํ์ผ๋, ๊ธฐ์กด ์ ๊ทผ๋ฒ๋ค์ ์ ํํ ์ฅ๋ฉด ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ํ๋ฉฐ ์ปจํ
์คํธ ์์กด์ ์คํ์ ์ทจ์ฝํ๋ค.
- Gap: embodied ์์ด์ ํธ๊ฐ ๊ฐ๋ฐฉํ perception, ์ํฉ ์ธ์ ๊ณํ, ๊ทธ๋ฆฌ๊ณ ๋ค์ค ๋ชจ๋์ ํตํฉ ์ค์ผ์ค๋ง์ ๋์์ ์ํํ ์ ์๋ ์์คํ
์ค๊ณ๊ฐ ๋ถ์กฑํ๋ค.
- Why: ์ค์ embodied ํ๊ฒฝ์์ ์ ํํ ์ฅ๋ฉด ์ ๋ณด ์์ด๋ ์ฅ๊ธฐ-์งํ์ ๊ฐ๋ฐฉํ ํ์คํฌ๋ฅผ ํด๊ฒฐํ ์ ์๋ robust ์์ด์ ํธ ๊ฐ๋ฐ์ด embodied AI์ ํต์ฌ ๋ชฉํ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
- Approach: MP5๋ Parser, Percipient, Planner, Performer, Patroller 5๊ฐ ๋ชจ๋์ ์ค๊ณํ๊ณ , Percipient์ Patroller ๊ฐ์ ๋ค์ค-๋ผ์ด๋ active perception์ ํตํด ์ํฉ-์ธ์์ ๊ณํ ๋ฐ ์คํ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Achievement
Figure 1. The process of finishing the task โkill a pig with a stone sward during the daytime near the water with grass
- ํ๋ก์ธ์ค ์์กด ํ์คํฌ ์ฑ๊ณต๋ฅ : diamond-level ๋์ ์์ 22% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ์ปจํ
์คํธ ์์กด ํ์คํฌ ์ฑ๊ณต๋ฅ : 4-6๊ฐ์ ์ฃผ์ ํญ๋ชฉ์ ์ธ์ํด์ผ ํ๋ ๋ณต์กํ ์ฅ๋ฉด ์ดํด ํ์คํฌ์์ 91% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ๊ฐ๋ฐฉํ ํ์คํฌ ํด๊ฒฐ: ์์ ํ ์๋ก์ด ๊ฐ๋ฐฉํ ํ์คํฌ์ ๋ํ ์ฐ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ์์ฐ
- MineLLM ๊ฐ๋ฐ: Minecraft ํนํ multimodal LLM ๋์
์ผ๋ก perception ์ ํ๋ ํฅ์
How
Figure 2. Overview of module interaction in MP5. After receiving the task instruction, MP5 first utilizes Parser to gene
- Parser ๋ชจ๋: LoRA-augmented LLM์ผ๋ก ์ฅ๊ธฐ ํ์คํฌ๋ฅผ ์์ฐจ์ sub-objectives ๋ชฉ๋ก์ผ๋ก ๋ถํด
- Percipient ๋ชจ๋: LoRA-enabled MineLLM์ผ๋ก ๊ด์ฐฐ๋ ์ด๋ฏธ์ง์ ๋ํ ๋ค์ํ ์ง๋ฌธ์ ๋ต๋ณ
- Planner ๋ชจ๋: external Memory๋ฅผ ๊ฐ์ถ LLM์ผ๋ก sub-objective์ action sequence ์ค๊ณ ๋ฐ refinement
- Performer ๋ชจ๋: action sequence๋ฅผ ํ๊ฒฝ์์ ์คํํ๋ฉฐ Patroller์ ๋น๋ฒํ ์ํธ์์ฉ
- Patroller ๋ชจ๋: Percipient, Planner, Performer์ ์๋ต์ ๊ฒ์ฆํ๊ณ active perception์ ์กฐ์จํ๋ ๊ฒ์ฌ์ ์ญํ
- Active Perception Scheme: Patroller๊ฐ Planner์ Performer์ ์ฟผ๋ฆฌ์ ๋ฐ๋ผ Percipient์ ๋ค์ค-๋ผ์ด๋ ์ํธ์์ฉํ์ฌ context-aware ์ ๋ณด ์ถ์ถ
Originality
- ๊ธฐ์กด์ all-seeing ๊ฐ์ ์ ์ ๊ฑฐํ๊ณ ์ค์ embodied perception์ ์ ํ์ฑ๊ณผ ๋ชฉ์ -์งํฅ์ฑ์ ๋ฐ์ํ active perception scheme ๋์
- ๋จ์ hierarchical decomposition์ ๋์ด context-aware execution์ ์ํ Patroller์ ๊ฒ์ฆ ๋ฉ์ปค๋์ฆ ์ค๊ณ
- Minecraft ํนํ MineLLM ๊ฐ๋ฐ๋ก ์ผ๋ฐ MLLMs์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ ์
- 5๊ฐ ๋ชจ๋์ ํตํฉ ์ธํฐํ์ด์ค์ multi-round active perception์ ํตํ ์์คํ
์ ํ์
Limitation & Further Study
- 22% ํ๋ก์ธ์ค ์์กด ํ์คํฌ ์ฑ๊ณต๋ฅ ์ ์ฌ์ ํ ๋ฎ์ผ๋ฉฐ, ๋ ๋ณต์กํ multi-step ์ถ๋ก ์ด ํ์ํ ์์ญ ๊ฐ์ ํ์
- Minecraft๋ผ๋ ์ ํ๋ ํ๊ฒฝ์์์ ๊ฒ์ฆ์ผ๋ก, ์ค์ ๋ก๋ด์ด๋ ํ์ค ํ๊ฒฝ์ผ๋ก์ ์ ์ด ๊ฐ๋ฅ์ฑ ๊ฒํ ํ์
- MineLLM์ ํ์ต ๋ฐ์ดํฐ ๊ท๋ชจ, ์ผ๋ฐํ ๋ฅ๋ ฅ, ๊ทธ๋ฆฌ๊ณ ๋ค๋ฅธ domains๋ก์ ์ ์ฉ์ฑ์ ๋ํ ์์ธ ๋ถ์ ๋ถ์กฑ
- Active perception์ computational overhead์ latency์ ๋ํ ๋ถ์ ๋ฐ ์ต์ ํ ๋ฐฉํฅ ์ ์ ํ์
- ํ์ ์ฐ๊ตฌ๋ก real-world embodied agents์์ ์ ์ฉ, ๋ ํจ์จ์ ์ธ perception ์ค์ผ์ค๋ง, ๊ทธ๋ฆฌ๊ณ multi-agent ์๋๋ฆฌ์ค ํ์ฅ ๊ณ ๋ ค
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: MP5๋ active perception scheme์ ํตํด process-dependent์ context-dependent ํ์คํฌ๋ฅผ ํตํฉ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ์ฐฝ์์ ์ธ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ฉฐ, MLLMs ๊ธฐ๋ฐ embodied AI์ ์ค์ง์ ๋ฐ์ ์ ๋ณด์ฌ์ค๋ค. ๋ค๋ง ์ ๋์ ์ฑ๋ฅ ์์น์ ์ค์ ํ๊ฒฝ ์ ์ด ๊ฐ๋ฅ์ฑ์ ๋ํ ์ถ๊ฐ ๊ฒ์ฆ์ด ์๊ตฌ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์