JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models
์ ์: Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang | ๋ ์ง: 2023-11-10 | URL: https://arxiv.org/abs/2311.05997 📄 PDF
Essence
JARVIS-1์ multimodal language model๊ณผ multimodal memory๋ฅผ ๊ฒฐํฉํ์ฌ Minecraft์ ์คํ์๋ ํ๊ฒฝ์์ 200๊ฐ ์ด์์ ๋ค์ํ ์์
์ ์ํํ ์ ์๋ ๋ฉํฐํ์คํฌ ์์ด์ ํธ์ด๋ค. ํนํ ์ฅ๊ธฐ ์์
(ObtainDiamondPickaxe)์์ ๊ธฐ์กด ์ต์ ์์ด์ ํธ ๋๋น 5๋ฐฐ ์ฐ์ํ ์ ๋ขฐ์ฑ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: LLM ๊ธฐ๋ฐ ๊ณํ ์์ด์ ํธ๋ ๋ก๋ด๊ณตํ ๋ฐ Minecraft ๊ฐ์ ์คํ์๋ ํ๊ฒฝ์์ ์ผ๋ถ ์ฅ๊ธฐ ์์
์ ์ฒ๋ฆฌํ ์ ์๋ค. ๊ทธ๋ฌ๋ ๋ฌดํ์ ๊ฐ๊น์ด ์คํ์๋ ์์
์ฒ๋ฆฌ์ ๊ฒ์ ์งํ ์ค ์ฑ๋ฅ ์ ์ง์ ํฅ์ ๋ฅ๋ ฅ์ ๋ถ์กฑํ๋ค.
- Gap: ๊ธฐ์กด LLM ๊ธฐ๋ฐ ์์ด์ ํธ๋ multimodal ๊ฐ๊ฐ ์
๋ ฅ(์ด๋ฏธ์ง, ๋น๋์ค) ์ธ์ ๋ถ๊ฐ, ์ฅ๊ธฐ ๊ณํ ์ผ๊ด์ฑ ๋ถ์กฑ, lifelong learning์ ํตํ ์์จ์ ์งํ ๋ฅ๋ ฅ ๋ถ์ฌ๋ผ๋ ์ธ ๊ฐ์ง ์ฃผ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ง ๋ชปํ๋ค.
- Why: ์คํ์๋ ํ๊ฒฝ์์ human-like planning๊ณผ embodied control์ ๋ฌ์ฑํ๋ ๊ฒ์ ์ผ๋ฐํ๋ ์์ด์ ํธ ๊ฐ๋ฐ์ ํต์ฌ ์ด์ ํ์ด๋ฉฐ, ์ด๋ฅผ ํตํด ๋์ฑ ๊ธฐ๋ฅ์ ์ธ ์์ฑํ AI ์์คํ
์ ๊ตฌ์ถํ ์ ์๋ค.
- Approach: MineCLIP๊ณผ GPT๋ฅผ ๊ฒฐํฉํ multimodal language model์ ๊ธฐ๋ฐ์ผ๋ก ์๊ฐ ๊ด์ฐฐ๊ณผ ํ
์คํธ ์ง์๋ฅผ ๊ณํ์ผ๋ก ๋ณํํ๊ณ , multimodal memory๋ฅผ ํตํด ๊ณผ๊ฑฐ ๊ฒฝํ์ ์ ์ฅ ๋ฐ retrievalํ์ฌ in-context learning์ผ๋ก ๊ณํ์ ๊ฐํํ๋ค. Self-instruct ๋ฉ์ปค๋์ฆ์ผ๋ก ์์จ์ ํ์๊ณผ ๊ฒฝํ ์ถ์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Achievement
- 200๊ฐ ์ด์ ๋ค์ํ ์์
์ํ: ๋จ๊ธฐ ์์
(๋๋ฌด ์๋ฅด๊ธฐ)๋ถํฐ ์ฅ๊ธฐ ์์
(๋ค์ด์๋ชฌ๋ ๊ณก๊ดญ์ด ํ๋)๊น์ง ์ธ๊ฐ๊ณผ ์ ์ฌํ ์ ์ด/๊ด์ฐฐ ๊ณต๊ฐ์ผ๋ก ์ฒ๋ฆฌ
- 5๋ฐฐ ํฅ์๋ ์ ๋ขฐ์ฑ: ObtainDiamondPickaxe ์์
์์ ๊ธฐ์กด VPT(2.5%) ๋๋น 12.5% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ๊ทผ์ฒ ์๋ฒฝํ ๋จ๊ธฐ ์์
์ฑ๋ฅ: ๋จ๊ธฐ ์์
์์ ๊ฑฐ์ ์๋ฒฝํ ์ฑ๋ฅ ์์ค ๋๋ฌ
- ์ ์ง์ ์ฑ๋ฅ ํฅ์: ์ถ๊ฐ ํ์ต ์์ด ๊ฒ์ ์งํ ์๊ฐ ์ฆ๊ฐ์ ๋ฐ๋ผ ์ฅ๊ธฐ ์์
์ฑ๋ฅ์ด ์ง์์ ์ผ๋ก ๊ฐ์
- ์์จ์ ๊ฐ์ ๋ฅ๋ ฅ: ์์ฒด ์์ฑ ์์
(self-instruct)์ ํตํ ํ์๊ณผ multimodal memory ํ์ฉ์ผ๋ก lifelong learning ๋ฌ์ฑ
How
Figure 3 | Architecture of JARVIS-1 and its self-improving mechanism. (a) JARVIS-1 comprises a memory-
- MineCLIP(multimodal foundation model)๊ณผ GPT(LLM)๋ฅผ ์ฒด์ธ์ผ๋ก ์ฐ๊ฒฐํ์ฌ multimodal language model (MLM) ๊ตฌ์ฑ
- ์๊ฐ ๊ด์ฐฐ๊ณผ ํ์ฌ ์ํฉ์ ๊ธฐ๋ฐ์ผ๋ก ํ situation-aware planning์ผ๋ก ๋์ ํ๊ฒฝ์ ์ ์
- ๊ณผ๊ฑฐ ์ฑ๊ณต ๊ฒฝํ๊ณผ ๊ณํ์ ์ ์ฅํ๋ multimodal memory๋ก in-context learning ์ํ
- Interactive planning์ผ๋ก ๊ณํ ์คํ ์ค ํ๊ฒฝ ํผ๋๋ฐฑ์ ๋ฐ์ ์ค์๊ฐ ๊ณํ ์์
- Self-instruct ๋ฉ์ปค๋์ฆ์ผ๋ก ์์ด์ ํธ๊ฐ ์์จ์ ์ผ๋ก ์๋ก์ด ์์
์ ์์ฑํ๊ณ ํ์ ์ํ
- Goal-conditioned controller๋ก MLM์ด ์์ฑํ ๊ณ ์์ค ๊ณํ์ ์ ์์ค ๋ชจํฐ ์ ์ด๋ก ๋ณํ
Originality
- MLM ๊ธฐ๋ฐ ์ค๊ณ: ๋จ์ LLM์ด ์๋ MineCLIP+GPT ๊ฒฐํฉ์ผ๋ก multimodal perception ๊ฐ๋ฅํ๊ฒ ํ ํ์ ์ ์ ๊ทผ
- Multimodal memory ๊ธฐ๋ฐ in-context learning: ๋ชจ๋ธ ์
๋ฐ์ดํธ ์์ด ๊ณผ๊ฑฐ ๊ฒฝํ์ context์ ํฌํจํ์ฌ ๊ณํ ๊ฐํํ๋ novel ๋ฐฉ์
- Self-instruct์ lifelong learning ํตํฉ: ์์ด์ ํธ๊ฐ ์์จ์ ์ผ๋ก ์์
์ ์์ฑํ๊ณ ๊ฒฝํ์ ์ถ์ ํ๋ฉด์ ์งํํ๋ ๋ฉ์ปค๋์ฆ
- Situation-aware interactive planning: ์ฅ๊ธฐ ์์
์ค ํ๊ฒฝ ์ํฉ ๋ณํ(๋ฎ๋ฐค, ๋๊ตฌ ์์)์ ๋์ํ๋ ๋์ ๊ณํ ์๋ฆฝ
- ์คํ์๋ ํ๊ฒฝ์ ๋ฌดํ ์์
์ฒ๋ฆฌ: 200๊ฐ ์ด์์ ๊ด๋ฒ์ ์์
์ํ์ผ๋ก ๊ธฐ์กด ํน์ ์์
์ค์ฌ์ ์ ์ฝ ๊ทน๋ณต
Limitation & Further Study
- Minecraft ํ๊ฒฝ ํนํ: ๋ค๋ฅธ ์คํ์๋ ํ๊ฒฝ(๋ก๋ด, ํ์ค ํ๊ฒฝ)์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ์ฅ๊ธฐ ์์
์ฌ์ ํ ๋ฎ์ ์ ๋ ์ฑ๊ณต๋ฅ : 12.5% ์ฑ๊ณต๋ฅ ์ ์๋์ ๊ฐ์ ์ด์ง๋ง ์ค์ ๋ฐฐํฌ์๋ ์ฌ์ ํ ๋ฎ์ ์์ค
- Multimodal memory ํฌ๊ธฐ ๊ด๋ฆฌ: ๊ทน์ฅ๊ธฐ ํ์ต์์ memory ํฌ๊ธฐ ํ๋ ์ retrieval ํจ์จ์ฑ๊ณผ ๊ณ์ฐ ๋น์ฉ ์ฆ๊ฐ ๋ฌธ์ ๋ฏธํด๊ฒฐ
- Self-instruct ํ์ง ๋ณด์ฆ: ์์ด์ ํธ๊ฐ ์์ฑํ๋ ์์
์ด ์ ์๋ฏธํ ํ์์ผ๋ก ์ด์ด์ง๋์ง ์ ๋์ ํ๊ฐ ๋ฏธํก
- Human preference์ ์์ ์ฑ: ์์จ์ ์์
์์ฑ ์ ์ธ๊ฐ์ ์๋์ ์์ ์ ์ฝ์ ๋ณด์ฅํ๋ ๋ฉ์ปค๋์ฆ ๋ถ์ฌ
- ํ์์ฐ๊ตฌ: ๋ค์ํ ๋๋ฉ์ธ์ผ๋ก์ ํ์ฅ, memory ํจ์จํ, ์ ๋ ์ฑ๊ณต๋ฅ ๊ฐ์ , ์ธ๊ฐ alignment ๊ฐํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: JARVIS-1์ multimodal language model๊ณผ multimodal memory๋ฅผ ๊ฒฐํฉํ ํ์ ์ ์ค๊ณ๋ก ์คํ์๋ ์์ด์ ํธ์ ๋ค์ค ๋์ (multimodal perception, ์ฅ๊ธฐ ๊ณํ, lifelong learning)์ ๋์์ ํด๊ฒฐํ ํ๊ธฐ์ ์ฐ๊ตฌ์ด๋ค. Minecraft์์์ 5๋ฐฐ ์ฑ๋ฅ ํฅ์๊ณผ ์์จ์ ๊ฐ์ ๋ฅ๋ ฅ์ ์ผ๋ฐํ๋ embodied AI ๊ฐ๋ฐ์ ์ค์ํ ์ง์ ์ ์๋ฏธํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์