Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents
์ ์: Zihao Wang, Shaofei Cai, Guanzhou Chen, Anji Liu, Xiaojian Ma, Yitao Liang | ๋ ์ง: 2023-02-03 | URL: https://arxiv.org/abs/2302.01560 📄 PDF
Essence
Figure 2: Overview of our proposed interactive planner architecture.
์คํ์๋ ํ๊ฒฝ(์: Minecraft)์์ ์ฅ๊ธฐ ํ์คํฌ๋ฅผ ์ํํ๋ ๋ฉํฐํ์คํฌ ์์ด์ ํธ๋ฅผ ์ํด, LLM ๊ธฐ๋ฐ์ ๋ํํ ๊ณํ ๋ฐฉ์ DEPS(Describe, Explain, Plan and Select)๋ฅผ ์ ์ํ์ฌ ๋ณต์กํ ์์กด์ฑ๊ณผ ์ํ ์์กด์ ์คํ ๊ฐ๋ฅ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
Motivation
- Known: LLM ๊ธฐ๋ฐ ํ๋๋๋ ์ฅ๊ธฐ ํ์คํฌ๋ฅผ ์๋ธ๊ณจ ์ํ์ค๋ก ๋ถํดํ์ฌ ์คํํ ์ ์์ง๋ง, ์คํ์๋ ํ๊ฒฝ์์๋ ๋ณต์กํ ์๋ธํ์คํฌ ์์กด์ฑ๊ณผ ํ์ฌ ์์ด์ ํธ ์ํ๋ฅผ ๊ณ ๋ คํ์ง ๋ชปํด ์คํจ์จ์ด ๋๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ affordance ํจ์๋ scene descriptor๋ฅผ ํตํด ํ๊ฒฝ ํผ๋๋ฐฑ์ ์ ๊ณตํ์ง๋ง ์คํ์๋ ํ๊ฒฝ์์ ์ฌ์ ํ ๋์ ์คํจ์จ์ ๋ณด์ด๋ฉฐ, ๋ณ๋ ฌ ์๋ธ๊ณจ์ ์์ ๊ฒฐ์ ์ ๋ฌ์ฑ ๋์ด๋๋ฅผ ๊ณ ๋ คํ์ง ๋ชปํ๋ค.
- Why: ๋ฉํฐํ์คํฌ ์์ด์ ํธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ AGI ๊ฐ๋ฐ์ ํต์ฌ ๋ง์ผ์คํค์ด๋ฉฐ, ์คํ์๋์์์ ๊ณํ ์ ๋ขฐ์ฑ ํฅ์์ ํ์ค์ ๋ก๋ด๊ณตํ ์์ฉ์ ํ์์ ์ด๋ค.
- Approach: LLM์ ๊ณํ ์์ฑ ํ ์คํจ ์ Description(ํํฉ ์์ฝ), Explanation(์ค๋ฅ ์์น ํ์
), Plan(์ฌ๊ณํ) ๊ณผ์ ์ ๋ฐ๋ณตํ๊ณ , ํ์ต ๊ฐ๋ฅํ Selector ๋ชจ๋๋ก ๋๋ฌ ๊ฐ๋ฅ์ฑ์ ๊ธฐ๋ฐ์ผ๋ก ๋ณ๋ ฌ ์๋ธ๊ณจ์ ์์ ์ง์ ํ๋ค.
Achievement
Figure 1: Planning success rates plummet in open worlds due to new challenges.
- Zero-shot Minecraft ๋ฉํฐํ์คํฌ ์ฑ๋ฅ: 71๊ฐ ์ด์์ Minecraft ํ์คํฌ๋ฅผ ์์ ์ ์ผ๋ก ์๋ฃํ๋ ์ต์ด์ zero-shot ๊ธฐ๋ฐ ๋ฉํฐํ์คํฌ ์์ด์ ํธ ๋ฌ์ฑ
- ์ฑ๋ฅ ํฅ์: ๋์ผํ ์ด๊ธฐ ์ํ์ goal-conditioned ์ปจํธ๋กค๋ฌ์์ ๊ธฐ์กด ์ธ์ด ํ๋๋ ๋๋น ์ฝ 2๋ฐฐ ์ฑ๊ณต๋ฅ ํฅ์
- ๋๋ฉ์ธ ์ผ๋ฐํ: ALFWorld์ tabletop manipulation ๋ฑ ๋น๊ฐ๋ฐฉํ ๋ก๋ด๊ณตํ ๋๋ฉ์ธ์์ 50% ์ด์์ ์๋์ ์ฑ๋ฅ ๊ฐ์ ๋ฌ์ฑ
- ObtainDiamond ๋์ ๊ณผ์ : ๊ธฐ์กด ๊ณํ ๊ธฐ๋ฐ ์์ด์ ํธ ์ค ์ฒ์์ผ๋ก challenging ObtainDiamond ํ์คํฌ ์๋ฃ
How
Figure 2: Overview of our proposed interactive planner architecture.
- Descriptor ๋ชจ๋(VLM ๊ธฐ๋ฐ)์ด controller ์คํจ ์ ํ์ฌ ์ํ๋ฅผ ์์ฐ์ด๋ก ์์ฝํ์ฌ LLM์ ํผ๋๋ฐฑ ์ ๊ณต
- Explainer(LLM*)๊ฐ ์ด์ ๊ณํ์ ์ค๋ฅ๋ฅผ ์๋ณํ๊ณ ์คํจ ์์ธ์ ์ค๋ช
- (Re-)Planner๊ฐ Descriptor์ Explainer์ ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ๊ณํ์ ๋ฐ๋ณต์ ์ผ๋ก ์ ์
- Goal Selector๊ฐ ๋ณ๋ ฌ ํ๋ณด ์๋ธ๊ณจ๋ค์ ์๋ฃ ์์ ์คํ
์๋ฅผ ๋ฐํ์ผ๋ก ๊ฐ ์๋ธ๊ณจ์ ์ ๊ทผ ๊ฐ๋ฅ์ฑ ์์๋ฅผ ๋งค๊ธฐ๊ณ ์ต์ ์์ ๊ฒฐ์
- ๋จ์ผ ์ปจํธ๋กค๋ฌ(goal-conditioned policy)๊ฐ ์ ํ๋ ์๋ธ๊ณจ์ ์์ฐจ ์คํ
- ํ๊ฒฝ์ผ๋ก๋ถํฐ ๊ด์ธก์ ๋ฐ์ ๋ค์ ์ฌ์ดํด์ ์
๋ ฅ์ผ๋ก ํ์ฉํ๋ ํ์ ๋ฃจํ ๊ตฌ์กฐ
Originality
- ๊ธฐ์กด LLM ๊ธฐ๋ฐ ํ๋๋์ ๋จ๋ฐฉํฅ ์์ฑ ๋ฐฉ์์์ ๋ฒ์ด๋ Description-Explanation-Planning์ ๋ํํ 3๋จ๊ณ ํผ๋๋ฐฑ ๋ฃจํ ๋์
- ํ์ต ๊ฐ๋ฅํ Selector ๋ชจ๋๋ก ์ํ ์์กด์ ํ์คํฌ ์คํ ๊ฐ๋ฅ์ฑ ๋ฌธ์ ๋ฅผ ์ฒ์์ผ๋ก ๋ช
์์ ์ผ๋ก ํด๊ฒฐ
- ์คํ์๋(Minecraft) ํ๊ฒฝ์์์ ๋ฉํฐํ์คํฌ ๊ณํ ๋ฌธ์ ์ ๋ ๊ฐ์ง ํต์ฌ ๋์ (๋ณต์กํ ์์กด์ฑ, ์ํ ์์กด์ ์คํ ๊ฐ๋ฅ์ฑ)์ ์ฒด๊ณ์ ์ผ๋ก ์๋ณํ๊ณ ๋ถ๋ฆฌ๋ ๋ฉ์ปค๋์ฆ์ผ๋ก ๋์
- HPM(Historical Planning Memory)๊ณผ ๊ฐ์ ๋ณด์กฐ ๋ฉ์ปค๋์ฆ์ ํตํด ๊ธด ์คํ ์งํ์์์ ๊ณํ ์ผ๊ด์ฑ ์ ์ง
Limitation & Further Study
- Selector ๋ชจ๋์ ํ์ต์ ํ์ํ ๋ ์ด๋ธ ๋ฐ์ดํฐ ์์ง ๊ณผ์ ๊ณผ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋ํ ์์ธ ๋ถ์ ๋ถ์กฑ
- VLM ๊ธฐ๋ฐ Descriptor์ ๊ณ์ฐ ๋น์ฉ๊ณผ ์ค์๊ฐ ์๋ต์ฑ์ ๋ํ ํ๊ฐ ๋ฏธํก
- ์คํ์๋ ํ๊ฒฝ ์ผ๋ฐํ: Minecraft ์ค์ฌ ์คํ์ผ๋ก ๋ค๋ฅธ ์คํ์๋ ๊ฒ์์ด๋ ํ๊ฒฝ์ผ๋ก์ ์ ์ด ๊ฐ๋ฅ์ฑ ๋ถ๋ช
ํ
- ์ธ์ปจํ
์คํธ ํ์ต ๋ฐฉ์์ ํ๋กฌํํธ ๋์์ธ ๋ฏผ๊ฐ๋์ ์ต์ ํ๋กฌํํธ ๊ตฌ์ฑ์ ๋ํ ์ฌ์ธต ๋ถ์ ๋ถ์ฌ
- Selector ๋ชจ๋์ด ์๋ฃ ์คํ
์์ธก์๋ง ์์กดํ๋ฉฐ ์๋ธํ์คํฌ ์คํจ ํ๋ฅ ์ด๋ ์์ ์๋น ๋ฑ ๋ค๋ฅธ ์์๋ฅผ ๊ณ ๋ คํ์ง ๋ชปํจ
- ํ์ ์ฐ๊ตฌ: ๋ ๊ฒฝ๋์ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ DEPS ์ ์์ฑ ํ๊ตฌ, ๋ฉํฐ์์ด์ ํธ ํ๋ ฅ ํ๊ฒฝ์ผ๋ก์ ํ์ฅ, ๋ฐ ์จ๋ผ์ธ ๋ฌ๋์ผ๋ก Selector ๋์ ๊ฐ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์คํ์๋ ๋ฉํฐํ์คํฌ ๊ณํ์ ํต์ฌ ๋์ ์ ๋ช
ํํ ์๋ณํ๊ณ LLM ๊ธฐ๋ฐ์ ๋ํํ ๊ณํ ํ๋ ์์ํฌ๋ก ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, Minecraft์์์ ํ๊ธฐ์ ์ฑ๊ณผ์ ๋๋ฉ์ธ ๊ฐ ์ผ๋ฐํ ๋ฅ๋ ฅ์ผ๋ก ๊ตฌ์ฒดํ๋ ์ฐ๊ตฌ์ด๋ค. ๋
์ฐฝ์ ์ธ 3๋จ๊ณ ํผ๋๋ฐฑ ๋ฃจํ์ ์ํ ์์กด์ ์คํ ๊ฐ๋ฅ์ฑ ์ฒ๋ฆฌ๋ LLM ๊ธฐ๋ฐ ์์ด์ ํธ ์ค๊ณ์ ์ค์ํ ํจํด์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์