Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance
์ ์: Jesse Zhang, Jiahui Zhang, Karl Pertsch, Ziyi Liu, Xiang Ren, Minsuk Chang, Shao-Hua Sun, Joseph J. Lim | ๋ ์ง: 2023-10-16 | URL: https://arxiv.org/abs/2310.10021 📄 PDF
Essence
Figure 1: BOSS learns to execute a large set of useful, long-horizon skills with minimal supervision
BOSS๋ ๊ธฐ๋ณธ primitive ์คํฌ ์ธํธ๋ก๋ถํฐ LLM์ ์ง๋๋ฅผ ๋ฐ์ ์คํฌ ์ฒด์ด๋์ ํตํด ๋ณต์กํ ์ฅ๊ธฐ ์์
์ ์ํํ ์ ์๋ ์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์๋์ผ๋ก ๊ตฌ์ถํ๋ ๋ฐฉ๋ฒ๋ก ์ด๋ค. ์ต์ํ์ ๊ฐ๋
์ผ๋ก ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ํตํด ์๋ฏธ ์๋ ์คํฌ ์กฐํฉ์ ํ์ตํ๋ค.
Motivation
- Known: ๊ฐํํ์ต์์ ์ฅ๊ธฐ ์์
ํ์ต์ ์ ๋ฌธ๊ฐ ์์ฐ์ด๋ ํ๋ถํ ๋ณด์ ํจ์ ๊ฐ์ ๋ฐ์ง ๊ฐ๋
์ ํ์๋ก ํ๋ค. ์ต๊ทผ LLM ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ์ฌ์ ํ์ต๋ ์คํฌ์ ๋ํด top-down ๊ณํ์ ์ํํ์ง๋ง ํ์๋ฃจํ ์ ์ฑ
ํ์ต์ ํ์ง ์๋๋ค.
- Gap: ๊ธฐ์กด LLM ๊ธฐ๋ฐ ๊ณํ ๋ฐฉ๋ฒ์ ๊ณ ์ ๋ ์ ์์ค ์คํฌ ์ ์ฑ
๋ง ์ฌ์ฉํ๋ฏ๋ก ํ๊ฒฝ ์ฐจ์ด๋ ์คํฌ ์ค๋ฅ ์ถ์ ์ ์ทจ์ฝํ๋ค. ๋ํ ๋ฌด๊ฐ๋
๊ฐํํ์ต์ ์กฐ์ ์์
์ ์ฅ๊ธฐ ์คํฌ ํ์ต์์ ์๋ฏธ ์๋ ํ๋ ๋ฐ๊ฒฌ์ด ์ด๋ ต๋ค.
- Why: ๋ก๋ด์ด ์ต์ ๊ฐ๋
์ผ๋ก ์๋ก์ด ๋ณต์ก ์์
์ ํ์ตํ ์ ์๋ค๋ฉด ๋ก๋ด ํ์ต์ ์ค์ฉ์ฑ๊ณผ ํ์ฅ์ฑ์ด ํฌ๊ฒ ํฅ์๋๋ค. LLM์ ์์ ์ง์์ ํ์ฉํ๋ฉด์๋ ํ๊ฒฝ ์ํธ์์ฉ์ ํตํด robustness๋ฅผ ํ๋ณดํ๋ ๊ฒ์ด ์ค์ํ๋ค.
- Approach: BOSS๋ ๋ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋๋ค: (1) ๊ธฐ๋ณธ primitive ์คํฌ ์ ์ฑ
์ IQL ์คํ๋ผ์ธ ๊ฐํํ์ต์ผ๋ก ์ฌ์ ํ์ต, (2) ์คํฌ ๋ถํธ์คํธ๋ํ ๋จ๊ณ์์ LLM์ด ๊ฐ์ด๋ํ๋ ์๋ฏธ ์๋ ์คํฌ ์ฒด์ธ์ ์ํ๋งํ๊ณ ํ๊ฒฝ ์ํธ์์ฉ์ผ๋ก ํ์ตํ๋ฉด์ ์๋ก์ด ์คํฌ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ถ๊ฐํ๋ค.
Achievement
Figure 1: BOSS learns to execute a large set of useful, long-horizon skills with minimal supervision
- LLM ๊ธฐ๋ฐ ์คํฌ ๋ถํธ์คํธ๋ํ: LLM์ด ์คํ๋ ์คํฌ ์ฒด์ธ์ ๋ณด๊ณ ๋ค์ ์๋ฏธ ์๋ ์คํฌ์ ์ํ๋งํ๋๋ก ๊ฐ์ด๋ํ์ฌ ๋ฌด์์ ํ์๋ณด๋ค ํจ์ฌ ํจ์จ์ ์ธ ์คํฌ ํ์ต ๋ฌ์ฑ
- ์ต์ ๊ฐ๋
ํ์ต: ๊ธฐ๋ณธ primitive ์คํฌ ์ธํธ๋ง์ผ๋ก ์์ํ์ฌ ์ถ๊ฐ ์ธ๊ฐ ๊ฐ๋
์์ด ์๋ฐฑ ๊ฐ์ ์ฅ๊ธฐ ์์
์ํ ๋ฅ๋ ฅ ํ๋ณด
- ํ์๋ฃจํ ์ ์ฑ
ํ์ต: ํ๊ฒฝ ์ํธ์์ฉ์ ํตํ ์ค์ ์ ์ฑ
ํ์ต์ผ๋ก ์คํฌ ์ค๋ฅ ์ถ์ ์ ๋ํ robustness ํฅ์
- ALFRED ๋ฒค์น๋งํฌ ์ฑ๋ฅ: ๊ธฐ์กด ๋ฌด๊ฐ๋
์คํฌ ํ์ต ๋ฐฉ๋ฒ๊ณผ naive ๋ถํธ์คํธ๋ํ ๋๋น ์๋ก์ด ํ๊ฒฝ์ ์ฅ๊ธฐ ์์
zero-shot ์คํ์์ ์ฐ์ํ ์ฑ๋ฅ ์
์ฆ
- ์ค์ ๋ก๋ด ๊ฒ์ฆ: ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ๋ฟ๋ง ์๋๋ผ ์ค์ ๋ก๋ด์์๋ ๋ฐฉ๋ฒ๋ก ์ ํจ๊ณผ์ฑ ํ์ธ
How
Figure 1: BOSS learns to execute a large set of useful, long-horizon skills with minimal supervision
- ์ธ์ด ์กฐ๊ฑด๋ถ ์ ์ฑ
์ฌ์ ํ์ต: ์คํ์ค ๋ณด์ ํจ์์ ์ธ์ด ์ฃผ์์ ํฌํจํ ๋ฐ์ดํฐ์
D_L์ ๋ํด IQL์ ์ฌ์ฉํ์ฌ ฯ(a|s, z) ํํ์ ์ธ์ด ์กฐ๊ฑด๋ถ primitive ์คํฌ ์ ์ฑ
ํ์ต
- ์ด๊ธฐ ์คํฌ ์ํ๋ง: ํ์ฌ ์ํ์์ ์๋ฏธ ์๋ ์ด๊ธฐ ์คํฌ์ ์ ํํ๊ธฐ ์ํด LLM ํ์ฉ (๋
ผ๋ฌธ์์ ๊ตฌ์ฒด์ ๋ฐฉ๋ฒ ๋ช
์ ํ์)
- LLM ๊ธฐ๋ฐ ๋ค์ ์คํฌ ๊ฐ์ด๋: ํ์ฌ๊น์ง ์คํ๋ ์คํฌ ์ฒด์ธ์ ๋ฐํ์ผ๋ก LLM์ด ์๋ฏธ ์๋ ๋ค์ ์คํฌ์ ๋ํ ๋ถํฌ๋ฅผ ์์ธกํ๊ณ ์ํ๋ง
- ์ ์ฑ
์
๋ฐ์ดํธ: ์์ง๋ ์คํฌ ์ฒด์ธ ์คํ ๊ฒฝํ์ ์ฌ์ฉํ์ฌ ์ ์ฑ
๊ณผ critic ํจ์ V(s, z)๋ฅผ ์จ๋ผ์ธ์ผ๋ก ์
๋ฐ์ดํธ (IQL ๊ธฐ๋ฐ)
- ์๋ก์ด ์คํฌ ์ถ๊ฐ: ์ฑ๊ณต์ ์ผ๋ก ์คํ๋ ์คํฌ ์ฒด์ธ์ LLM์ผ๋ก ์์ฝํ์ฌ ์๋ก์ด ์คํฌ๋ก ๋ผ์ด๋ธ๋ฌ๋ฆฌ Z์ ์ถ๊ฐํ๊ณ ๋ฐ๋ณต์ ๋ถํธ์คํธ๋ํ ์ํ
- Zero-shot ์์
์คํ: ๋ถํธ์คํธ๋ํ ์๋ฃ ํ ์๋ก์ด ์์ฐ์ธ์ด ์ง์์ ๋ํด ์กฐ๊ฑด๋ถ ์ ์ฑ
์ผ๋ก ๋ฏธํ์ต ์ฅ๊ธฐ ์์
์คํ
Originality
- LLM ์ง๋ ์คํฌ ๋ถํธ์คํธ๋ํ์ ํ์ : ๊ธฐ์กด LLM ๊ธฐ๋ฐ ๊ณํ์ open-loop ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ ํ๊ฒฝ ์ํธ์์ฉ์ ํตํ ํ์๋ฃจํ ์ ์ฑ
ํ์ต์ ๊ฒฐํฉํ๋ ์๋ก์ด ํจ๋ฌ๋ค์ ์ ์
- ์คํฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๋์ ํ์ฅ: ๋ถํธ์คํธ๋ํ ๊ณผ์ ์์ ์คํฌ ์ฒด์ธ์ ์๋ ์์ฝํ์ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ถ๊ฐํจ์ผ๋ก์จ ์ ์ง์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ์คํฌ ์ฑ์ฅ ๋ฉ์ปค๋์ฆ ๊ตฌํ
- ์ต์ ๊ฐ๋
์กฐ๊ฑด์์์ ์ฅ๊ธฐ ์์
ํ์ต: ๊ธฐ์กด ๋ฌด๊ฐ๋
RL์ ์๋ฏธ ์๋ ํ๋ ๋ฐ๊ฒฌ ๋ฌธ์ ๋ฅผ LLM์ ์์ ์ง์์ผ๋ก ํด๊ฒฐํ๋ ์ค์ฉ์ ์ ๊ทผ
- ์ค์ ๋ก๋ด ์์คํ
์ ์ฐ์์ฑ: ALFRED ์๋ฎฌ๋ ์ด์
์์ ์ค์ ๋ก๋ด์ผ๋ก์ ์ฑ๊ณต์ ์ ์ด ์์ฐ์ผ๋ก ๋ฐฉ๋ฒ๋ก ์ ์ค์ ์ ์ฉ ๊ฐ๋ฅ์ฑ ์ฆ๋ช
Limitation & Further Study
- ๊ธฐ๋ณธ primitive ์คํฌ ์์กด์ฑ: ๋ฐฉ๋ฒ์ ์ฑ๊ณต์ด ์ด๊ธฐ ์ฌ์ ํ์ต๋ ์คํฌ ์ธํธ์ ํ์ง๊ณผ ๋ค์์ฑ์ ํฐ ์ํฅ์ ๋ฐ์. ์ ์ ํ ๊ธฐ๋ณธ ์คํฌ ์์ด๋ ํจ๊ณผ์ ์ธ ๋ถํธ์คํธ๋ํ ์ด๋ ค์
- LLM ์์กด์ฑ ๋ฐ ๋น์ฉ: LLM์ ํตํ ์ง์์ ์ธ ์ฟผ๋ฆฌ๋ก ์ธํ ๊ณ์ฐ ๋น์ฉ ์ฆ๊ฐ ๋ฐ LLM์ ์ฑ๋ฅ ๋ณ๋์ฑ ๋ฌธ์
- ์คํฌ ์์ฝ์ ์๋์ฑ ๋ถ์กฑ: ์คํ๋ ์คํฌ ์ฒด์ธ์ ์๋ก์ด ์คํฌ๋ก ์ ๋ฆฌํ๋ ๊ณผ์ ์ด LLM์ ์์กดํ๋ฏ๋ก ์์ฝ์ ์ ํ์ฑ๊ณผ ์ผ๊ด์ฑ ๋ณด์ฅ ๋ถ์กฑ
- ํ๊ฒฝ ํนํ์ฑ: ALFRED์ ๊ฐ์ ํน์ ๊ฐ์ ํ ํ๊ฒฝ์์ ์ฃผ๋ก ๊ฒ์ฆ๋์์ผ๋ฏ๋ก ๋ค๋ฅธ ๋๋ฉ์ธ (์: ์ผ์ธ ๋ก๋ด, ์ฐ์
์ฉ ์กฐ์)์์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธํ์ธ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ robustํ ์คํฌ ์ฒด์ธ ์์ฝ ๋ฐฉ๋ฒ ๊ฐ๋ฐ, (2) ๋ ํจ์จ์ ์ธ LLM ์ฟผ๋ฆฌ ์ ๋ต ์ฐ๊ตฌ, (3) ๋ค์ํ ๋๋ฉ์ธ์์์ ์ผ๋ฐํ ๊ฒ์ฆ, (4) ๋ถํธ์คํธ๋ํ ์๋ ด์ฑ๊ณผ ์ต์ ์ฑ์ ๋ํ ์ด๋ก ์ ๋ถ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: BOSS๋ LLM์ ์์ ์ง์๊ณผ ๊ฐํํ์ต์ ํ๊ฒฝ ์ํธ์์ฉ์ ์ฐฝ์์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ์ต์ ๊ฐ๋
์ผ๋ก ์ฅ๊ธฐ ๋ณต์ก ์์
์ ํ์ตํ๋ ๋ฌธ์ ์ ์ค์ฉ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ค. ์คํ ๊ฒ์ฆ๊ณผ ์ค์ ๋ก๋ด ์์ฐ์ ํตํด ๋์ ์ ๋ขฐ์ฑ์ ํ๋ณดํ์ผ๋ฉฐ, ๋ก๋ด ํ์ต ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์