Guiding Pretraining in Reinforcement Learning with Large Language Models
์ ์: Yuqing Du, Olivia Watkins, Zihan Wang, Cรฉdric Colas, Trevor Darrell, Pieter Abbeel, Abhishek Gupta, Jacob Andreas | ๋ ์ง: 2023-02-13 | URL: https://arxiv.org/abs/2302.06692 📄 PDF
Essence
Figure 1: ELLM uses a pretrained large language model
ELLM์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ํ์ฉํ์ฌ RL ์์ด์ ํธ์ ํ์์ ์ธ๊ฐ์ ์์์ ์ง์์ผ๋ก ์๋ดํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ํ์ฌ ์ํ์ ๊ธฐ๋ฐํด LLM์ด ์ ์ํ๋ ๋ชฉํ ๋ฌ์ฑ์ ๋ณด์ํจ์ผ๋ก์จ ์๋ฏธ ์๋ ํ๋ ํ์ต์ ์ ๋ํ๋ค.
Motivation
- Known: RL์ ์กฐ๋ฐํ ๋ณด์ํจ์ ๋ถ์ฌ ์ ์ฑ๋ฅ์ด ์ ํ๋๋ฉฐ, ๋ด์ฌ์ ๋๊ธฐ ํ์(intrinsically motivated exploration)์ ์ ๊ท์ฑ ๊ธฐ๋ฐ ํ์์ผ๋ก ์ด๋ฅผ ์ํํ๋, ๋๊ท๋ชจ ํ๊ฒฝ์์๋ ์์
๊ณผ ๋ฌด๊ดํ ์ ๊ท์ฑ์ ๋น ์ง ์ ์๋ค.
- Gap: ๊ธฐ์กด ๋ด์ฌ์ ๋๊ธฐ ๋ฐฉ๋ฒ๋ค์ ์ ๊ท์ฑ๋ง์ ์ต์ ํํ๋ฏ๋ก ์ธ๊ฐ์๊ฒ ์๋ฏธ ์๋ ํ๋๊ณผ ์ค์ ์
๋ฌด์ ์ ์ฉํ ํ๋ ๊ฐ ์ ๋ ฌ์ด ๋ถ์กฑํ๋ค. ํ
์คํธ ๊ธฐ๋ฐ ์ฌ์ ์ง์์ ํ์ฉํ ์ฒด๊ณ์ ์ธ ํ์ ์ ๋ ๋ฐฉ๋ฒ์ด ํ์ํ๋ค.
- Why: RL์ ์ฌ์ ํ์ต(pretraining) ๋จ๊ณ์์ ์๋ฏธ ์๋ ํ๋์ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์๋ค๋ฉด ๋ค์ด์คํธ๋ฆผ ์์
์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋ ์ ์์ผ๋ฉฐ, ์ด๋ ์ค์ ๋ก๋ด ์ ์ด ๋ฑ ๊ณ ๋น์ฉ ํ๊ฒฝ์์ ํนํ ์ค์ํ๋ค.
- Approach: ELLM์ GPT-3์ ํตํด ์์ด์ ํธ์ ํ์ฌ ์ํ๋ฅผ ๊ธฐ์ ํ ํ๋กฌํํธ๋ก๋ถํฐ ์คํ ๊ฐ๋ฅํ ๋ชฉํ๋ค์ ์ ์๋ฐ๊ณ , SentenceBERT ์๋ฒ ๋ฉ์ ์ฌ์ฉํ์ฌ ์์ด์ ํธ์ ์ค์ ํ๋๊ณผ ์ ์๋ ๋ชฉํ ๊ฐ์ ์ ์ฌ๋๋ฅผ ๋ด์ฌ์ ๋ณด์์ผ๋ก ํ์ฉํ๋ค.
Achievement
Figure 4: Ground truth achievements unlocked per episode
- ์์์ ํ๋ ์ปค๋ฒ๋ฆฌ์ง: ELLM์ผ๋ก ํ์ตํ ์์ด์ ํธ๋ ์ฌ์ ํ์ต ๋จ๊ณ์์ ์ผ๋ฐ์ ์ธ ์์ ํ๋์ ๋ํด ๋ ๋์ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ๋ฌ์ฑํ๋ค
- ๋ค์ด์คํธ๋ฆผ ์ฑ๋ฅ: Crafter ๊ฒ์ ํ๊ฒฝ๊ณผ Housekeep ๋ก๋ด ์๋ฎฌ๋ ์ดํฐ์์ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์
์ ๋ํด ๊ธฐ์กด baseline๊ณผ ๋๋ฑํ๊ฑฐ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค
- ์ธ๊ฐ ์๋ฏธ์ฑ: ํ์๋๋ ํ๋๋ค์ด ๋ฌด์์ ์ ๊ท์ฑ ํ์๊ณผ ๋ฌ๋ฆฌ ์ธ๊ฐ์๊ฒ ์๋ฏธ ์๊ณ ๋ฌธ๋งฅ์ ์ ์ ํ ํน์ง์ ๋ณด์ธ๋ค
- ์ฌํ์ฑ: ์ฝ๋๋ฅผ ๊ณต๊ฐํ์ฌ ๊ฒฐ๊ณผ ์ฌํ์ ์ง์ํ๋ค
How
Figure 2: ELLM uses GPT-3 to suggest adequate exploratory goals and SentenceBERT embeddings to compute the similarity
- LLM ํ๋กฌํํ
: ํ์ฌ ๊ด์ฐฐ์ ์์ฐ์ด๋ก ๋ณํํ ํ
์คํธ ์ค๋ช
์ GPT-3์ ์
๋ ฅํ์ฌ ์ถ์ฒ ๋ชฉํ ๋ฆฌ์คํธ๋ฅผ ์์ฑ
- ์บก์
์์ฑ: ์์ด์ ํธ์ ์ํ-ํ๋-๋ค์์ํ ์ ์ด(transition)๋ฅผ ์์ฐ์ด๋ก ์ค๋ช
ํ๋ ์บก์
์์ฑ (์: 'Chop tree')", '์ ์ฌ๋ ๊ธฐ๋ฐ ๋ณด์: SentenceBERT๋ฅผ ํตํด ์์ฑ๋ ์บก์
๊ณผ LLM ์ ์ ๋ชฉํ๋ค์ ์๋ฒ ๋ฉ์ ๊ณ์ฐํ๊ณ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๋ด์ฌ์ ๋ณด์์ผ๋ก ์ฌ์ฉ
- ๋ชฉํ ์กฐ๊ฑด ์ ์ฑ
: ฯ(a|o, g) ํํ์ ๋ชฉํ ์กฐ๊ฑด ์ ์ฑ
์ ํ์ตํ์ฌ ํ์ฌ ๊ด์ฐฐ๊ณผ ์ํ๋ ๋ชฉํ g์ ๊ธฐ๋ฐํด ํ๋ ์ ํ
- ๋ค์ํ ๋ชฉํ ์ํ๋ง: ๋งค ์ํผ์๋๋ง๋ค LLM์ผ๋ก๋ถํฐ k๊ฐ์ ๋ค์ํ ๋ชฉํ๋ฅผ ์ํ๋งํ์ฌ ํ์ ๋ค์์ฑ ์ ์ง
Originality
- LLM ๊ธฐ๋ฐ ํ์ ๊ตฌ์กฐํ: ๊ธฐ์กด ๋ด์ฌ์ ๋๊ธฐ ๋ฐฉ๋ฒ์ ์ ๊ท์ฑ ์ต์ ํ ๋ฌธ์ ๋ฅผ LLM ์ฌ์ ํ์ต ์ง์์ผ๋ก ํด๊ฒฐํ๋ novelํ ์ ๊ทผ
- ์ฌ์ ํ์ต-๋ค์ด์คํธ๋ฆผ ํ์ดํ๋ผ์ธ: RL ์ฌ์ ํ์ต ๋จ๊ณ์์ LLM์ ์ง์ ํ์ฉํ์ฌ ํจ์จ์ ์ธ ํ๋ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ๋ฌ์ฑํ๋ ๋ฐฉ๋ฒ๋ก
- ์๋ฒ ๋ฉ ๊ธฐ๋ฐ ๋ณด์ ํจ์: ํ
์คํธ ์บก์
๊ณผ LLM ์ ์ ๋ชฉํ ๊ฐ์ ์๋ฏธ์ ์ ์ฌ๋๋ฅผ ๋ณด์์ผ๋ก ์ฌ์ฉํ๋ ์ค๊ณ
- task-agnostic ์ ๊ทผ: ํน์ ์์
์ ๋ณด ์์ด ์ผ๋ฐ์ ์ธ ์์ ์ง์๋ง์ผ๋ก ํ์์ ์ ๋ํ๋ ๋ฒ์ฉ์ฑ
Limitation & Further Study
- LLM ์์กด์ฑ: GPT-3์ SentenceBERT์ ์ฑ๋ฅ์ ์์กดํ๋ฏ๋ก LLM์ ์ค๋ฅ๋ ํธํฅ์ด ์ง์ ์ ํ๋ ์ ์์
- ๊ณ์ฐ ๋น์ฉ: ๋งค ์ํ๋ง๋ค LLM ์ฟผ๋ฆฌ๊ฐ ํ์ํ์ฌ ๊ณ์ฐ ๋น์ฉ์ด ์ฆ๊ฐ
- ํ๊ฐ ํ๊ฒฝ ํ์ : Crafter์ Housekeep ๋ ํ๊ฒฝ์์๋ง ํ๊ฐ๋์ด ๋ค์ํ ๋๋ฉ์ธ์์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ด ๋ฏธํ์ธ
- ๋ฌธ์ ๊ธฐ๋ฐ ์ํ ํํ: ํ
์คํธ ์บก์
์์ฑ์ ์์กดํ๋ฏ๋ก ๊ณ ์ฐจ์์ ์๊ฐ ์ ๋ณด ์ฒ๋ฆฌ ํ๊ฒฝ์์๋ ์ ์ฉ์ด ์ด๋ ค์ธ ์ ์์
- ํ์ ์ฐ๊ตฌ: ๋ ํจ์จ์ ์ธ LLM ์ฟผ๋ฆฌ ๋ฐฉ๋ฒ, ๋ค์ํ ๋๋ฉ์ธ ๋ฐ ๋ชจ๋ฌ๋ฆฌํฐ(์๊ฐ, ๋ก๋ด)์์์ ํ์ฅ, LLM ํธํฅ ์ํ ๋ฐฉ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ELLM์ ๋ด์ฌ์ ๋๊ธฐ ํ์์ ๊ทผ๋ณธ์ ๋ฌธ์ ์ธ '๋ฌด๊ดํ ์ ๊ท์ฑ ์ถ๊ตฌ'๋ฅผ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ์์ ์ง์์ผ๋ก ์ฐฝ์์ ์ผ๋ก ํด๊ฒฐํ ์ฐ๊ตฌ์ด๋ค. ์คํ ๊ฒฐ๊ณผ๊ฐ ์ ํ์ ์ด๊ณ ๊ณ์ฐ ๋น์ฉ ์ด์๊ฐ ์์ง๋ง, LLM์ RL ํ์์ ํตํฉํ๋ novelํ ์ ๊ทผ๊ณผ ์ค์ง์ ์ฑ๋ฅ ํฅ์์ ์ด ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์