Text2Reward: Reward Shaping with Language Models for Reinforcement Learning
์ ์: Tianbao Xie, Siheng Zhao, Chen Henry Wu, Yitao Liu, Qian Luo, Victor Zhong, Yanchao Yang, Tao Yu | ๋ ์ง: 2023-09-20 | URL: https://arxiv.org/abs/2309.11489 📄 PDF
Essence
Figure 1: An overview of TEXT2REWARD of three stages: Expert Abstraction provides an abstraction
LLM์ ํ์ฉํ์ฌ ์์ฐ์ด๋ก ๊ธฐ์ ๋ ๋ชฉํ๋ก๋ถํฐ ์๋์ผ๋ก dense reward function์ ์์ฑํ๊ณ ํ์ฑํ๋ data-free ํ๋ ์์ํฌ Text2Reward๋ฅผ ์ ์ํ๋ค. ์์ฑ๋ reward code๋ ํด์ ๊ฐ๋ฅํ๊ณ ์คํ ๊ฐ๋ฅํ ํ๋ก๊ทธ๋จ ํํ๋ก, ๊ธฐ์กด์ inverse RL์ด๋ sparse reward ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ๋์ ๋ฒ์์ ์์
์ ์ง์ํ๋ค.
Motivation
- Known: Reward shaping์ RL์ ์ค๋ ์์ ์ด๋ฉฐ, ์ ํต์ ์ผ๋ก ์ ๋ฌธ๊ฐ์ ์์์
์ ์๊ตฌํ๋ค. Inverse RL๊ณผ preference learning์ ์์ฐ ๋ฐ์ดํฐ๋ ์ธ๊ฐ ํผ๋๋ฐฑ์ ์์กดํ๊ณ ํด์์ฑ์ด ๋ฎ์ ๋ฌธ์ ๊ฐ ์๋ค.
- Gap: LLM์ ์ฌ์ฉํ reward code ์์ฑ ๊ธฐ์กด ์ฐ๊ตฌ๋ sparse reward๋ ์์ ํํ์ unshaped dense reward๋ง ์์ฑํ๋ค. ํด์ ๊ฐ๋ฅํ๋ฉด์๋ ๋์ ์ผ๋ก ๋ณํ๋ free-form dense reward code๋ฅผ ์๋์ผ๋ก ์์ฑํ๊ณ human feedback์ผ๋ก ๋ฐ๋ณต ๊ฐ์ ํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: Reward ์ค๊ณ ์๋ํ๋ RL ๊ฐ๋ฐ ๋น์ฉ์ ๋ํญ ๋ฎ์ถ ์ ์์ผ๋ฉฐ, ํด์ ๊ฐ๋ฅํ ์ฝ๋ ํํ์ reward๋ debugging๊ณผ refinement๊ฐ ์ฉ์ดํ๋ค. Human-in-the-loop ๋ฐฉ์์ผ๋ก ์ค๋ฌด์ ์ ์ฉ์ฑ์ ๋์ผ ์ ์๋ค.
- Approach: LLM์ natural language instruction, ํ๊ฒฝ์ Pythonic ์ถ์ํ ํํ, background knowledge, few-shot examples์ ์
๋ ฅํ์ฌ executable reward code๋ฅผ ์์ฑํ๋ค. ์ฝ๋ ์คํ ํผ๋๋ฐฑ์ผ๋ก ๊ตฌ๋ฌธ/๋ฐํ์ ์ค๋ฅ๋ฅผ ์๋ ์์ ํ๊ณ , ์ ์ฑ
ํ์ต ํ human feedback์ผ๋ก reward code๋ฅผ ๋ฐ๋ณต ๊ฐ์ ํ๋ค.
Achievement
Figure 2: Learning curves on MANISKILL2 under zero-shot and few-shot reward generation settings,
- ์กฐ์ ์์
์ฑ๋ฅ: ManiSkill2์ MetaWorld์ 17๊ฐ ์์
์ค 13๊ฐ์์ ์์ฑ๋ reward code๊ฐ ์ ๋ฌธ๊ฐ ์์ฑ ์ฝ๋์ ๋๋ฑํ๊ฑฐ๋ ์ฐ์ํ ์ฑ๊ณต๋ฅ ๊ณผ ์๋ ด ์๋ ๋ฌ์ฑ
- ์๋ก์ด ์ด๋ ํ๋ ํ์ต: MuJoCo ํ๊ฒฝ์์ 6๊ฐ์ ์๋ก์ด locomotion behavior๋ฅผ 94% ์ด์์ ์ฑ๊ณต๋ฅ ๋ก ํ์ต
- ์ค์ ๋ก๋ด ๋ฐฐํฌ: ์๋ฎฌ๋ ์ดํฐ์์ ํ์ตํ ์ ์ฑ
์ด ์ค์ Franka Panda ๋ก๋ด์ ์ฑ๊ณต์ ์ผ๋ก ๋ฐฐํฌ๋จ
- Human feedback ํจ์จ์ฑ: 3ํ ๋ฏธ๋ง์ human feedback์ผ๋ก ์ฑ๊ณต๋ฅ ์ 0์์ ๊ฑฐ์ 100%๋ก ํฅ์ ๋ฐ task ambiguity ํด๊ฒฐ
- ๋์ ํด์์ฑ: ์์ฑ๋ reward๊ฐ ์ฝ๋ ํํ๋ก ๋ช
ํํ ์ฝ๊ณ ์ดํดํ ์ ์์
How
Figure 1: An overview of TEXT2REWARD of three stages: Expert Abstraction provides an abstraction
- Pythonic ํด๋์ค ๊ธฐ๋ฐ ํ๊ฒฝ ์ถ์ํ๋ก LLM์ด ๊ฐ์ฒด ์ํ์ ํธ์ถ ๊ฐ๋ฅ ํจ์๋ฅผ ๋ช
ํํ ์ดํดํ๋๋ก ํํ
- NumPy/SciPy ๋ฑ ๊ธฐ์กด ํจํค์ง์ ํจ์ ์ ๋ณด์ ์ฌ์ฉ ์์๋ฅผ background knowledge๋ก ์ ๊ณต
- Instruction embedding์ ํตํด ์ ์ฌํ instruction-code ์์ few-shot examples๋ก ๋์ ์ ํ
- ์์ฑ๋ ์ฝ๋๋ฅผ ์ฆ์ ์คํํ์ฌ ๊ตฌ๋ฌธ ์ค๋ฅ, ๋ฐํ์ ์ค๋ฅ๋ฅผ ๊ฐ์งํ๊ณ LLM์ผ๋ก ๋ฐ๋ณต ์์
- ์ ์ฑ
ํ์ต ํ ๋กค์์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ์ฌ์ฉ์๋ก๋ถํฐ ์คํจ ๋ชจ๋๋ ์ ํธ๋ ํผ๋๋ฐฑ ์์ง
- Human feedback์ prompt์ ๋ฐ์ํ์ฌ reward code๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ ํ๋ interactive loop ๊ตฌ์ฑ
Originality
- Data-free ๋ฐฉ์์ผ๋ก ์ ๋ฌธ๊ฐ ์์ฐ์ด๋ ์ ํธ๋ ๋ฐ์ดํฐ ์์ง ์์ด reward code ์๋ ์์ฑ
- Free-form shaped dense reward code ์์ฑ์ผ๋ก ๊ธฐ์กด์ sparse reward๋ constant function ๋ฐฉ์๋ณด๋ค ํํ๋ ฅ ํ์ฅ
- ์ฝ๋ ์คํ ํผ๋๋ฐฑ์ ํตํ ์๋ error correction์ผ๋ก ์์ฑ ์ฝ๋์ ์คํ ๊ฐ๋ฅ์ฑ ๋ณด์ฅ
- Human-in-the-loop refinement pipeline์ผ๋ก task ambiguity์ sub-optimal behavior๋ฅผ ์ค์ฉ์ ์ผ๋ก ํด๊ฒฐ
- Pythonic ํ๊ฒฝ ํํ์ผ๋ก ์ฌ๋ฌ ๋ก๋ด ๋ฒค์น๋งํฌ(ManiSkill2, MetaWorld, MuJoCo)์ ๊ฑธ์น ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ์
์ฆ
Limitation & Further Study
- LLM์ ๋ฅ๋ ฅ์ ์์กดํ๋ฏ๋ก ๋ชจ๋ธ ์ฑ๋ฅ์ด ์ ํ๋๋ฉด ์์ฑ quality๋ ์ ํ๋จ (๋
ผ๋ฌธ์์ GPT-4/Codex ๊ธฐ๋ฐ)
- ํ๊ฒฝ ์ถ์ํ ์ค๊ณ๊ฐ ์ฌ์ ํ ์๋์ ์ด๋ฉฐ, ์๋ก์ด ํ๊ฒฝ๋ง๋ค ์ ์ ํ Pythonic ํํ์ ์ ์ํด์ผ ํจ
- Human feedback์ ์ง๊ณผ ๋น๋์ ๋ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ ํฌ๊ฒ ๋ฌ๋ผ์ง ์ ์์ผ๋ฉฐ, feedback ์์ง ๋น์ฉ์ trade-off ๋ถ์ ๋ถ์กฑ
- ๋ณต์กํ long-horizon task์ ๋ํ ์ฑ๋ฅ ํ๊ฐ์ ํ์ฅ์ฑ์ด ์ ํ์ ์
- LLM์ hallucination์ด๋ ๋ถ์ ํํ ์ฝ๋ ์์ฑ์ ๋ํ ์คํจ ์ฌ๋ก ๋ถ์์ด ์์ธํ์ง ์์
- ํ์ ์ฐ๊ตฌ๋ก ๋ ์๋ํ๋ ํ๊ฒฝ ์ถ์ํ ๋ฐฉ๋ฒ, ๋ ๋ณต์กํ task ์ง์, ๋ค์ํ LLM ๋ชจ๋ธ ๋น๊ต ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ reward code ์๋ ์์ฑ์ผ๋ก RL์ ์ค๋ challenge์ธ reward design์ ํ์ ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, Pythonic ์ถ์ํ์ code execution feedback์ ํตํด ๋์ ํด์์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ๋ฌ์ฑํ๋ค. ๊ด๋ฒ์ํ ๋ก๋ด ๋ฒค์น๋งํฌ์ ์ค์ ๋ก๋ด ๋ฐฐํฌ๋ก ์ค์ฉ์ฑ์ ์
์ฆํ๊ณ human-in-the-loop ํ์ดํ๋ผ์ธ์ผ๋ก ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ๋ ICLR 2024์ ์ฐ์ ๋
ผ๋ฌธ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์