FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning
์ ์: Jiaheng Hu, Rose Hendrix, Ali Farhadi, Aniruddha Kembhavi, Roberto Martin-Martin, Peter Stone, Kuo-Hao Zeng, Kiana Ehsani | ๋ ์ง: 2024-09-25 | URL: https://arxiv.org/abs/2409.16578 📄 PDF
Essence
Fig. 1: FLaRe is a simple but effective approach for
FLaRe๋ ๋๊ท๋ชจ ๋ค์ค ์์
Behavior Cloning์ผ๋ก ์ฌ์ ํ์ต๋ ๋ก๋ด ์ ์ฑ
์ Reinforcement Learning์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ๋ ํ๋ ์์ํฌ๋ก, ๊ทธ๋๋์ธํธ ์์ ํ ๊ธฐ๋ฒ์ ํตํด ์ฑ๋ฅ ์ ์ฒด๋ฅผ ๊ทน๋ณตํ๋ค.
Motivation
- Known: Behavior Cloning ๊ธฐ๋ฐ์ ๊ธฐ์ด ๋ชจ๋ธ(RT-1, RT-2, RT-X, SPOC ๋ฑ)๋ค์ด ๋ง์ด ์ ์๋์์ง๋ง, ์ง์ ๋ฐฐํฌ ์ ๋ฏธ์ง์ ์ํ์ ์์
์์ ์ฑ๋ฅ์ด ๋ถ์กฑํ๋ค.
- Gap: ๊ธฐ์กด์ BC ์ ์ฑ
์ RL์ ์ ์ฉํ ์๋๋ค์ด ์์์ผ๋ ๋๊ท๋ชจ ๋คํธ์ํฌ ๋ฏธ์ธ์กฐ์ ์์๋ BC์์ RL๋ก์ ๊ธ๊ฒฉํ ์ ํ์ผ๋ก ์ธํ ๊ทธ๋๋์ธํธ ๋ฌธ์ ๋ก ์คํจํ๋ฉฐ, ์ค์ ๋ก๋ด ์คํ์ด ๋ถ์กฑํ๋ค.
- Why: ๋ก๋ด์ ๋ฐฐํฌ ์ฑ๋ฅ์ ํ๊ธฐ์ ์ผ๋ก ํฅ์์ํค๋ฉด์๋ ํ์ต ํจ์จ์ฑ์ ์ ์งํ ์ ์๋ค๋ฉด ์ค์ ๋ก๋ด ์์คํ
์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฌ๊ฒ ๊ฐ์ ํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
- Approach: ๋๊ท๋ชจ ๋ค์ค ์์
BC ์ ์ฑ
์ ๊ธฐ์ด๋ก ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ๋๊ท๋ชจ RL ๋ฏธ์ธ์กฐ์ ์ ์ํํ๋, ์๊ท๋ชจ ํ์ต๋ฅ , Actor-Critic ๋ถ๋ฆฌ, On-Policy ์๊ณ ๋ฆฌ์ฆ(PPO), ์ํธ๋กํผ ๋ณด๋์ค ์ ๊ฑฐ ๋ฑ์ ์์ ํ ๊ธฐ๋ฒ์ ์ ์ฉํ๋ค.
Achievement
Fig. 1: FLaRe is a simple but effective approach for
- ์๋ฎฌ๋ ์ด์
์ฑ๋ฅ: ์ฅ๊ธฐ ์ํ ๋ชจ๋ฐ์ผ ์กฐ์ ์์
์์ 79.5%์ ํ๊ท ์ฑ๊ณต๋ฅ ๋ฌ์ฑ, ์ด์ ์ต๊ณ ์ฑ๋ฅ ๋๋น +23.6% ์ ๋ ๊ฐ์
- ์ค์ ๋ก๋ด ์ฑ๋ฅ: 80.7% ํ๊ท ์ฑ๊ณต๋ฅ ๋ฌ์ฑ, ์ ํ ์ฐ๊ตฌ ๋๋น +30.7% ์ ๋ ๊ฐ์
- ํ์ต ํจ์จ์ฑ: ์ด์ ์ต๊ณ ์ฑ๋ฅ ๋ฐฉ๋ฒ ๋๋น 15๋ฐฐ ๋น ๋ฅธ ํ์ต ์๊ฐ, ํฌ์ ๋ณด์๋ง์ผ๋ก ํ์ต ๊ฐ๋ฅ
- ์ผ๋ฐํ: BC ํ์ต ๋ฐ์ดํฐ์ ์๋ ์๋ก์ด ์์
์ผ๋ก ์ผ๋ฐํ ๊ฐ๋ฅ
- ์ ์์ฑ: ํ๋ฃจ ๋ฏธ๋ง์ ๋ฏธ์ธ์กฐ์ ์ผ๋ก ์๋ก์ด ๊ตฌ์ฒดํ(embodiment)๊ณผ ํ๋์ ์ ์ํ ์ ์
How
Fig. 2: FLaRe introduces a series of design choices that help stabilize the RL training process, including 1) fine-tunin
- ๊ธฐ์ด ๋ชจ๋ธ ์ ํ: ๋๊ท๋ชจ ๋ค์ค ์์
BC๋ก ์ฌ์ ํ์ต๋ Transformer ์ ์ฑ
์ ์์์ ์ผ๋ก ์ฌ์ฉ
- ์๋ฎฌ๋ ์ด์
๊ท๋ชจ ํ๋: ๊ด๋ฒ์ํ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ๋๊ท๋ชจ RL ๋ฏธ์ธ์กฐ์ ์ํ
- ์์ ํ ๊ธฐ๋ฒ ์ ์ฉ:
- - ์๊ท๋ชจ ํ์ต๋ฅ (2e-5) ์ฌ์ฉ์ผ๋ก ๊ธ๊ฒฉํ ๊ทธ๋๋์ธํธ ์
๋ฐ์ดํธ ๋ฐฉ์ง
- - Actor์ Critic ๋คํธ์ํฌ ๋ถ๋ฆฌ๋ก ์ ์ฑ
์
๋ฐ์ดํธ ์์ ์ฑ ํฅ์
- - On-Policy PPO ์๊ณ ๋ฆฌ์ฆ ์ฌ์ฉ์ผ๋ก ์คํ-์ ์ฑ
๋ฐฉ๋ฒ์ ๋ถ์์ ์ฑ ํํผ
- - ์ํธ๋กํผ ๋ณด๋์ค ๋นํ์ฑํ๋ก ์ ์ฑ
ํ๋ ์ ์ฝ ์ํ
- ํฌ์ ๋ณด์ ํ์ฉ: ๋ณต์กํ ๋ณด์ ์์ง๋์ด๋ง ์์ด ์์ฐ์ธ์ด ์ง์์ฌํญ์ ๋ํ ์ด์ง ์๋ฃ ์ ํธ๋ง ์ฌ์ฉ
Originality
- ๊ท๋ชจ์ ํ์ฅ: ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์๊ท๋ชจ ๋คํธ์ํฌ์ ๋จ์ผ ์์
์๋ง ๊ฒ์ฆํ์ผ๋, FLaRe๋ ๋๊ท๋ชจ Transformer ๊ธฐ๋ฐ ์ ์ฑ
๋ฏธ์ธ์กฐ์ ์ ์ฑ๊ณต์ ์ผ๋ก ์ํ
- ์ค์ ๋ก๋ด ๊ฒ์ฆ: ์๋ฎฌ๋ ์ด์
๋ฟ๋ง ์๋๋ผ ์ค์ ๋ก๋ด(Stretch RE-1, LoCoBot)์์์ ๊ด๋ฒ์ํ ์คํ ์ํ
- ๋ค์ค ์์
์ผ๋ฐํ: BC ๋ฐ์ดํฐ์ ์๋ ์๋ก์ด ์์
์ผ๋ก์ ์ผ๋ฐํ ๋ฅ๋ ฅ ์
์ฆ
- ์ฒด๊ณ์ ์์ ํ ๊ธฐ๋ฒ: BC-to-RL ์ ํ ์ ๋ฐ์ํ๋ ๊ทธ๋๋์ธํธ ๋ถ๊ดด ๋ฌธ์ ๋ฅผ ๋ช
ํํ ์ง๋จํ๊ณ ์ผ๋ จ์ ์ค๊ณ ์ ํ์ผ๋ก ํด๊ฒฐ
- ๊ต์ฐจ ๊ตฌ์ฒดํ ์ ์ด: ์๋ก ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ ๊ฐ์ ์ ์ํ ์ ์ ๋ฅ๋ ฅ ์์ฐ
Limitation & Further Study
- ํ๊ฒฝ ์ ์ฝ: ์ฃผ๋ก ๋ชจ๋ฐ์ผ ์กฐ์ ์์
์ ์ด์ ์ ๋ง์ถ์์ผ๋ฉฐ, ๋ค๋ฅธ ๋ก๋ด ์์
๋๋ฉ์ธ(์: ๋ฏธ์ธ ์กฐ์, ๋ณดํ)์์ ์ ์ฉ ๊ฒ์ฆ ํ์
- ๋ณด์ ํจ์ ์์กด์ฑ: ํฌ์ ๋ณด์ ์ฌ์ฉ์ด ๊ฐ์ ์ด์ง๋ง, ์ฌ์ ํ ์์
์๋ฃ ์ฌ๋ถ๋ฅผ ํ๋จํ ์ ์๋ ๋ช
ํํ ๋ณด์ ์ ํธ ํ์
- ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฒฉ์ฐจ: ์๋ฎฌ๋ ์ด์
์์ ๋ฏธ์ธ์กฐ์ ํ ์ ์ฑ
์ ์ค์ ๋ก๋ด์ ๋ฐฐํฌํ ๋ ๋๋ฉ์ธ ์ ์ ๋ฉ์ปค๋์ฆ์ ์ธ๋ถ ์ฌํญ ๋ถ์กฑ
- ๊ณ์ฐ ๋น์ฉ: ๋๊ท๋ชจ ํ๊ฒฝ์์์ RL ๋ฏธ์ธ์กฐ์ ์ด ์ฌ์ ํ ์๋นํ GPU ์์ ์๊ตฌ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ ๋ณต์กํ ๋ณด์ ํจ์ ์์ด ํ์ตํ๋ ๋ฐฉ๋ฒ, (2) ์๋ฎฌ๋ ์ด์
-ํ์ค ์ ์ด ๊ฐ์ , (3) ๋ค์ํ ๋ก๋ด ํ๋ซํผ๊ณผ ์์
๋๋ฉ์ธ์ผ๋ก์ ํ์ฅ, (4) ๋ฉํํ์ต์ ํตํ ๋ ์ ์ํ ์ ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: FLaRe๋ ๋๊ท๋ชจ ๋ก๋ด ์ ์ฑ
๋ฏธ์ธ์กฐ์ ์ ์ค์ง์ ๋ฌธ์ ๋ค์ ๋ช
ํํ ์ง๋จํ๊ณ ์ฒด๊ณ์ ์ธ ์ค๊ณ ์ ํ์ผ๋ก ํด๊ฒฐํ์ฌ, ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ๋ชจ๋์์ ํ๊ธฐ์ ์ธ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ค. ํนํ ๊ทธ๋๋์ธํธ ์์ ํ ๊ธฐ๋ฒ๊ณผ ๋๊ท๋ชจ RL ํ๋ จ์ ์ฑ๊ณต์ ์ ์ฉ์ ๋ก๋ด ๊ธฐ์ด ๋ชจ๋ธ ๋ถ์ผ์ ์ค์ํ ์ง์ ์ ๋ํ๋ธ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์