In-Context Imitation Learning via Next-Token Prediction
์ ์: Letian Fu, Huang Huang, Gaurav Datta, Lawrence Yunliang Chen, William Chung-Ho Panitch, Fangchen Liu, Hui Li, Ken Goldberg | ๋ ์ง: 2024-08-28 | URL: https://arxiv.org/abs/2408.15980 📄 PDF
Essence
Fig. 1: In-Context Robot Transformer (ICRT): A robot foundation model with in-context imitation learning capabilities. I
๋ก๋ด์ด ์๋ก์ด ์์
์ ์ํํ ๋ ์ ์ฑ
ํ๋ผ๋ฏธํฐ ์
๋ฐ์ดํธ ์์ด ์
๋ ฅ ๋จ๊ณ์์ ์ ๊ณต๋ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ํด์ํ๋ In-Context Robot Transformer (ICRT)๋ฅผ ์ ์ํ๋ค. ICRT๋ ๊ฐ๊ฐ-์ด๋ ๊ถค์ ์ ๋ํ ์๋ํ๊ท ๋ค์-ํ ํฐ ์์ธก์ ํตํด ํ๋ จ ์์ด ์๋ก์ด ์์
์ ์ ์ฐํ๊ฒ ์คํํ ์ ์๋ค.
Motivation
- Known: LLM๊ณผ LVM์ด ๋ค์-ํ ํฐ ์์ธก์ผ๋ก ๋ฌธ๋งฅ ๋ด ํ์ต ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, ์ต๊ทผ ๋ก๋ด ํ์ต๋ ์ด๋ฅผ ์ฐจ์ฉํ์ฌ ๋ค์ค ์์
์ ์ฑ
์ ๊ฐ๋ฐํ๊ณ ์๋ค. ํ์ง๋ง ๊ธฐ์กด ๋ก๋ด ๋ชจ๋ธ์ ์๋ก์ด ํ๊ฒฝ์ ๋ฏธ์ง ์์
์ํ์ ์ํด ์ถ๊ฐ ํ๋ จ์ด๋ ๋ฏธ์ธ ์กฐ์ ์ด ํ์ํ๋ค.
- Gap: ๋ค์-ํ ํฐ ์์ธก ๋ชจ๋ธ์ ๋ฌธ๋งฅ ๋ด ํ์ต ๋ฅ๋ ฅ์ด ๋น์ ๊ณผ ์ธ์ด ๋๋ฉ์ธ์ ๊ตญํ๋์ด ์์ผ๋ฉฐ, ์ค์ ๋ก๋ด์ด ์์์ ์์ฐ๋ง์ผ๋ก ์๋ก์ด ์์
์ ์ํํ ์ ์๋ ๋ฐฉ๋ฒ์ด ๋ช
ํํ์ง ์๋ค. ๋ํ ๊ธฐ์กด ์ ๊ทผ๋ฒ๋ค์ ๋ณต์กํ ์์ค ํจ์, ํคํฌ์ธํธ ์๋ณ, ๋๋ ๋ณด์ ํจ์๊ฐ ํ์ํ๋ค.
- Why: ๋ก๋ด์ด ๋ฏธ์ธ ์กฐ์ ์์ด ๋ช ๊ฐ์ง ์์ฐ์ผ๋ก ์๋ก์ด ์์
์ ์ฆ์ ์ํํ ์ ์์ผ๋ฉด ์ค์ ํ๊ฒฝ์์์ ์ ์ฉ ๋ณต์ก๋๊ฐ ํฌ๊ฒ ๊ฐ์ํ๋ค. ์ด๋ ๋ก๋ด ๊ธฐ์ด ๋ชจ๋ธ์ ์ค์ฉ์ฑ๊ณผ ํ์ฅ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ํฅ์์ํจ๋ค.
- Approach: ICRT๋ ๊ธด ๋ฌธ๋งฅ ์๋์ฐ๋ฅผ ๊ฐ์ง ์ธ๊ณผ transformer๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ๊ด์ฐฐ, ๋ก๋ด ์ํ, ์ก์
์ผ๋ก ๊ตฌ์ฑ๋ ๊ฐ๊ฐ-์ด๋ ๊ถค์ ์ ๋ํด ์ง์ ๋ค์-ํ ํฐ ์์ธก์ ์ํํ๋ค. ํ๋ จ ์๊ฐ์ ๋ค์ค ์์
๋ฐ์ดํฐ์
๊ณผ ๋์ผํ ์ด๊ธฐ ๊ด์ฐฐ์์ ๋ค์ํ ์์
์ด ๊ฐ๋ฅํ ๋ฐ์ดํฐ ๊ตฌ์ฑ์ ํ์ฉํ์ฌ ๋ฌธ๋งฅ ๋ด ํ์ต์ ์ ๋ํ๋ค.
Achievement
Fig. 4: Example inference pipeline of ICRT on the task of picking
- ICRT ๋ชจ๋ธ ์ ์: ๊ธด ๋ฌธ๋งฅ ์๋์ฐ์ ๊ฐ๋จํ ๋ค์-ํ ํฐ ์์ธก ์์ค๋ง์ ์ฌ์ฉํ์ฌ ์ค์ ๋ก๋ด์์ ๋ฏธ์ธ ์กฐ์ ์๋ ๋ฌธ๋งฅ ๋ด ํ์ต์ ๋ฌ์ฑ
- ๋ค์ค ์์
๋ฐ์ดํฐ์
๋ฐ ํ๋ จ ํจ๋ฌ๋ค์: ๋ฌธ๋งฅ ๋ด ๋ฅ๋ ฅ์ ์ง์ํ๋ ์๋ก์ด ๋ก๋ด ๋ฐ์ดํฐ์
๊ณผ ํ๋ จ ๋ฐฉ๋ฒ๋ก ์ ๊ณต
- ์ผ๋ฐํ ์ฑ๋ฅ: ํ๋กฌํํธ์ ํ๋ จ ๋ฐ์ดํฐ์ ๋ค๋ฅธ ํ๊ฒฝ ๊ตฌ์ฑ์์๋ ๋ฏธ์ง ์์
์ ์ํ ๊ฐ๋ฅํ๋ฉฐ, ๋ค์ค ์์
ํ๊ฒฝ์์ ๊ธฐ์กด ์ต์ฒจ๋จ ๋ค์-ํ ํฐ ์์ธก ๋ชจ๋ธ (Octo, OpenVLA)์ ํฌ๊ฒ ๋ฅ๊ฐ
How
Fig. 3: Method Overview: (Left) We encode camera observations with a pre-trained vision transformer. Additionally, we en
- Pre-trained vision model (์: CLIP ๋๋ ์ ์ฌ ๋ชจ๋ธ)์ ์ด์ฉํ ์นด๋ฉ๋ผ ๊ด์ฐฐ ์ธ์ฝ๋ฉ
- ์ธ์ฝ๋ฉ๋ ์ด๋ฏธ์ง, ๋ก๋ด ๊ณ ์ ์ํ(proprioceptive state), ์ก์
์ ํ ํฐํํ์ฌ sequence ๊ตฌ์ฑ
- Causal transformer ๊ธฐ๋ฐ ์๋ํ๊ท ๋ชจ๋ธ๋ก ๋ค์ ํ ํฐ(์ก์
๋๋ ์ํ) ์์ธก
- ์ถ๋ก ์์ ์ ์ ์์
์ ์ธ๊ฐ ์๊ฒฉ ์กฐ์ ์์ฐ ๊ถค์ ์ ํ๋กฌํํธ๋ก ์ ๊ณต
- ๋ชจ๋ธ์ด ํ๋กฌํํธ ํจํด์ ์ถ์ถํ์ฌ ํ์ฌ ํ๊ฒฝ์์ ์ ์ฌํ ์ก์
์ํ์ค ์์ฑ
- ์ฅ๊ธฐ ๋ฌธ๋งฅ ์๋์ฐ๋ฅผ ํตํด ์ฌ๋ฌ ๊ถค์ ์ผ๋ก๋ถํฐ ์์
์๋ฏธ๋ก ํ์ต
Originality
- ๊ธฐ์กด Few-shot imitation learning๊ณผ ๋ฌ๋ฆฌ keypoint/keyframe ์๋ณ, ๋ณต์กํ ์์ค ํจ์, ์ถ๊ฐ ์ธ์ง ๋ชจ๋ ๋ถํ์
- One-Shot Imitation Learning, Prompting Decision Transformer์ ๋ค๋ฅด๊ฒ ์์ ํ ์ํ ์ ๋ณด๋ ๋ณด์ ํจ์ ๋ฏธํ์, ๊ธด ๋ฌธ๋งฅ ์๋์ฐ ์ง์, ์ค์ ๋ก๋ด์์ ์ด๋ฏธ์ง ๊ด์ฐฐ ๊ธฐ๋ฐ ์์ฐ
- ๋์ผํ ์ด๊ธฐ ๊ด์ฐฐ์์ ๋ค์ํ ์์
์ด ๊ฐ๋ฅํ ๋ฐ์ดํฐ์
ํน์ฑ์ ๋ช
์์ ์ผ๋ก ํ์ฉํ์ฌ ๋ฌธ๋งฅ ๋ด ํ์ต ์ ๋ํ๋ ์ ์ด ํ์ ์
- ์ธ์ด๋ ๋ณด์ ํจ์ ์์ด ์์ ๊ฐ๊ฐ-์ด๋ ๊ถค์ ๋ง์ผ๋ก ๋ฌธ๋งฅ ๋ด ํ์ต ๋ฌ์ฑ
Limitation & Further Study
- ๋ฏธ์ง ์์
์ด ํ๋ จ ์ค ์ฌ์ฉ๋ ๋ชจ์
primitive์ ์กฐํฉ๋ง ๊ฐ๋ฅ (์์ ํ ์๋ก์ด ์์
ํ์
์ ๋ถ๊ฐ)
- ํ์ฌ ์คํ์ด ํน์ ํ๊ฒฝ(Franka Emika, ํน์ ๊ฐ์ฒด ์ธํธ)์ ์ ํ๋์ด ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ์ผ๋ฐํ ๊ฒ์ฆ ๋ถ์กฑ
- ํ๋กฌํํธ ๊ถค์ ์ ํ์ง๊ณผ ์์ ๋ํ ๋ฏผ๊ฐ๋ ๋ถ์ ๋ถ์ฌ (๋ช ๊ฐ์ ์์ฐ์ด ์ต์ ์ธ์ง ๋ถ๋ช
ํ)
- ๊ณ์ฐ ํจ์จ์ฑ ๋ฐ ์ค์๊ฐ ์ฑ๋ฅ์ ๋ํ ์์ธํ ๋ถ์ ๋ฏธ์ ์
- ํ์ ์ฐ๊ตฌ: (1) ์์ ํ ์๋ก์ด motion primitive ํ์ต ๋ฅ๋ ฅ ์ถ๊ฐ, (2) ๋ค์ํ ๋ก๋ด ํ๋ซํผ ๋ฐ ํ๊ฒฝ ๊ท๋ชจ ํ๋, (3) ํ๋กฌํํธ ์ค๊ณ ์ต์ ํ ์ฐ๊ตฌ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ICRT๋ ์ค์ ๋ก๋ด์์ ์ฒ์์ผ๋ก ํจ๊ณผ์ ์ธ ๋ฌธ๋งฅ ๋ด ํ์ต์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๊ฐ๋จํ ๋ค์-ํ ํฐ ์์ธก ํ๋ ์์ํฌ๋ก ๋ณต์กํ ์์ฐ ๊ธฐ๋ฐ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ๋ก๋ด ๊ธฐ์ด ๋ชจ๋ธ์ ์ค์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํค๋ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ด๋, ์ผ๋ฐํ ๋ฒ์์ ๊ธฐ์ ์ ๊น์ด ๋ฉด์์ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์