Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation
์ ์: Hongtao Wu, Ya Jing, Chilam Cheang, Guangzeng Chen, Jiafeng Xu, Xinghang Li, Minghuan Liu, Hang Li, Tao Kong | ๋ ์ง: 2023-12-20 | URL: https://arxiv.org/abs/2312.13139 📄 PDF
Essence
Figure 1: Overview of GR-1. GR-1 is first pre-trained on the task of video prediction with a large-
GR-1์ ๋๊ท๋ชจ ๋น๋์ค ์์ฑ ์ฌ์ ํ์ต์ ํ์ฉํ์ฌ ๋ฉํฐํ์คํฌ ์ธ์ด-์กฐ๊ฑด๋ถ ์๊ฐ ๋ก๋ด ์กฐ์์ ํ์ตํ๋ GPT-์คํ์ผ transformer ๋ชจ๋ธ์ด๋ค. ๋ก๋ด์ ์ธ์ด ์ง์, ๊ด์ฐฐ ์ด๋ฏธ์ง, ๋ก๋ด ์ํ๋ฅผ ์
๋ ฅ๋ฐ์ ๋ก๋ด ์ก์
๊ณผ ๋ฏธ๋ ์ด๋ฏธ์ง๋ฅผ end-to-end ๋ฐฉ์์ผ๋ก ์์ธกํ๋ค.
Motivation
- Known: Generative pre-trained ๋ชจ๋ธ์ NLP์ CV ๋ถ์ผ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, Transformer ๊ธฐ๋ฐ์ sequential decision making ๋ชจ๋ธ๋ค์ด ๋ก๋ด ์กฐ์์ ์ ์ฉ๋๊ณ ์๋ค. ๋ํ ๋ก๋ด ํ์ต์ ์ํ ๋ค์ํ ์ฌ์ ํ์ต ๋ฐฉ๋ฒ์ด ์ฐ๊ตฌ๋๊ณ ์๋ค.
- Gap: ๊ธฐ์กด ๋ก๋ด ํ์ต ๋ฐฉ๋ฒ์ ๋ก๋ด ๋ฐ์ดํฐ์ ํฌ์์ฑ๊ณผ ๋ฉํฐ๋ชจ๋ฌ์ฑ์ ์ถฉ๋ถํ ํด๊ฒฐํ์ง ๋ชปํ์ผ๋ฉฐ, ๋๊ท๋ชจ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์์ฑ ์ฌ์ ํ์ต๊ณผ ๋ก๋ด ์กฐ์์ ์ง์ ์ ์ผ๋ก ์ฐ๊ฒฐํ๋ ์ฐ๊ตฌ๊ฐ ๋ถ์กฑํ๋ค.
- Why: ๋ก๋ด ๋ฐ์ดํฐ ์์ง์ ๋น์ฉ๊ณผ ์๊ฐ์ด ๋ง์ด ๋ค๊ธฐ ๋๋ฌธ์ ๋๊ท๋ชจ ๋น๋์ค ๋ฐ์ดํฐ์
์ ํ์ฉํ ์ฌ์ ํ์ต์ ํตํด ๋ก๋ด ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์์ํฌ ์ ์๋ค. ์ด๋ ๋ก๋ด ์กฐ์์ ์ค์ฉ์ฑ๊ณผ ํ์ฅ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.
- Approach: GR-1์ ๋จผ์ ๋๊ท๋ชจ ๋น๋์ค ๋ฐ์ดํฐ์
์์ video prediction ์์
์ผ๋ก ์ฌ์ ํ์ตํ ํ, ๋ก๋ด ๋ฐ์ดํฐ๋ก fine-tuning๋๋ค. ๋ชจ๋ธ์ unified GPT-์คํ์ผ transformer ์ํคํ
์ฒ๋ฅผ ์ ์งํ์ฌ ๋ ๋จ๊ณ๊ฐ seamlessํ๊ฒ ์ฐ๊ฒฐ๋๋ค.
Achievement
Figure 3: CALVIN Benchmark Results. We show examples of multi-task learning trained on
- CALVIN ๋ฒค์น๋งํฌ ์ฑ๋ฅ: ์ฑ๊ณต๋ฅ ์ 88.9%์์ 94.9%๋ก ๊ฐ์ , ํ๊ท ๊ธธ์ด(5๊ฐ ์ฐ์ ์์
์ค ์๋ฃ๋ ์์
์)๋ฅผ 3.06์์ 4.21๋ก ํฅ์
- ๋ฐ์ดํฐ ํจ์จ์ฑ: ์ ์ฒด ๋ฐ์ดํฐ์ 10% ์ฌ์ฉ ์ 77.8% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ (์ต๊ณ ๊ธฐ์ค ๋ชจ๋ธ 66.8%)
- Zero-shot ์ผ๋ฐํ: ๋ณด์ง ๋ชปํ ์ฅ๋ฉด์ ๋ํด ์ฑ๊ณต๋ฅ ์ 53.3%์์ 85.4%๋ก ๊ฐ์
- ์ค์ ๋ก๋ด ๊ฒ์ฆ: ๊ฐ์ฒด ์ด๋ ๋ฐ ๊ด์ ๊ฐ์ฒด ์กฐ์ ์์
์์ ๊ธฐ์ค ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ ๋ถํฌ ์ธ(out-of-distribution) ์ผ๋ฐํ ๋ฅ๋ ฅ ์
์ฆ
How
Figure 1: Overview of GR-1. GR-1 is first pre-trained on the task of video prediction with a large-
- Language encoder๋ฅผ ํตํด ์์ฐ์ธ์ด ์ง์๋ฅผ ์ธ์ฝ๋ฉ
- Robot state encoder๋ก ๋ก๋ด ์ํ๋ฅผ ์ฒ๋ฆฌ
- Observation ์ด๋ฏธ์ง ์ํ์ค์ ๋ก๋ด ์ํ๋ฅผ ์๊ฐ ์์๋๋ก ์
๋ ฅ
- Causal transformer๋ฅผ ์ฌ์ฉํ์ฌ ๋ฏธ๋ ์ด๋ฏธ์ง์ ๋ก๋ด ์ก์
์ auto-regressiveํ๊ฒ ์์ฑ
- Large-scale ๋น๋์ค ๋ฐ์ดํฐ์
(Ego4D ๋ฑ)์์ video prediction์ผ๋ก ์ฌ์ ํ์ต
- CALVIN ๋ฒค์น๋งํฌ ๋ฐ ์ค์ ๋ก๋ด ๋ฐ์ดํฐ๋ก fine-tuning
- Action๊ณผ Image ํ ํฐ์ learnable tokens๋ก ๊ตฌ๋ถํ์ฌ ์ฒ๋ฆฌ
Originality
- ๋น๋์ค ์์ฑ ์ฌ์ ํ์ต์ ๋ก๋ด ์กฐ์ ํ์ต๊ณผ ์ง์ ์ ์ผ๋ก ์ฐ๊ฒฐํ ์ต์ด์ ์๋
- Unified GPT-์คํ์ผ transformer ๋ชจ๋ธ๋ก ๋น๋์ค ์์ธก๊ณผ ๋ก๋ด ์ ์ฑ
์ ๊ฐ์ ์ํคํ
์ฒ์์ ํ์ต
- ๋๊ท๋ชจ ๋น๋์ค ๋ฐ์ดํฐ์์์ ์ฌ์ ํ์ต์ด ๋ก๋ด ์กฐ์์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์์ ์ค์ฆ์ ์ผ๋ก ์
์ฆ
- Language-conditioned ๋ฉํฐํ์คํฌ ๋ก๋ด ์กฐ์์ end-to-end ์์ฑ ๋ชจ๋ธ ์ ์ฉ
Limitation & Further Study
- ์ฌ์ ํ์ต์ ์ฌ์ฉ๋๋ ๋น๋์ค ๋ฐ์ดํฐ์
(์: Ego4D)์ด ๋ก๋ด ์กฐ์๊ณผ ์ง์ ์ ์ธ ์ฐ๊ด์ด ์์ ์ ์์ผ๋ฉฐ, ์ด domain gap์ ์ํฅ์ ๋ํ ์์ธํ ๋ถ์ ๋ถ์กฑ
- ์ค์ ๋ก๋ด ์คํ์ด ์ ํ์ ์ด๋ฉฐ, ๋ ๋ค์ํ ๋ก๋ด ํ๋ซํผ๊ณผ ์์
์ ๋ํ ๊ฒ์ฆ ํ์
- Fine-tuning ๋ฐ์ดํฐ ํฌ๊ธฐ, ๋น๋์ค ์ฌ์ ํ์ต ๋ฐ์ดํฐ ํฌ๊ธฐ ๋ฑ ๊ฐ ์์์ ์์ธํ ablation ๋ถ์กฑ
- ๋ชจ๋ธ์ ๊ณ์ฐ ๋ณต์ก๋์ ์ค์๊ฐ ์ถ๋ก ์ฑ๋ฅ์ ๋ํ ๋ถ์์ด ์ ์๋์ง ์์
- ํ์ ์ฐ๊ตฌ๋ก ๋ ๋ค์ํ ๋น๋์ค ์์ค์ ๋ก๋ด ๋๋ฉ์ธ ๊ฐ transfer learning์ ๋ํ ์ฐ๊ตฌ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: GR-1์ ๋๊ท๋ชจ ๋น๋์ค ์์ฑ ์ฌ์ ํ์ต์ ๋ก๋ด ์กฐ์์ ์ ์ฉํ์ฌ ๋ฐ์ด๋ ์ฑ๋ฅ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ธ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค. Unified GPT-์คํ์ผ ์ํคํ
์ฒ์ ๋จ์์ฑ๊ณผ CALVIN ๋ฒค์น๋งํฌ์์์ ์ฐ์ํ ์ฑ๊ณผ, ๊ทธ๋ฆฌ๊ณ ์ค์ ๋ก๋ด์์์ ๊ฒ์ฆ์ด ๊ฐ์ ์ด๋ฉฐ, ๋ก๋ด ํ์ต์์ ์์ฑ ๋ชจ๋ธ์ ๊ฐ๋ฅ์ฑ์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ์
์ฆํ๋ค๋ ์ ์์ ๊ฐ์น ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์