GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation
์ ์: Chi-Lam Cheang, Guangzeng Chen, Ya Jing, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Hongtao Wu, Jiafeng Xu, Yichu Yang, Hanbo Zhang, Minzhao Zhu | ๋ ์ง: 2024-10-08 | URL: https://arxiv.org/abs/2410.06158 📄 PDF
Essence
Figure 1: Overview. GR-2 undegoes two stages of training: video generation pre-training and robot data
GR-2๋ 38๋ฐฑ๋ง ๊ฐ์ ๋น๋์ค ํด๋ฆฝ์ผ๋ก ๋๊ท๋ชจ ์ฌ์ ํ์ตํ ํ ๋ก๋ด ๊ถค์ ์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ๋ generative video-language-action ๋ชจ๋ธ๋ก, 100๊ฐ ์ด์์ ์กฐ์ ์์
์์ 97.7% ํ๊ท ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๊ณ ๋ฏธ๋ณด๊ธฐ ์๋๋ฆฌ์ค์ ๋ฐ์ด๋ ์ผ๋ฐํ๋ฅผ ๋ณด์ธ๋ค.
Motivation
- Known: Foundation model ํจ๋ฌ๋ค์์ ์ธ์ด, ์ด๋ฏธ์ง, ๋น๋์ค ์ฒ๋ฆฌ์์ ์ฑ๊ณต์ ์ด๋ฉฐ, ๋น๋์ค ์์ฑ ์ฌ์ ํ์ต์ด ์ ์ฑ
ํ์ต์ ์ ์ฉํ ์ง์์ ์ ์ดํ ์ ์์์ด ์๋ ค์ ธ ์๋ค.
- Gap: ๋๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ ์์ง์ ์ด๋ ค์๊ณผ ๋จ์ผ ์ผ๋ฐํ ์ ์ฑ
์ผ๋ก ๋ค์ํ ์กฐ์ ์์
์ ์ํํ ์ ์๋ ์์ฑํ ๋ก๋ด ์์ด์ ํธ์ ๋ถ์ฌ๊ฐ ์กด์ฌํ๋ค.
- Why: ๋ก๋ด ์กฐ์์ ๋ค์ฌ๋ค๋ฅํจ๊ณผ ์๋ก์ด ์์
๋ฐ ํ๊ฒฝ์ ๋ํ ๋น ๋ฅธ ์ ์ ๋ฅ๋ ฅ์ ์ค์ ์ฐ์
์์ฉ์ ํ์์ ์ด๋ฉฐ, ๋๊ท๋ชจ ๋น๋์ค ์ฌ์ ํ์ต์ ํตํด ์ด๋ฅผ ๋ฌ์ฑํ ์ ์๋ค.
- Approach: GR-2๋ ๋ ๋จ๊ณ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ๋ค: (1) Howto100M, Ego4D ๋ฑ ๋ค์ํ ๊ณต๊ฐ ๋ฐ์ดํฐ์ ๋ก๋ด ๋ฐ์ดํฐ์
์ ํฌํจํ 38๋ฐฑ๋ง ๊ฐ ๋น๋์ค๋ก ์ฌ์ ํ์ตํ์ฌ ๋น๋์ค ์์ฑ ๋ฅ๋ ฅ ํ๋ณด, (2) ๋ก๋ด ๊ถค์ ์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ์ฌ ํ๋ ์์ธก๊ณผ ๋น๋์ค ์์ฑ์ ๋์์ ํ์ตํ๋ค.
Achievement
Figure 3: Multi-Task Learning. We perform experiments in two basic settings (Simple and Distractor) and
- ๋๊ท๋ชจ ๋ฉํฐํ์คํฌ ํ์ต: 5,000๊ฐ์ ๊ถค์ (์์
๋น ํ๊ท 50๊ฐ)์ผ๋ก 100๊ฐ ์ด์์ ์กฐ์ ์์
์ ํ์ตํ๋ฉฐ 97.7% ํ๊ท ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ๊ฐ๋ ฅํ ์ผ๋ฐํ: ๋ฏธ๋ณด๊ธฐ ๋ฐฐ๊ฒฝ, ํ๊ฒฝ, ๋ฌผ์ฒด, ์์
์ ๋ํ ์์ธ์ ์ธ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ ํ๋ฉฐ 100๊ฐ ์ด์์ ๋ฌผ์ฒด๋ฅผ ํฌํจํ๋ ๋น ํฝํน์์ ๋ฏธ๋ณด๊ธฐ ๋ฌผ์ฒด ์ฒ๋ฆฌ
- ํ์ฅ ๊ฐ๋ฅ์ฑ: ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ํฅ์์ ๋ณด์ด๋ ๋ช
ํํ scaling law ์
์ฆ
- ํจ์จ์ ์ธ ํ์ต: ์ ํ๋ ๋ก๋ด ๋ฐ์ดํฐ(5,000๊ฐ ๊ถค์ )๋ก ์ฌ์ ํ์ต๋ ์ง์์ ์์ค ์์ด ์ ์ด
How
Figure 2: Pre-training Dataset. We show sample videos and the verb distribution of the pre-training dataset
- ๋น๋์ค ์ฌ์ ํ์ต: GPT-style transformer๋ก ํ
์คํธ ์ค๋ช
๊ณผ ๋น๋์ค ํ๋ ์์ผ๋ก๋ถํฐ ํฅํ ํ๋ ์์ ์์ธกํ๋ auto-regressive ์์ฑ ์์
์ํ
- ํ ํฐํ: ํ
์คํธ๋ frozen text encoder๋ก, ์ด๋ฏธ์ง๋ VQGAN์ผ๋ก discrete token์ผ๋ก ๋ณํ
- ๋ฉํฐ๋ทฐ ์ฒ๋ฆฌ: ๋ก๋ด ๋ฏธ์ธ์กฐ์ ๋จ๊ณ์์ ์ฌ๋ฌ ์นด๋ฉ๋ผ ๋ทฐ๋ฅผ gracefully ์ฒ๋ฆฌํ๋๋ก ์ค๊ณ
- ํ๋ ์์ฑ: conditional VAE (cVAE)๋ฅผ ์ฌ์ฉํ์ฌ ๋จ๊ณ ํ๋์ด ์๋ ๊ถค์ ์์ฑ์ผ๋ก ๋ถ๋๋ฌ์๊ณผ ์ค์๊ฐ ์ฑ๋ฅ ํ๋ณด
- ์ค์ ๋ก๋ด ๋ฐฐํฌ: Whole-Body Control (WBC) ์๊ณ ๋ฆฌ์ฆ์ผ๋ก Cartesian ๊ถค์ ์ ์ต์ ํํ์ฌ 7-DoF Kinova Gen3 ๋ก๋ด์ 200Hz๋ก ์คํ
Originality
- ๋๊ท๋ชจ ์ด์ง์ ์ฌ์ ํ์ต ๋ฐ์ดํฐ: 38๋ฐฑ๋ง ๊ฐ ๋น๋์ค(50์ต ๊ฐ ํ ํฐ)๋ก GR-1 ๋๋น ๊ท๋ชจ๋ฅผ ๋ํญ ํ์ฅํ๋ฉด์ ์์ค ์๋ ์ง์ ์ ์ด ์ํคํ
์ฒ ๊ฐ๋ฐ
- ์์ฑํ๊ณผ ํ๋ณํ ํ์ต์ ํตํฉ: ์ฌ์ ํ์ต์์ ๋น๋์ค ์์ฑ์ผ๋ก ์ธ๊ณ ์ญํ์ ํ์ตํ ํ, ๋ฏธ์ธ์กฐ์ ์์ ๋น๋์ค์ ํ๋์ ๋์ ์์ฑํ๋ ๋์ผ ์ถ๋ ฅ ๊ตฌ์กฐ
- ์ค์ ๋ฐฐํฌ ๊ณ ๋ ค: ๊ถค์ ์ต์ ํ์ ์ค์๊ฐ ๋ชจ์
์ถ์ ์ ๊ฒฐํฉํ WBC ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ค์ฉ์ ๋ก๋ด ๋ฐฐํฌ ๋ฌ์ฑ
Limitation & Further Study
- ๋ฐ์ดํฐ์
๊ท๋ชจ ์์กด์ฑ: ์ฌ์ ํ์ต ์ฑ๋ฅ์ด ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์ ์์กดํ์ฌ ๋ฆฌ์์ค ์ ๊ทผ์ฑ์ด ๋ฎ์ ์ฐ๊ตฌ ๊ธฐ๊ด์ ์ฌํ์ฑ ์ด๋ ค์
- ๋ฏธ์ธ์กฐ์ ๋ฐ์ดํฐ๋: 100๊ฐ ์ด์ ์์
์๋ ๋ถ๊ตฌํ๊ณ ์์
๋น ํ๊ท 50๊ฐ ๊ถค์ ๋ง ์ฌ์ฉํ์ฌ ๊ฐ ์์
์ ๋ค์์ฑ ๋ถ์กฑ ๊ฐ๋ฅ์ฑ
- ์ผ๋ฐํ์ ํ๊ณ: ๋ฏธ๋ณด๊ธฐ ์๋๋ฆฌ์ค์ ๊ฐํ์ง๋ง ๋ฌผ๋ฆฌ์ ํ๊ฒฝ์ ๊ทน๋จ์ ๋ณํ(๊ทน์ ์จ, ์ต์ง ๋ฑ)์ ๋ํ ํ๊ฐ ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ: ๋ ํจ์จ์ ์ธ ๋ฐ์ดํฐ ํ์ฉ ๋ฐฉ๋ฒ, ๊ฐํํ์ต๊ณผ์ ๊ฒฐํฉ, ๋ค์ค ๋ก๋ด ํ์
์๋๋ฆฌ์ค๋ก์ ํ์ฅ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: GR-2๋ ๋๊ท๋ชจ ๋น๋์ค ์ฌ์ ํ์ต๊ณผ ๋ก๋ด ๋ฐ์ดํฐ ๋ฏธ์ธ์กฐ์ ์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ๋ก๋ด ์กฐ์์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ๊ธฐ์ ์ผ๋ก ํฅ์์ํจ ๋
ผ๋ฌธ์ด๋ค. 100๊ฐ ์ด์์ ์์
์ ์์์ ๊ถค์ ์ผ๋ก ํ์ตํ๊ณ ๋ฏธ๋ณด๊ธฐ ์๋๋ฆฌ์ค์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ ์ค์ ๋ก๋ด ์์ฉ์ ๋์ ์ ์ฌ๋ ฅ์ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์