GAIA-1: A Generative World Model for Autonomous Driving
์ ์: Anthony Hu, Lloyd Russell, Hudson Yeo, Zak Murez, George Fedoseev | ๋ ์ง: 2023.09 | DOI: N/A 📄 PDF
Essence
GAIA-1์ ์์จ์ฃผํ์ ์ํ generative world model๋ก, ๋น๋์ค, ํ
์คํธ, ์ก์
์
๋ ฅ์ ์ด์ฉํ์ฌ ํ์ค์ ์ธ ์ฃผํ ์๋๋ฆฌ์ค๋ฅผ ์์ฑํ๋ค. ํ ํฐ ๊ธฐ๋ฐ์ autoregressive sequence modeling๊ณผ video diffusion decoder๋ฅผ ๊ฒฐํฉํ์ฌ ๊ณ ์ถฉ์ค๋์ ๋ฏธ๋ ํ๋ ์์ ์์ฑํ๊ณ , ์ฅ๋ฉด ์ญํ๊ณผ 3D ๊ธฐํํ์ ํ์ตํ๋ค.
Motivation
- Known: World model์ ์์จ์ฃผํ ์์คํ
์์ ๋ฏธ๋ ์์ธก์ ํตํด ์์ฌ๊ฒฐ์ ์ ์ง์ํ๋ ์ค์ํ ๊ธฐ์ ์ด๋ฉฐ, generative video model์ self-supervised learning์ผ๋ก ๋๊ท๋ชจ ๋ฐ์ดํฐ์์ ํ์ค์ ์ธ ๋น๋์ค๋ฅผ ์์ฑํ ์ ์๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด world model์ ๋ ์ด๋ธ ์์กด๋๊ฐ ๋๊ณ ์ ์ฐจ์ ํํ์ผ๋ก ์ธํด ๊ณ ์ถฉ์ค๋ ์์ฑ์ด ์ด๋ ต๋ค.
- Gap: ๊ธฐ์กด world model์ ํ์ค์ ์ธ ์ํ ์์ฑ์ ํ๊ณ๊ฐ ์์ผ๋ฉฐ, generative video model์ ๋ฏธ๋ ์ญํ์ ์ถฉ๋ถํ ํ์ตํ์ง ๋ชปํ๋ค. ๋ฐ๋ผ์ ๋์ ํ์ค์ฑ์ ์ ์งํ๋ฉด์๋ ์๋ฏธ ์๋ ๋ฏธ๋ ํํ์ ๋์์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ด ํ์ํ๋ค.
- Why: ์์จ์ฃผํ ์์คํ
์์ ์์ ํ๊ณ ํจ์จ์ ์ธ ์์ฌ๊ฒฐ์ ์ ์ํด์๋ ์ ํํ ๋ฏธ๋ ์์ธก๊ณผ ๊ณ ์ถฉ์ค๋์ ์๊ฐ์ ํ์ค์ฑ์ด ๋ชจ๋ ํ์์ ์ด๋ฉฐ, ๋ฉํฐ๋ชจ๋ฌ ์กฐ๊ฑด๋ถ ์์ฑ ๋ฅ๋ ฅ์ ๋ค์ํ ์ฃผํ ์๋๋ฆฌ์ค ์๋ฎฌ๋ ์ด์
์ ์ ์ฉํ๋ค.
- Approach: ๋ชจ๋ธ์ ๋ ๋ถ๋ถ์ผ๋ก ๋ถํ : (1) vector-quantized image tokenizer๋ฅผ ํตํด ๋น๋์ค, ํ
์คํธ, ์ก์
์ discrete token์ผ๋ก ์ธ์ฝ๋ฉํ๊ณ autoregressive transformer๋ก ๋ค์ token์ ์์ธกํ๋ world model, (2) ์์ธก๋ token์ ๊ณ ํด์๋ ๋น๋์ค๋ก ๋ ๋๋งํ๊ณ temporal upsampling์ ์ํํ๋ multi-task video diffusion decoder. Factorized spatio-temporal positional embedding์ ์ฌ์ฉํ์ฌ ์
๋ ฅ token์ ์์น๋ฅผ ์ธ์ฝ๋ฉํ๋ค.
Achievement
- ๊ณ ํ์ค์ฑ ๋ค์ค ์กฐ๊ฑด ๋น๋์ค ์์ฑ: ํ
์คํธ(์ ํธ ์ํ, ๋ ์จ), ์ก์
(์๋, ๊ณก๋ฅ ), ๋น๋์ค ํ๋กฌํํธ ์กฐ๊ฑด์ผ๋ก ํ์ค์ ์ธ ์ฃผํ ์๋๋ฆฌ์ค ์์ฑ - ์๋ฏธ๋ก ์ ํํ ํ์ต: ์ ์ /๋์ ๊ฐ์ฒด(์๋์ฐจ, ๋ฒ์ค, ๋ณดํ์, ์ ํธ๋ฑ)์ ๋๋ก ๋ ์ด์์ ์ดํด - 3D ๊ธฐํํ ์ดํด: ์๋ ๋ฒํ๋ก ์ธํ ํผ์น/๋กค ํจ๊ณผ ์ ํ ํฌ์ฐฉ - ์ธ๊ณผ๊ด๊ณ ํ์ต: ํ ์ฐจ๋์ ๋ฐ์์ ํ๋๊ณผ ์์ฌ๊ฒฐ์ ์ดํด - ์ธ์ฝ ๋ฅ๋ ฅ: ํ๋ จ ๋ฐ์ดํฐ ๋ฒ์๋ฅผ ๋ฒ์ด๋ ๋๋ก ๋ฐ ์ฃผํ ์๋ฎฌ๋ ์ด์
- ํฌ๊ธฐ ํ์ฅ์ฑ: ์ธ์ด๋ชจ๋ธ์ฒ๋ผ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ํฅ์ ์ ์ฌ๋ ฅ
How
- Image tokenizer: ์ฌ์ ํ์ต๋ discretization ๋ชจ๋ธ๋ก ๊ฐ ํ๋ ์์ 576๊ฐ discrete token์ผ๋ก ๋ณํ - Text encoding: T5-large๋ก ์๊ฐ๋จ๊ณ๋ณ 32๊ฐ text token ์์ฑํ๊ณ linear layer๋ก d์ฐจ์์ผ๋ก ๋งคํ - Action encoding: ์๋์ ๊ณก๋ฅ 2๊ฐ scalar๋ฅผ ๊ฐ๊ฐ d์ฐจ์์ผ๋ก linear ๋ณํ - Token interleaving: ์๊ฐ๋จ๊ณ๋ณ๋ก text-image-action ์์๋ก ํฉ์นจ - World model: Autoregressive transformer๊ฐ ๊ณผ๊ฑฐ ์ด๋ฏธ์ง/ํ
์คํธ/์ก์
token์ผ๋ก๋ถํฐ ๋ค์ image token ์์ธก - Video decoder: Diffusion ๊ธฐ๋ฐ์ผ๋ก ์์ธก๋ token์ ๊ณ ํด์๋ ๋น๋์ค๋ก ๋ณํํ๋ฉด์ temporal upsampling
Originality
- ๊ธฐ์กด world model๊ณผ generative video model์ ๊ฐ์ ์ ๊ฒฐํฉํ ์๋ก์ด ์ํคํ
์ฒ - ๋น๋์ค, ํ
์คํธ, ์ก์
์ ํตํฉ multi-modal conditioning์ผ๋ก ๋ฏธ์ธํ ์ ์ด ๊ฐ๋ฅ - Image tokenizer์ DINO distillation์ ํตํ ์๋ฏธ๋ก ์ ์ฝํ
์ธ ๊ฐํ (Fig 3) - Factorized spatio-temporal positional embedding์ ์ ์ฉ
Limitation & Further Study
- ํ๊ฐ ๋ฐฉ์: ์ ์ฑ์ ๊ฒฐ๊ณผ์ ์์์ ์ฃผ๋ก ์์กดํ๋ฉฐ, ์ ๋์ ํ๊ฐ ์งํ(metrics)๊ฐ ์ ์๋์ง ์์ - ๋ฐ์ดํฐ ๋ฒ์: ์๊ตญ ๋์ ์ฃผํ ๋ฐ์ดํฐ๋ก๋ง ํ์ต๋์ด ๋ค๋ฅธ ํ๊ฒฝ(๊ณ ์๋๋ก, ์
์ฒํ, ๋ค๋ฅธ ๊ตญ๊ฐ)์ผ๋ก์ ์ผ๋ฐํ ๋ฏธ๊ฒ์ฆ - ๋น๊ต ๋ถ์: ๊ธฐ์กด ๋ฐฉ๋ฒ๊ณผ์ ์ง์ ์ ์ธ ๋น๊ต๊ฐ ๋ถ์กฑํจ - ๊ณ์ฐ ๋น์ฉ: ๋ชจ๋ธ ํฌ๊ธฐ(4096 ์ฐจ์)์ inference ์๊ฐ์ ๋ํ ๋ถ์ ๋ฏธํก - ๋ค์ ๋จ๊ณ: ์ค์ ์์จ์ฃผํ ์์คํ
์ฑ๋ฅ ํฅ์์ ๋ฏธ์น๋ ์ํฅ์ ์ง์ ๊ฒ์ฆํ๋ ์คํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5
์ดํ: GAIA-1์ ์์จ์ฃผํ์ ์ํ world model ์ค๊ณ์ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค. Generative model๊ณผ world model์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ๊ณ multi-modal ์กฐ๊ฑด๋ถ ์์ฑ์ ๊ตฌํํ ์ ์ด ๊ฐ์ ์ด๋, ์ ๋์ ํ๊ฐ ๋ถ์กฑ๊ณผ ์ผ๋ฐํ ๋ฒ์ ์ ํ์ด ์ฝ์ ์ด๋ค. ํฅํ ์ ์์ ๋ฒค์น๋งํน๊ณผ ์ค์ ์์จ์ฃผํ ์ฑ๋ฅ ํฅ์ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์