Learning Universal Policies via Text-Guided Video Generation
์ ์: Yilun Du, Mengjiao Yang, Bo Dai, Hanjun Dai, Ofir Nachum, Joshua B. Tenenbaum, Dale Schuurmans, Pieter Abbeel | ๋ ์ง: 2023-01-31 | URL: https://arxiv.org/abs/2302.00111 📄 PDF
Essence
Figure 1: Text-Conditional Video Generation as Universal Policies. Text-conditional video generations
ํ
์คํธ ์กฐ๊ฑด๋ถ video generation์ ์ฌ์ฉํ์ฌ ๋ค์ํ ํ๊ฒฝ์์ ์๋ํ๋ ๋ฒ์ฉ ์ ์ฑ
์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, ํ์ฌ ์ด๋ฏธ์ง์ ํ
์คํธ ๋ชฉํ ์ค๋ช
์ผ๋ก๋ถํฐ ๋ฏธ๋ ํ๋ ์ ์ํ์ค๋ฅผ ์์ฑํ ํ inverse dynamics model๋ก ์ก์
์ ์ถ์ถํ๋ค.
Motivation
- Known: ํ
์คํธ ๊ธฐ๋ฐ ์ด๋ฏธ์ง ํฉ์ฑ ๋ชจ๋ธ๋ค์ด ๋ฐ์ด๋ ์กฐํฉ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ด๊ณ ์์ผ๋ฉฐ, ๊ฐํํ์ต์์ ๋ค์ํ ์์
์ ์ํํ๋ ๋ฒ์ฉ ์์ด์ ํธ ๊ตฌ์ถ์ด ์ค์ํ ๋ชฉํ์ด๋ค.
- Gap: ์๋ก ๋ค๋ฅธ ์ํ-์ก์
๊ณต๊ฐ์ ๊ฐ์ง ํ๊ฒฝ๋ค ๊ฐ์ ์ง์ ๊ณต์ ์ ์ผ๋ฐํ๊ฐ ์ด๋ ต๊ณ , ํ๊ฒฝ๋ณ๋ก ์๋ก ๋ค๋ฅธ reward function ์ค๊ณ๊ฐ ํ์ํ๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค.
- Why: ๋ฒ์ฉ ์ ์ฑ
ํ์ต์ ๋ค์ํ ๋ก๋ด ์์
๊ณผ ํ๊ฒฝ์ ํ์ฅ ๊ฐ๋ฅํ AI ์์ด์ ํธ ๊ตฌ์ถ์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ์ธํฐ๋ท ๊ท๋ชจ์ video ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ง์ ์ ์ด๋ฅผ ํตํด ์ค์ ๋ก๋ด ์ ์ด์ ์ ์ฉํ ์ ์๋ค.
- Approach: Unified Predictive Decision Process (UPDP)๋ผ๋ ์๋ก์ด ์ถ์ํ๋ฅผ ์ ์ํ์ฌ ์ด๋ฏธ์ง๋ฅผ ํ๊ฒฝ ๊ฐ ๋ฒ์ฉ ์ธํฐํ์ด์ค๋ก, ํ
์คํธ๋ฅผ ์์
์ง์ ์๋ก ์ฌ์ฉํ๊ณ , video diffusion ๋ชจ๋ธ์ ํตํด ํ
์คํธ ์กฐ๊ฑด๋ถ video generation์ ์ํํ ํ ์ก์
์ ํ๊ทํ๋ค.
Achievement
Figure 3: Combinatorial Video Generation. Generated videos for unseen language goals at test time.
- ์กฐํฉ์ ์ผ๋ฐํ: ํ
์คํธ์ ์กฐํฉ์ ํน์ฑ์ ํ์ฉํ์ฌ ๋ฏธํ์ตํ ์๋ก์ด ๊ฐ์ฒด ๋ฐฐ์น์ ๊ธฐํํ์ ๊ด๊ณ์ ์ผ๋ฐํ ๊ฐ๋ฅ
- ๋ค์ค ์์
ํ์ต: video prediction์ผ๋ก ๋ค์ํ ์ธ์ด ์กฐ๊ฑด๋ถ ์์
๊ฐ ํ์ต์ด ๊ฐ๋ฅํ๋ฉฐ ํ
์คํธ ์๊ฐ์ ํ์ธํ๋ ์์ด ์๋ก์ด ์์
์ ์ผ๋ฐํ
- ๊ณ์ธต์ ๋ฐ ์กฐํฅ ๊ฐ๋ฅํ ๊ณํ: ํฌ์ํ ํ๋ ์ ์ํ์ค๋ถํฐ ์ธ๋ถ ๊ณํ์ผ๋ก ์ ์ ํ๋ ๊ณ์ธต์ ์์ฑ๊ณผ ํ
์คํธ ์๊ฐ ์ ์ฝ ์กฐ๊ฑด ์ถ๊ฐ๋ฅผ ํตํ ๊ณํ ์กฐ์ ๊ฐ๋ฅ
- ์ธํฐ๋ท ๊ท๋ชจ ์ง์ ์ ์ด: ๋๊ท๋ชจ ํ
์คํธ-๋น๋์ค ๋ฐ์ดํฐ์
์ผ๋ก ์ฌ์ ํ์ต๋ model์ ํตํด ํ์ค์ ์ธ ๋ก๋ด ๋์ ํฉ์ฑ ๊ฐ๋ฅ
How
Figure 2: Given an input observation and text instruction, we
- UPDP ์ถ์ํ ๋์
: ์ด๋ฏธ์ง ๊ณต๊ฐ X, ํ
์คํธ ๊ณต๊ฐ C, ์ํ์ H, ์กฐ๊ฑด๋ถ video generator ฯ(ยท|xโ, c)๋ก ์ ์
- Video diffusion ๋ชจ๋ธ ํ์ฉ: ํ์ฌ ์ด๋ฏธ์ง ํ๋ ์๊ณผ ํ
์คํธ ๋ชฉํ ์ค๋ช
์ ์กฐ๊ฑด์ผ๋ก ํ์ฌ H-step ์ด๋ฏธ์ง ์ํ์ค ์์ฑ
- Inverse dynamics ๋ชจ๋ธ: ์์ฑ๋ ๋น๋์ค๋ก๋ถํฐ underlying ์ก์
์ถ์ถ
- ์คํ๋ผ์ธ RL ์ค์ : ๊ธฐ์กด ๊ฒฝํ ๋ฐ์ดํฐ์
D๋ก๋ถํฐ ฯ์ ์ ์ฑ
ฯ ํ์ต
- Multi-task ํ์ต: ๋ค์ํ ์์
์ (์ด๋ฏธ์ง, ์ก์
, ํ
์คํธ ์ค๋ช
) ๋ฐ์ดํฐ๋ก unified ์ ์ฑ
ํ๋ จ
- ๊ณ์ธต์ ์ํ๋ง: ํฌ์ ํ๋ ์์ ๋จผ์ ์์ฑํ ํ ์์ธํํ๋ ๋ ๋จ๊ณ ์์ฑ ํ๋ก์ธ์ค
Originality
- MDP ๋์ UPDP๋ผ๋ ์๋ก์ด ์ถ์ํ ํ๋ ์์ํฌ ์ ์์ผ๋ก ํ๊ฒฝ ๋ค์์ฑ ๋ฌธ์ ํด๊ฒฐ
- Video๋ฅผ ๋ฒ์ฉ ์ธํฐํ์ด์ค๋ก ์ฌ์ฉํ์ฌ ์๋ก ๋ค๋ฅธ ์ํ-์ก์
๊ณต๊ฐ์ ๊ฐ์ง ํ๊ฒฝ๋ค์ ํตํฉ
- Planning๊ณผ ์ก์
์ ํ์ ๋ถ๋ฆฌํ์ฌ ํ๊ฒฝ-๋ฌด์ข
์ ๊ณํ ๊ฐ๋ฅ
- ์ธํฐ๋ท ๊ท๋ชจ video ๋ฐ์ดํฐ๋ฅผ ์ค์ ๋ก๋ด ์ ์ด์ ํ์ฉํ๋ ์๋ก์ด ์ง์ ์ ์ด ๊ฒฝ๋ก ์ ์
Limitation & Further Study
- ์คํ๋ผ์ธ RL ์ค์ ์ผ๋ก ์ ํ๋์ด ์จ๋ผ์ธ ํ์ต์ด๋ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ ๋ฏธ์ง์
- Inverse dynamics ๋ชจ๋ธ์ ์ ํ๋์ ์์กดํ๋ฏ๋ก ์ก์
์ถ์ถ ์ค๋ฅ ๋์ ๊ฐ๋ฅ
- Video generation์ ๊ณ์ฐ ๋น์ฉ์ด ๋์ ์ ์์ด ์ค์๊ฐ ์ ์ด ์ ์ฉ์ ํ๊ณ
- ์ธํฐ๋ท video ๋ฐ์ดํฐ์ ๋ค์์ฑ์ด ํน์ ๋ก๋ด ํํ๋ ํ๊ฒฝ์๋ ์ผ๋ฐํ ์ด๋ ค์ธ ์ ์์
- ํ์์ฐ๊ตฌ: ์จ๋ผ์ธ ๊ฐํํ์ต๊ณผ์ ๊ฒฐํฉ, ๋ ํจ์จ์ ์ธ ์ก์
์ถ์ถ ๋ฐฉ๋ฒ, ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ ๋ํ ์ ์ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ video generation์ ํตํ ๋ฒ์ฉ ์ ์ฑ
ํ์ต์ด๋ผ๋ ์ฐฝ์์ ์ธ ์ ๊ทผ์ผ๋ก ํ๊ฒฝ ๋ค์์ฑ๊ณผ reward ์ค๊ณ ๋ฌธ์ ๋ฅผ ์ฐ์ํ๊ฒ ํด๊ฒฐํ๋ฉฐ, ์กฐํฉ์ ์ผ๋ฐํ์ ์ธํฐ๋ท ๊ท๋ชจ ์ง์ ์ ์ด๋ฅผ ํตํด ๊ฐํํ์ต ๋ถ์ผ์ ์๋นํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์