Learning Interactive Real-World Simulators
์ ์: Sherry Yang, Yilun Du, Kamyar Ghasemipour, Jonathan Tompson, Leslie Kaelbling, Dale Schuurmans, Pieter Abbeel | ๋ ์ง: 2023-10-09 | URL: https://arxiv.org/abs/2310.06114 📄 PDF
Essence
Figure 1: A universal simulator (UniSim). The simulator of the real-world learns from broad data with diverse
์ธํฐ๋ท ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ต๋ generative model์ ๊ธฐ๋ฐ์ผ๋ก ์ธ๊ฐ, ๋ก๋ด ๋ฑ์ ์ํธ์์ฉ์ ๋ํ ์๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์๋ฎฌ๋ ์ด์
ํ๋ universal simulator (UniSim)๋ฅผ ์ ์ํ๋ค. ๋ค์ํ ๋ฐ์ดํฐ์
์ ํตํฉํ์ฌ ์ธ์ด ์ง์, ๋ก๋ด ์ ์ด, ์ธ๊ฐ ํ๋ ๋ฑ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ์ ํ๋์ ์
๋ ฅ๋ฐ์ ์ผ๊ด์ฑ ์๋ ๋น๋์ค๋ฅผ ์์ฑํ๋ค.
Motivation
- Known: Generative model๋ค์ด ํ
์คํธ, ์ด๋ฏธ์ง, ๋น๋์ค ์์ฑ์ ํ์ ์ ๊ฐ์ ธ์์ผ๋ฉฐ, ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ๋ก๋ด ํ์ต๊ณผ sim-to-real transfer๋ ํ๋ฐํ ์ฐ๊ตฌ๋๊ณ ์๋ค. ๊ทธ๋ฌ๋ ์๋ก ๋ค๋ฅธ ํน์ฑ์ ๋ฐ์ดํฐ์
(๋ก๋ด ์ ์ด, ์ธ๊ฐ ํ๋, ์ด๋ฏธ์ง ๋ฑ)์ ํตํฉํ์ฌ ํต์ผ๋ ์ธํฐ๋ํฐ๋ธ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ๊ตฌ์ถํ๋ ๊ฒ์ ๋ฏธํด๊ฒฐ ๊ณผ์ ์ด๋ค.
- Gap: ๊ธฐ์กด ์๋ฎฌ๋ ์ดํฐ๋ค์ ํน์ ๋๋ฉ์ธ์ ์ ํ๋์ด ์์ผ๋ฉฐ, ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ์ ํ๋๊ณผ ์ด์ง์ ์ธ ๋ฐ์ดํฐ์
์ ํตํฉํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค. ๋ํ ํ์ค๊ณผ ๊ฑฐ์ ๊ตฌ๋ณ๋์ง ์๋ ๊ณ ํ์ง์ ๋น๋์ค๋ฅผ ์ฅ๊ธฐ๊ฐ ์ผ๊ด์ฑ ์๊ฒ ์์ฑํ๋ ๊ฒ์ด ์ด๋ ต๋ค.
- Why: ํตํฉ ์๋ฎฌ๋ ์ดํฐ๋ ๊ฒ์/์ํ ์ฝํ
์ธ ์์ฑ, ์์ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ํ์ตํ embodied agent์ ์ค์ ๋ก๋ด ๋ฐฐํฌ, ๋๋ฌผ๊ณ ์ํํ ์ด๋ฒคํธ ์๋ฎฌ๋ ์ด์
๋ฑ ๊ด๋ฒ์ํ ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ์ฌ AI ํ์ต์ ํจ์จ์ฑ๊ณผ ์์ ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: ๋ค์ํ ๋ฐ์ดํฐ์
(๋ก๋ด ๋ฐ์ดํฐ, ์ธ๊ฐ ํ๋, ํ๋
ธ๋ผ๋ง ์ค์บ, ํ
์คํธ-์ด๋ฏธ์ง ๋ฐ์ดํฐ ๋ฑ)์ ํตํฉํ๊ธฐ ์ํด ๋ชจ๋ ํ๋์ T5 ์๋ฒ ๋ฉ๊ณผ discretized ์ ์ด๊ฐ์ผ๋ก ์ ๊ทํํ๊ณ , ์ด๋ฅผ ์กฐ๊ฑด์ผ๋ก ํ๋ video diffusion model์ observation prediction ํ๋ ์์ํฌ๋ก ํ์ตํ๋ค. Autoregressive rollout์ ํตํด ์ฅ๊ธฐ๊ฐ ์ผ๊ด์ฑ ์๋ ์๋ฎฌ๋ ์ด์
์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Achievement
Figure 3: Action-rich simulations. UniSim can support manipulation actions such as โcut carrotsโ, โwash
- ๋ค์ํ ๋ฐ์ดํฐ์
ํตํฉ: ์ด์ง์ ์ธ 6๊ฐ์ง ๋ฐ์ดํฐ ํ์
(์๋ฎฌ๋ ์ด์
, ๋ก๋ด, ์ธ๊ฐํ๋, ํ๋
ธ๋ผ๋ง, ํ
์คํธ-์ด๋ฏธ์ง)์ unified action-in-video-out ์ธํฐํ์ด์ค๋ก ํตํฉํ์ฌ ๋ค์ค ๋ชจ๋ฌ ์ํธ์์ฉ์ ์ง์
- ์ฅ๊ธฐ ์ผ๊ด์ฑ ์์ฑ: Observation prediction model์ autoregressive rollout์ ํตํด ๋น๋์ค ์์ฑ ๊ฒฝ๊ณ๋ฅผ ๋์ด ์ผ๊ด์ฑ ์๋ 8๋จ๊ณ ์ด์์ ์ฅ๊ธฐ ์ํธ์์ฉ ์๋ฎฌ๋ ์ด์
๋ฌ์ฑ
- Zero-shot sim-to-real transfer: UniSim์์๋ง ํ์ตํ vision-language policy์ RL ๊ธฐ๋ฐ ์ ์์ค ์ ์ด ์ ์ฑ
์ด ์ถ๊ฐ ํ์ต ์์ด ์ค์ ๋ก๋ด์์ ๋์
- ๋ค์ํ ์์ฉ ๊ฐ๋ฅ์ฑ: ๋๋ฌผ๊ฑฐ๋ ์ํํ ์ด๋ฒคํธ ์์ฑ, ๋น๋์ค ์บก์
๋ ๋ชจ๋ธ ํ์ต ๋ฑ embodied learning ์ด์ธ์ ๊ด๋ฒ์ํ ํ์ฉ ์ฌ๋ก ์์ฐ
How
Figure 2: Training and inference of UniSim. UniSim is a video diffusion model trained to predict the
- ๊ฐ ๋ฐ์ดํฐ์
์ ํ๋์ T5 language model ์๋ฒ ๋ฉ๊ณผ discretized control values๋ก ๋ณํํ์ฌ unified continuous action space ๊ตฌ์ฑ
- Panorama ์ค์บ์์ camera pose ์ ๋ณด๋ฅผ ์ด์ฉํด 'turn left' ๊ฐ์ ํ๋ ๋ ์ด๋ธ ์์ฑ", '์ธ๊ฐํ๋ ๋น๋์ค์์ ๋ถ๋ฅ ๋ ์ด๋ธ์ ํ
์คํธ ํ๋์ผ๋ก ๋ณํํ๊ณ ํ๋ ์ ๋ ์ดํธ ์กฐ์
- Video diffusion model์ ์กฐ๊ฑด๋ถ ์์ฑ ๋ชจ๋ธ๋ก ์ฌ์ฉํ์ฌ ๊ณผ๊ฑฐ ๊ด์ธก(htโ1)๊ณผ ํ๋(atโ1)์ ์
๋ ฅ๋ฐ์ ๋ค์ ๋น๋์ค ํ๋ ์ ์์ธก
- ์ด์ ํ๋ ์์ ์ด๊ธฐ ๋
ธ์ด์ฆ์ ์ฐ๊ฒฐํ์ฌ autoregressiveํ๊ฒ ๋ค์ ์ธ๊ทธ๋จผํธ ์์ฑํจ์ผ๋ก์จ ์ฅ๊ธฐ๊ฐ ์ผ๊ด์ฑ ์ ์ง
- Hindsight relabeling์ ํตํด high-level vision-language policy ํ์ต
- Model-based RL์ ์ด์ฉํ low-level ๋ก๋ด ์ ์ด ์ ์ฑ
ํ์ต
Originality
- ์ฒซ ๋ฒ์งธ universal simulator ์๋: ๋ค์ํ ๋ฐ์ดํฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ๋จ์ผ action-in-video-out ์ธํฐํ์ด์ค๋ก ํตํฉํ ์ต์ด์ ๋๊ท๋ชจ interactive simulator
- ์ด์ง์ ๋ฐ์ดํฐ์
์ค์ผ์คํธ๋ ์ด์
: ๊ฐ ๋ฐ์ดํฐ์
์ด ์ ๊ณตํ๋ ์๋ก ๋ค๋ฅธ ์ ๋ณด ์ฐจ์(๊ฐ์ฒด, ํ๋, ๋ชจ์
, ์ธ์ด)์ ์ฒด๊ณ์ ์ผ๋ก ํ์ฉํ๋ ๋ฐฉ๋ฒ๋ก
- Observation prediction ํ๋ ์์ํน: Video diffusion์ observation prediction ๋ฌธ์ ๋ก ์ฌ๊ตฌ์ฑํ์ฌ autoregressive long-horizon ์๋ฎฌ๋ ์ด์
๊ฐ๋ฅํ๊ฒ ํจ
- Unified action representation: ํ
์คํธ, ๋ก๋ด ์ ์ด, camera ๋ชจ์
๋ฑ ์ด์ง์ ์ธ ํ๋์ ๋จ์ผ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ๋งคํ
Limitation & Further Study
- ์ ํ๋ ๋ชจ๋ฌ๋ฆฌํฐ ๋ฒ์: ์์ฑ ์๋ฎฌ๋ ์ด์
๋ฏธ์ง์, ์ ์ ์ด๋ฏธ์ง๋ฅผ ๋จ์ผ ํ๋ ์ ๋น๋์ค๋ก ์ทจ๊ธํ์ฌ ์ค์ ๋ชจ์
์ ๋ณด ๋ถ์กฑ
- Dataset ํ์ง ์์กด์ฑ: ๊ฐ ๋ฐ์ดํฐ์
์ ์ด์ง์ฑ๊ณผ ๋ถ๊ท ํ์ด ์ต์ข
์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ๋ถ์ ๋ถ์กฑ
- ํ์ค์ฑ ํ๊ฐ ๋ถ์ฌ: 'ํ์ค๊ณผ ๊ฑฐ์ ๊ตฌ๋ณ๋์ง ์๋ ๋น๋์ค'๋ฅผ ์ฃผ์ฅํ๋ ์ ๋์ ํ๊ฐ ๋ฉํธ๋ฆญ ์ ํ์ ", 'Sim-to-real ์ผ๋ฐํ ๋ฒ์: ์ ์๋ ๋ก๋ด ์คํ์ด ์ ํ์ ์ด๋ฉฐ, ๋ค์ํ ํ๊ฒฝ๊ณผ ์์
์ ๋ํ ์ค์ ๋ก๋ด ๊ฒ์ฆ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ: ๋ ๋์ ํด์๋ ์์ฑ, ๋ฌผ๋ฆฌ์ ์ ํ์ฑ ํฅ์, ๋ ๋ค์ํ ๋ก๋ด๊ณผ ํ๊ฒฝ์์์ ๊ฒ์ฆ, ์์ฑ ๋ฐ ์ด๊ฐ ์ ๋ณด ํตํฉ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ด์ง์ ์ธ ๋ค์ค ๋ฐ์ดํฐ์
์ unified ์ธํฐํ์ด์ค๋ก ํตํฉํ์ฌ interactive real-world simulator๋ฅผ ๊ตฌ์ถํ ์๋ฏธ ์๋ ์์
์ผ๋ก, video diffusion model์ ํ์ฉํ ๊ธฐ์ ์ ๊ตฌํ๊ณผ ๋ค์ํ ์์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋ค. ๋ค๋ง ํ์ค์ฑ ๊ฒ์ฆ์ ์ ๋์ฑ๊ณผ ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ๊ด๋ฒ์ํ ๊ฒ์ฆ์ด ์ถ๊ฐ๋๋ฉด ๋์ฑ ๊ฐ๋ ฅํ ๊ธฐ์ฌ๊ฐ ๋ ์ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์