A Comprehensive Survey on World Models for Embodied AI
์ ์: Xinqing Li, Xin He, Le Zhang, Min Wu, Xiaoli Li, Yun Liu | ๋ ์ง: 2025-10-19 | URL: https://arxiv.org/abs/2510.16732 📄 PDF
Essence
Fig. 1. Structure of this survey. The figure classifies world models along three axes and illustrates representative met
Embodied AI๋ฅผ ์ํ World Models์ ๋ํ ํฌ๊ด์ ์กฐ์ฌ๋ก, Functionality, Temporal Modeling, Spatial Representation์ ์ธ ์ถ ๋ถ๋ฅ์ฒด๊ณ๋ฅผ ์ ์ํ์ฌ ํ๊ฒฝ ๋์ญํ์ ์บก์ฒํ๊ณ ์์ธกํ๋ ๋ด๋ถ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ๋ค.
Motivation
- Known: World Models๋ model-based RL์์ ์ถ๋ฐํ์์ผ๋ฉฐ, ์ต๊ทผ ๋๊ท๋ชจ ์์ฑ ๋ชจ๋ธ ๋ฐ์ ์ผ๋ก ๊ณ ์ถฉ์ค๋ ์์ธก์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋ฒ์ฉ ํ๊ฒฝ ์๋ฎฌ๋ ์ดํฐ๋ก ํ์ฅ๋์๋ค. ๊ธฐ์กด ์กฐ์ฌ๋ค์ ๊ธฐ๋ฅ ์ค์ฌ ๋๋ ์์ฉ ์ค์ฌ์ผ๋ก ์ธ๋ถํ๋์ด ์๋ค.
- Gap: World Models์ ๋ํ ํต์ผ๋ ๋ถ๋ฅ์ฒด๊ณ์ ํ๊ฐ ์งํ์ ๋ถ์ฌ๋ก ์ธํด ์๋ก ๋ค๋ฅธ ํ์ ์ปค๋ฎค๋ํฐ ๊ฐ ์ฉ์ด ๋ถ์ผ์น๊ฐ ๋ฐ์ํ๊ณ ์์ผ๋ฉฐ, ํตํฉ ๋ฐ์ดํฐ์
๊ณผ ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ์ ํ๊ฐํ๋ ๋ฉํธ๋ฆญ์ด ๋ถ์กฑํ๋ค.
- Why: Embodied AI ์์ด์ ํธ์ ์ฑ๋ฅ์ ์๊ฐ์ ์ผ๊ด์ฑ, ๊ธฐํํ์ ์ ํ์ฑ, ์ค์๊ฐ ์ ์ด์ ๊ณ์ฐ ํจ์จ์ฑ์ ํฌ๊ฒ ์์กดํ๋ฉฐ, ์ด๋ฅผ ์ํด์๋ ์๊ฐ์ ๋ชจ๋ธ๋ง๊ณผ ๊ณต๊ฐ ํํ์ ์ค๊ณ๊ฐ ๊ทผ๋ณธ์ ์ธ ์ํฅ์ ๋ฏธ์น๋ค.
- Approach: Decision-Coupled vs. General-Purpose, Sequential Simulation & Inference vs. Global Difference Prediction, Global Latent Vector๋ถํฐ Decomposed Rendering Representation๊น์ง ์ธ ์ถ์ผ๋ก ๊ตฌ์ฑ๋ ํตํฉ ๋ถ๋ฅ์ฒด๊ณ๋ฅผ ์ ์ํ๊ณ , ๋ก๋ณดํฑ์ค, ์์จ์ฃผํ, ์ผ๋ฐ ๋น๋์ค ์ค์ ์์ ๋ฐ์ดํฐ์
๊ณผ ํ๊ฐ ๋ฉํธ๋ฆญ์ ์ฒด๊ณํํ๋ค.
Achievement
Fig. 1. Structure of this survey. The figure classifies world models along three axes and illustrates representative met
- ํตํฉ ๋ถ๋ฅ์ฒด๊ณ: Functionality, Temporal Modeling, Spatial Representation์ ์ธ ์ถ์ผ๋ก world models๋ฅผ ์กฐ์งํํ์ฌ ๊ธฐ์กด ์กฐ์ฌ๋ค์ ์ฐ์ฌ๋ ๊ด์ ์ ํตํฉํ ํ๋ ์์ํฌ ์ ์
- ์ํ์ ์ ์ํ: POMDP ๊ธฐ๋ฐ์ dynamics prior, filtered posterior, reconstruction์ ๋ช
ํํ ์ ์ํ๊ณ ELBO ์ต์ ํ ๋ชฉํ๋ฅผ ์๋ฆฝํ์ฌ ์ด๋ก ์ ๊ธฐ์ด ๊ฐํ
- ํฌ๊ด์ ์์ ์ ๋ฆฌ: ๋ก๋ณดํฑ์ค, ์์จ์ฃผํ, ์ผ๋ฐ ๋น๋์ค ๋๋ฉ์ธ์ ๊ฑธ์ณ ๋ฐ์ดํฐ์
๊ณผ ํ๊ฐ ๋ฉํธ๋ฆญ(ํฝ์
์์ธก ํ์ง, ์ํ ์์ค ์ดํด, ํ์คํฌ ์ฑ๋ฅ)์ ์ฒด๊ณํ
- ์ ๋์ ๋น๊ต๋ถ์: ์ต์ state-of-the-art ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ ๋น๊ต ๋ฐ ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ ๋ ํฝ์
์ถฉ์ค๋, ์ฑ๋ฅ ๋ ๊ณ์ฐ ํจ์จ์ฑ ๊ฐ ํธ๋ ์ด๋์คํ ๋ถ์
- ๋ฏธ๊ฐ์ฒ ๊ณผ์ ๋์ถ: ์ฅ๊ธฐ ์๊ฐ์ ์ผ๊ด์ฑ ๋ฌ์ฑ๊ณผ ์ค์ฐจ ์ถ์ ์ํ์ ํต์ฌ ๋ชจ๋ธ๋ง ์ด๋ ค์์ ํน์ ํ๊ณ ์ค์๊ฐ ์ ์ด์ ๊ณ์ฐ ๋ณต์ก์ฑ ๋ฌธ์ ์ ๊ธฐ
How
Fig. 1. Structure of this survey. The figure classifies world models along three axes and illustrates representative met
- POMDP ํ๋ ์์ํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก latent state zt์ ๋ํ one-step filtering posterior qฯ(zt | ztโ1, atโ1, ot)๋ก ๋ถ๋ถ ๊ด์ธก์ฑ ์ฒ๋ฆฌ
- Markovian factorization ๊ฐ์ ํ์ ELBO๋ฅผ reconstruction ๋ชฉํ log pฮธ(ot | zt)์ KL ์ ๊ทํ ํญ์ผ๋ก ๋ถํดํ์ฌ ํ์ต ๋ชฉํ ์๋ฆฝ
- Decision-Coupled ๋ชจ๋ธ์ ํน์ ์์ฌ๊ฒฐ์ ํ์คํฌ์ ์ต์ ํ๋ ๋์ญํ์ ํ์ตํ๊ณ , General-Purpose ๋ชจ๋ธ์ ํ์คํฌ ๋ถ๊ฐ์ง๋ก ์ ํ๊ฒฝ ์๋ฎฌ๋ ์ดํฐ๋ก ์ค๊ณ
- Sequential Simulation & Inference๋ ์๊ธฐํ๊ท ๋ฐฉ์์ผ๋ก ์ํ๋ฅผ ๋จ๊ณ์ ์ ๊ฐํ๊ณ , Global Difference Prediction์ ๋ฏธ๋ ์ํ ์ ์ฒด๋ฅผ ๋ณ๋ ฌ๋ก ์ถ์
- ๊ณต๊ฐ ํํ์ Global Latent Vector, Token Feature Sequence, Spatial Latent Grid, neural fields ๋ฑ ๊ธฐํํ์ ์ถฉ์ค๋ ์์ค์ ๋ฐ๋ผ ๋ค์ํ
- Recurrent, Transformer, Diffusion ๊ธฐ๋ฐ ๋์ฝ๋ ๋ฑ ๋ค์ํ ์ํคํ
์ฒ๋ก ์ธ์คํด์คํํ์ฌ ๋ชจ๋ธ ์ ์ฐ์ฑ ํ๋ณด
- ๋ก๋ณดํฑ์ค, ์์จ์ฃผํ, ์ผ๋ฐ ๋น๋์ค ๋๋ฉ์ธ๋ณ ํ์คํ๋ ๋ฐ์ดํฐ์
๊ณผ ํ๊ฐ ๋ฉํธ๋ฆญ ์๋ฆฝ์ผ๋ก ๋น๊ต ๊ฐ๋ฅ์ฑ ํ๋ณด
Originality
- ๊ธฐ์กด ๊ธฐ๋ฅ ์ค์ฌ ๋๋ ์์ฉ ์ค์ฌ ๋ถ๋ฅ์์ ๋ฒ์ด๋ temporal modeling๊ณผ spatial representation์ ๋ช
์์ ์ถ์ผ๋ก ๋์
ํ ์ผ์ถ ๋ถ๋ฅ์ฒด๊ณ์ ํ์ ์ ์ ์
- Sequential Simulation & Inference vs. Global Difference Prediction์ ์ด๋ถ๋ฒ์ ๊ตฌ๋ถ์ผ๋ก ์๊ฐ์ ๋ชจ๋ธ๋ง ํจ๋ฌ๋ค์์ ๊ทผ๋ณธ์ ์ฐจ์ด๋ฅผ ๋ช
ํํ ํจ
- Global Latent Vector๋ถํฐ Decomposed Rendering Representation๊น์ง ๊ณต๊ฐ ํํ์ ๊ณ์ธต์ ๋ถ๋ฅ๋ฅผ ํตํด ๊ธฐํํ์ ์ถฉ์ค๋์ ๊ณ์ฐ ๋ณต์ก์ฑ์ ์ฐ์์ฒด ๊ตฌ์ฑ
- ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ ํ๊ฐ ๋ฉํธ๋ฆญ์ ํ์์ฑ์ ๋ช
์์ ์ผ๋ก ์ ๊ธฐํ์ฌ ํฝ์
์ถฉ์ค๋ ์ค์ฌ์ ํ๊ฐ ํจ๋ฌ๋ค์ ์ ํ ์ด๊ตฌ
- long-horizon error accumulation ๋ฌธ์ ๋ฅผ ์ธ ๊ฐ์ง ํต์ฌ ๋ฏธ๊ฐ์ฒ ๊ณผ์ (ํตํฉ ๋ฐ์ดํฐ์
๋ถ์ฌ, ํ๊ฐ ๋ฉํธ๋ฆญ ๋ถ์กฑ, ์๊ฐ์ ์ผ๊ด์ฑ vs. ๊ณ์ฐ ํจ์จ์ฑ ํธ๋ ์ด๋์คํ) ์ค ํ๋๋ก ์ฒด๊ณํ
Limitation & Further Study
- ์กฐ์ฌ ๋
ผ๋ฌธ์ ํน์ฑ์ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ด๋ ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ์ง ์์ ์ด๋ก ์ ๊ธฐ์ฌ์ ๊ตญํ๋๋ฉฐ, ์ ์๋ ๋ถ๋ฅ์ฒด๊ณ์ ์ค์ง์ ์ ์ฉ์ฑ์ ์ถํ ์ ์ฉ ์ฌ๋ก์ ๋ฐ๋ผ ๊ฒฐ์ ๋ ํ์
- ์ธ ์ถ ๋ถ๋ฅ์ฒด๊ณ๊ฐ ํ์กด ๋ชจ๋ธ์ ์ถฉ๋ถํ ํฌ๊ดํ๋์ง, ์๋ก์ด ํจ๋ฌ๋ค์(์: ๋ฉํฐ๋ชจ๋ฌ ํ์ต, ๋ฉ๋ชจ๋ฆฌ ์ฆ๊ฐ ์ํคํ
์ฒ)์ ๋ฑ์ฅ ์ ํ์ฅ ๊ฐ๋ฅ์ฑ์ด ๋ช
ํํ์ง ์์
- POMDP ๊ธฐ๋ฐ ์ํ์ ์ ์ํ๋ ํ์ค์ ์ด๋, Global Difference Prediction ๋ชจ๋ธ๋ค์ด ์ด ํ๋ ์์ํฌ์ ์ด๋ป๊ฒ ๋งคํ๋๋์ง ๊ตฌ์ฒด์ ์ค๋ช
๋ถ์กฑ
- ๋ก๋ณดํฑ์ค, ์์จ์ฃผํ, ์ผ๋ฐ ๋น๋์ค ๊ฐ ๋๋ฉ์ธ ํนํ์ฑ์ด ํฌ์ง๋ง, ๋๋ฉ์ธ ๊ฐ ๋ชจ๋ธ ์ ์ด ๊ฐ๋ฅ์ฑ์ด๋ ํตํฉ ํ๊ฐ ๋ฐฉ์์ ๋ํ ๋
ผ์ ๋ฏธํก
- ํ์ ์ฐ๊ตฌ๋ก๋ ์ ์๋ ๋ถ๋ฅ์ฒด๊ณ ๊ธฐ๋ฐ์ ๋ฒค์น๋งํฌ ๊ตฌ์ถ, ํตํฉ ๋ฐ์ดํฐ์
๊ฐ๋ฐ, ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ ๋ฉํธ๋ฆญ ์ ์, ์ฅ๊ธฐ ์์ธก ์ค์ฐจ ์ถ์ ํด๊ฒฐ ๋ฐฉ์ ๋ชจ์์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ์กฐ์ฌ๋ world models ๋ถ์ผ์ ์ฐ์ฌ๋ ๋ฌธํ์ ํตํฉํ๋ ์ฒด๊ณ์ ์ธ ๋ถ๋ฅ์ฒด๊ณ์ ์ํ์ ๊ธฐ์ด๋ฅผ ์ ์ํ์ฌ, embodied AI ์ฐ๊ตฌ์ ๋ฐฉํฅ์ฑ ์ ์์ ํ๊ฐ ํ์คํ์ ๊ธฐ์ฌํ ์ ์ฌ๋ ฅ์ด ๋๋ค. ๋ค๋ง ์๋ก์ด ์คํ์ ์ฆ๊ฑฐ๋ ์๊ณ ๋ฆฌ์ฆ ํ์ ์ด ์์ด ๊ธฐ์ฌ๋๊ฐ ๊ตฌ์กฐํ์ ์ ๋ฆฌ์ ํ์ ๋๋ฉฐ, ์ ์๋ ์ฒด๊ณ๊ฐ ๋น ๋ฅด๊ฒ ๋ณํํ๋ ์์ฑ ๋ชจ๋ธ ํ๊ฒฝ์์ ์ฅ๊ธฐ์ ์ ์ฉ์ฑ์ ๊ฐ๊ธฐ ์ํด์๋ ํ์ ๋ฒค์น๋งํน ๋ฐ ๋ฉํธ๋ฆญ ๊ฐ๋ฐ์ด ํ์์ ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์