World Models for Robotic Manipulation: A Survey
์ ์: Fangyuan Wang, Ziyuan Wang, Guorui Pei, Mengshi Zhang, Canxi Liang, Jun Hu, Zhongxuan Li, Jinsong Wu, Ning Han, Zeqing Zhang, Jiaming Qi, Hongmin Wu, Shiyao Zhang, Pai Zheng, Jia Pan, David Navarro-Alarcon, Sichao Liu, Peng Zhou | ๋ ์ง: 2026 | DOI: 10.48550/ARXIV.2606.00113 📄 PDF
Essence
Fig. 2. Representation spectrum of world models. The five families are ordered by increasing structured inductive bias,
๋ก๋ด ์กฐ์์ ์ํ world model์ ๋ํ ํฌ๊ด์ ์๋ฒ ์ด๋ค. ์ธ ๊ฐ์ง ์ง๋ฌธ(์ด๋ค ๋ฏธ๋ ํํ์ ์์ธกํ๋๊ฐ, ์์ธก์ ํ๋์ ์ด๋ป๊ฒ ์ฐ๊ฒฐํ๋๊ฐ, ํ์ต ํ์ดํ๋ผ์ธ์ ์ด๋ ๋จ๊ณ์์ ์ฌ์ฉ๋๋๊ฐ)์ ์ค์ฌ์ผ๋ก action-conditioned predictive system์ผ๋ก์์ world model์ ์ ์ํ๊ณ , ๋ค์ฏ ๊ฐ์ง ํํ ๊ณ์ด๊ณผ ๊ธฐ๋ฅ์ ๋ถ๋ฅ๋ฅผ ์ ์ํ๋ค.
Motivation
- Known: World model์ ๊ฐ๋
์ ๋ชจํฐ ์ ์ด์ model-based reinforcement learning์์ forward model ์์ด๋์ด๋ก๋ถํฐ ๋น๋กฏ๋์์ผ๋ฉฐ, ์ต๊ทผ video generation, geometric modeling, physics-informed simulator ๋ฑ์ผ๋ก ํ์ฅ๋์๋ค. ๊ทธ๋ฌ๋ ์ฉ์ด์ ๋ชจํธ์ฑ์ผ๋ก ์ธํด latent dynamics model, action-conditioned video generator, 3D/4D scene predictor, VLA ์์คํ
๋ด ์์ธก ๋ชจ๋ ๋ฑ์ด ํผ๋๋์ด ์๋ค.
- Gap: ๊ธฐ์กด ์๋ฒ ์ด๋ค์ด world model์ ๋ถ๋ถ์ ์ผ๋ก๋ง ๋ค๋ฃจ๊ฑฐ๋(์ผ๋ฐ์ ์ธ world model ์๋ฒ ์ด๋ ์์จ์ฃผํ ์ค์ฌ), VLA ์์คํ
์ ๊ตญํ๋๊ฑฐ๋(์ธ์ด-์กฐ๊ฑดํ๋ ๋ชจ๋ธ), reinforcement learning/imitation learning ์ ํต๊ณผ์ ์ฐ๊ฒฐ์ ๋์ณค๋ค. ์กฐ์ ์ค์ฌ์ ํตํฉ๋ predictive modeling ํ๋ ์์ํฌ๊ฐ ๋ถ์ฌํ๋ค.
- Why: ๋ก๋ด ์กฐ์์ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ, ํ์, ๋ถ๋ถ ๊ด์ฐฐ์ฑ ๋ฑ์ ์ ์ฝ ์์์ ํ๋ ์ ๋ฏธ๋๋ฅผ ์์ธกํด์ผ ํ๋ฉฐ, ์์ธก์ ์ ํ๋(visual plausibility vs. contact preservation)๊ฐ ํ๋ ํจ์จ์ฑ๊ณผ ๋ฐ๋์ ์ผ์นํ์ง ์๊ธฐ ๋๋ฌธ์ ์ด ์ค๊ณ ๊ณต๊ฐ์ ๋ช
ํํ ํ๋ ๊ฒ์ด ์ค์ํ๋ค.
- Approach: World model์ ์ธ ๊ฐ์ง ์ถ์ผ๋ก ์กฐ์งํํ๋ค: (1) representation family (image/video prediction, latent dynamics, motion fields, scene flow, 3D/4D structure, physics-informed dynamics), (2) prediction-action connection (integrated vs. explicit planners), (3) pipeline stage (pretraining, post-training, inference). 34๊ฐ์ manipulation dataset์ ๊ฒํ ํ๊ณ predictive fidelity, task performance, simulator reliability์ ๋ํ ํ๊ฐ ํ๋กํ ์ฝ์ ์ข
ํฉํ๋ค.
Achievement
Fig. 4. Five functional roles of infrastructure world models for robotic manipulation: synthetic experience generation,
- ์กฐ์์ฉ world model์ ๋ช
ํํ ์ ์: action-conditioned predictive system์ผ๋ก perception, inverse model, policy, reward์ ๊ตฌ๋ถ
- ๋ค์ฏ ๊ฐ์ง representation family์ ์ฒด๊ณ์ ๋ถ์: ๊ฐ family์ fidelity, planning horizon, computational cost, robustness ๊ฐ trade-off ๋ถ์
- ๊ธฐ๋ฅ์ ๋ถ๋ฅ ๊ฐ๋ฐ: integrated prediction-action model๊ณผ explicit predictive planner ๊ตฌ๋ถ
- ์ธํ๋ผ ์ญํ ์ ํน์ฑํ: synthetic experience generation, candidate filtering, search-based evaluation, learned environment, outcome verification
- lifecycle ํตํฉ: pretraining, post-training, inference adaptation ๋จ๊ณ์์์ role mapping
- ์ข
ํฉ ํ๊ฐ ํ๋กํ ์ฝ: ์์ธก ์ถฉ์ค๋, ํ์ ์์
์ฑ๋ฅ, simulator ์ ๋ขฐ๋ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์
How
Fig. 5. World models across the robot-learning lifecycle. During pretraining, predictive objectives learn reusable laten
- Action-conditioned predictive system์ผ๋ก operational definition ์ ์
- ํํ ๊ฐ์กฑ์ spectrum ์์ ๋ฐฐ์นํ์ฌ ๋น๊ต
- Prediction-action ์ฐ๊ฒฐ ๋ฐฉ์์ functional taxonomy๋ก ๋ถ๋ฅ
- ํ์ต ํ์ดํ๋ผ์ธ์ ๊ฐ ๋จ๊ณ์์ world model์ ์ญํ ์ ๋ช
ํํ
- 34๊ฐ dataset ๊ฒํ ๋ฐ ๋ถ๋ฅ
- ํ๊ฐ protocol์ predictive fidelity, task performance, simulator reliability๋ก ๋ถ๋ฅ
Originality
- ์กฐ์-์ค์ฌ ์ค๊ณ ๊ณต๊ฐ์ ์ต์ด ํตํฉ: reinforcement learning, imitation learning, video generation, geometry, physics, VLA๋ฅผ ๋จ์ผ framework๋ก ์ฐ๊ฒฐ
- ์ธ ๊ฐ์ง ์ง๊ต ์ถ: representation, prediction-action connection, pipeline stage์ ๋ถ๋ฆฌ๋ ๊ธฐ์กด ๋ฐฉ์(๋จ์ perception-prediction-control)์ ๋์ด ์ค๊ณ ์ ํ์ ๋ช
ํํ
- infrastructure perspective: world model์ narrow dynamics predictor์์ general robot learning infrastructure๋ก์ ์งํ๋ฅผ ํฌ์ฐฉ
- ์กฐ์-ํน์ ๊ณ ๋ ค์ฌํญ: contact modeling, hallucination, action alignment, closed-loop evaluation ๋ฑ ์กฐ์์ ๊ณ ์ ๋ฌธ์ ๊ฐ์กฐ
Limitation & Further Study
- ๊ฐ๋
์ ๊ฒฝ๊ณ์ ๋ชจํธ์ฑ: perception๊ณผ prediction, action๊ณผ planning์ ๊ฒฝ๊ณ๋ ์ฌ์ ํ ๋
ผ์์ ์ฌ์ง๊ฐ ์์ผ๋ฉฐ, operational definition์ด ๋ชจ๋ ๊ฒฝ์ฐ๋ฅผ ๋ช
ํํ ํด๊ฒฐํ์ง ๋ชปํจ
- closed-loop ํ๊ฐ์ ๋ถ์กฑ: ๋ง์ ๋ฐฉ๋ฒ๋ค์ด open-loop์ผ๋ก ํ๊ฐ๋๋ฉฐ, closed-loop ์ฑ๋ฅ๊ณผ์ ์ฐ๊ด์ฑ์ด ๋ถ์ถฉ๋ถํจ
- contact modeling: ํ์ ๋ฃจํ ์กฐ์์์ criticalํ contact ๋ชจ๋ธ๋ง์ด ํ์ฌ world model์์ ์ถฉ๋ถํ ๋ค๋ฃจ์ด์ง์ง ์์
- ํ ๋ฃจ์๋ค์ด์
์ ์ด: video generator์ VLA ์์คํ
์์์ hallucination ํต์ ๋ฐฉ๋ฒ์ด ๋ฏธ์ฑ์ํจ
- ํ์ ์ฐ๊ตฌ: (1) contact-aware world model์ ๊ฐ๋ฐ ๊ฐ์ํ, (2) closed-loop ๋ฒค์น๋งํฌ ํ์คํ, (3) ๋ฌผ๋ฆฌ ์ ๋ณด์ ํ์ต ๊ธฐ๋ฐ ์์ธก์ ํตํฉ ๊ฐ์ , (4) ์ธ์ด-๊ธฐ์ด reasoning๊ณผ geometric prediction์ ์ฐ๊ฒฐ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ์๋ฒ ์ด๋ ๋ก๋ด ์กฐ์ ๋ถ์ผ์์ fragmented๋ world model ๋ฌธํ์ ํตํฉํ๋ ์ค์ํ ๊ธฐ์ฌ๋ค. ์ธ ๊ฐ์ง ์ง๊ต ์ถ์ framework์ ๋ช
ํํ operational definition์ ํฅํ ์ฐ๊ตฌ์ ์ค๊ณ ์ ํ์ ๊ฐ์ด๋ํ ์ ์์ผ๋ฉฐ, 34๊ฐ dataset ๊ฒํ ์ ์ข
ํฉ ํ๊ฐ ํ๋กํ ์ฝ์ ์ค์ง์ ๊ฐ์น๋ฅผ ์ ๊ณตํ๋ค. ๋ค๋ง closed-loop ํ๊ฐ ๋ถ์กฑ๊ณผ contact modeling ๋ฑ ์กฐ์ ๊ณ ์ ์ ๋์ ์ด ์ฌ์ ํ ๋ฏธํด๊ฒฐ๋์ด ์๊ณ , ๊ฐ๋
์ ๊ฒฝ๊ณ์ ๋ชจํธ์ฑ๋ ์์ ํ ์ ๊ฑฐ๋์ง ์์๋ค. ์ ์ฒด์ ์ผ๋ก ์กฐ์ ์ค์ฌ์ predictive modeling์ ์ดํดํ๋ ๋ฐ ํ์์ ์ธ ์ฐธ๊ณ ๋ฌธํ์ด์ง๋ง, ๊ตฌ์ฒด์ ์ธ ๊ธฐ์ ํ์ ๋ณด๋ค๋ ์ข
ํฉ ์ ๋ฆฌ์ ์ฑ๊ฒฉ์ด ๊ฐํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์