EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models
์ ์: Hu Yue, Siyuan Huang, Yue Liao, Shengcong Chen, Pengfei Zhou, Liliang Chen, Maoqing Yao, Guanghui Ren | ๋ ์ง: 2025-05-14 | URL: https://arxiv.org/abs/2505.09694 📄 PDF
Essence
Figure 2: Overview of the EWMBENCH benchmark design. The framework begins with unified
๋ณธ ๋
ผ๋ฌธ์ Embodied World Models (EWMs)์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์ ๋ฌธ ๋ฒค์น๋งํฌ์ธ EWMBench๋ฅผ ์ ์ํ๋ฉฐ, ์๊ฐ์ ์ฅ๋ฉด ์ผ๊ด์ฑ, ๋์ ์ ํ์ฑ, ์๋ฏธ๋ก ์ ์ ๋ ฌ์ด๋ผ๋ ์ธ ๊ฐ์ง ํต์ฌ ์ธก๋ฉด์ ๊ธฐ๋ฐ์ผ๋ก ๋ก๋ณดํฑ ์กฐ์ ์์
์์์ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ๊ณผ ํ๋ ์ผ๊ด์ฑ์ ํ๊ฐํ๋ค.
Motivation
- Known: ์ต๊ทผ text-to-video diffusion models์ด ์ธ์ด ๋ช
๋ น์ผ๋ก๋ถํฐ ๊ณ ์ถฉ์ค๋ ๋น๋์ค๋ฅผ ์์ฑํ ์ ์๊ฒ ๋์์ผ๋ฉฐ, ๊ธฐ์กด ๋น๋์ค ์์ฑ ๋ฒค์น๋งํฌ๋ค(VBench, T2V-CompBench ๋ฑ)์ ์๊ฐ์ ์ถฉ์ค๋์ ์ธ์ด ์ ๋ ฌ์ ์ค์ ์ ๋๊ณ ์๋ค.
- Gap: ๊ธฐ์กด ํ๊ฐ ๋ฉํธ๋ฆญ๋ค์ EWMs์ ๊ณ ์ ํ ์๊ตฌ์ฌํญ์ธ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ, ๋์ ์ผ๊ด์ฑ, ๊ฐ์ฒด ์ํธ์์ฉ ๋ฑ์ ์ถฉ๋ถํ ํ๊ฐํ์ง ๋ชปํ๋ฉฐ, ๋ก๋ณดํฑ ์กฐ์ ์์
์ ํน์์ฑ์ ๋ฐ์ํ ์ ๋ฌธ์ ๋ฒค์น๋งํฌ๊ฐ ๋ถ์ฌํ๋ค.
- Why: ๋ก๋ณดํฑ ์กฐ์ ๊ฐ์ embodied AI ์์ฉ์์๋ ๋ฐฐ๊ฒฝ๊ณผ ๊ฐ์ฒด ๊ตฌ์ฑ์ ์ ์ ์ผ๊ด์ฑ๊ณผ ๋ก๋ด์ ๋์์ด ์ง์์ฌํญ๊ณผ ๋ฌผ๋ฆฌ ๋ฒ์น์ ๋ง์กฑํด์ผ ํ๋ฏ๋ก, ์ผ๋ฐ ๋น๋์ค ์์ฑ๊ณผ๋ ๋ค๋ฅธ ํ๊ฐ ๊ธฐ์ค์ด ํ์์ ์ด๋ค.
- Approach: Agibot-World ๋ฐ์ดํฐ์
์ ๊ธฐ๋ฐ์ผ๋ก 10๊ฐ ์์
์ 30๊ฐ ์ํ๋ก ๊ตฌ์ฑ๋ curated ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๊ณ , ์ฅ๋ฉด ์ผ๊ด์ฑ, ๋์ ์ ํ์ฑ, ์๋ฏธ๋ก ์ ์ ๋ ฌ์ ํ๊ฐํ๋ multi-dimensional evaluation toolkit์ ๊ฐ๋ฐํ์ฌ ๋ค์ํ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ค.
Achievement
Figure 4: Evaluation Results of Video Generative Models.
- ์ฒซ ๋ฒ์งธ embodied task ์ ๋ฌธ ๋ฒค์น๋งํฌ: embodied ์์
์ ํนํ๋ ์ฒด๊ณ์ ํ๊ฐ ํ๋ ์์ํฌ EWMBench ์ ์
- ๋ค์ฐจ์ ํ๊ฐ ๋ฉํธ๋ฆญ: ๊ธฐ์กด ๋ฒค์น๋งํฌ๊ฐ ๋ฏธ์ฒ ๋ค๋ฃจ์ง ๋ชปํ trajectory dynamics, trajectory plausibility, interaction logic ๋ฑ 8๊ฐ์ง ํ๊ฐ ์ฐจ์ ํฌํจ
- ๊ณ ํ์ง curated ๋ฐ์ดํฐ์
: ๋
ผ๋ฆฌ์ ์์กด์ฑ๊ณผ affordance๋ฅผ ๋ฐ์ํ ๋ค์ํ ๋ก๋ณดํฑ ์กฐ์ ์์
๋ฐ์ดํฐ์
๊ตฌ์ถ
- ๊ธฐ์กด ๋ชจ๋ธ์ ํ๊ณ ํ์
: ์ฃผ์ text-to-video ์์ฑ ๋ชจ๋ธ๋ค์ embodied ์์
์์์ ์ฑ๋ฅ ํ๊ณ์ ๊ฐ์ ๋ฐฉํฅ ์ ์
How
Figure 2: Overview of the EWMBENCH benchmark design. The framework begins with unified
- World initialization: ์ด๊ธฐ ์ฅ๋ฉด ์ด๋ฏธ์ง, ์ธ์ด ๋ช
๋ น, ์ ํ์ action trajectory๋ฅผ ์
๋ ฅ์ผ๋ก ์ ์
- Dataset construction: Agibot-World์์ robotic manipulation ์์
์ ์ , ์ ์ ์ด๊ธฐ ํ๋ ์์ผ๋ก ํด๋ฆฌํํ์ฌ annotated instruction๋ง ๋ฐ์๋๋๋ก ์ค๊ณ
- Multi-dimensional evaluation: (1) Scene Consistency - ๋ฐฐ๊ฒฝ/๊ฐ์ฒด/embodiment ๊ตฌ์กฐ์ ์ ์ ์์ ์ ์ง๋, (2) Motion Correctness - trajectory ์ผ๊ด์ฑ๊ณผ task objective ์ ๋ ฌ๋, (3) Semantic Alignment - ์ธ์ด ๋ช
๋ น๊ณผ์ ์ ๋ ฌ๋ ๋ฐ ๋ค์์ฑ ํ๊ฐ
- Metric design: video-based MLLMs๋ฅผ ํ์ฉํ prompt engineering, voxelized scoring์ผ๋ก ๋ค์ค ํด๊ฒฐ์ฑ
์ธ์ , FID/FVD ๊ฐ์ ๊ธฐ์กด ๋ฉํธ๋ฆญ๊ณผ ์๋ก์ด embodied-specific ๋ฉํธ๋ฆญ ์กฐํฉ
Originality
- embodied AI ๊ด์ ์์ ๋น๋์ค ์์ฑ ๋ฒค์น๋งํน์ ์๋ก์ด ๋ฌธ์ ์ ์: ์ผ๋ฐ ๋น๋์ค ์์ฑ๊ณผ์ ๊ตฌ์กฐ์ ์ฐจ์ด๋ฅผ ๋ช
ํํ ํจ
- ๋ก๋ณดํฑ ์กฐ์ ๋ฐ์ดํฐ์
๊ธฐ๋ฐ ๋ฒค์น๋งํฌ: ์ค์ ๋ก๋ด ๋ฐ์ดํฐ(Agibot-World)๋ฅผ ํ์ฉํ ์ต์ด์ embodied world model ํ๊ฐ ํ๋ ์์ํฌ
- ํฌ๊ด์ ํ๊ฐ ์ฐจ์: ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ณด๋ค 8๊ฐ์ง ํ๊ฐ ์ฐจ์ ๋ชจ๋๋ฅผ ํฌํจํ๋ ์์ ํ ํ๊ฐ ์ฒด๊ณ ๊ตฌ์ถ
- voxelized scoring๊ณผ affordance ๊ธฐ๋ฐ ์์
์ค๊ณ๋ก embodied ๋๋ฉ์ธ์ ํน์์ฑ ๋ฐ์
Limitation & Further Study
- ํ์ฌ ๋ก๋ณดํฑ ์กฐ์ ์์
์๋ง ์ง์ค๋์ด ์์ผ๋ฉฐ, ๋ค๋ฅธ embodied task(๋ค๋น๊ฒ์ด์
, ๊ทธ๋์คํ ๋ฑ)๋ก์ ํ์ฅ ํ์
- 30๊ฐ ์ํ์ ์ ํ๋ ๋ฐ์ดํฐ์
๊ท๋ชจ๋ก ์ธํ ํต๊ณ์ ์ ๋ขฐ์ฑ ๋ฌธ์ , ๋ ํฐ ๊ท๋ชจ ๋ฐ์ดํฐ์
๊ตฌ์ถ ํ์
- ์๊ฐ์ ์ผ๊ด์ฑ(temporal consistency)๊ณผ ๋์์ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ๊ฒ์ฆ์ ์ํ ์ถ๊ฐ ๋ฉํธ๋ฆญ ๊ฐ๋ฐ ๊ฐ๋ฅ์ฑ
- ํ์ ์ฐ๊ตฌ์์ ๋ ๋ณต์กํ ๋ฉํฐ-์์ด์ ํธ ์๋๋ฆฌ์ค์ ์ฅ๊ธฐ ์ํ์ ์์ฑ(long-horizon generation) ํ๊ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ embodied AI ๋ถ์ผ์์ ๊ทธ๊ฐ ๊ฐ๊ณผ๋ EWM ํ๊ฐ์ ์ค์ํ ๊ฐญ์ ์ฑ์ฐ๋ ์ฒด๊ณ์ ์ด๊ณ ํฌ๊ด์ ์ธ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์ค์ ๋ก๋ด ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ฐ์ดํฐ์
๊ณผ ๋ค์ฐจ์ ํ๊ฐ ๋ฉํธ๋ฆญ์ ํตํด ํฅํ embodied world model ๊ฐ๋ฐ์ ์ค์ง์ ์ธ ๊ธฐ์ฌ๋ฅผ ํ ๊ฒ์ผ๋ก ์์๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์