WHALE: Towards Generalizable and Scalable World Models for Embodied Decision-making
์ ์: Zhilong Zhang, Ruifeng Chen, Junyin Ye, Yihao Sun, Pengyuan Wang, Jingcheng Pang, Kaiyuan Li, Tianshuo Liu, Haoxin Lin, Yang Yu, Zhi-Hua Zhou | ๋ ์ง: 2024-11-08 | URL: https://arxiv.org/abs/2411.05619 📄 PDF
Essence
Figure 1: Qualitative evaluation on Meta-World, Open X-Embodiment, and our real-world tasks.
WHALE๋ ํ๋ ์กฐ๊ฑดํ(behavior-conditioning)์ retracing-rollout ๊ธฐ๋ฒ์ ํตํด embodied ํ๊ฒฝ์์ ์ผ๋ฐํ ๊ฐ๋ฅํ๊ณ ํ์ฅ ๊ฐ๋ฅํ world model์ ํ์ตํ๋ ํ๋ ์์ํฌ์ด๋ฉฐ, ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก Whale-ST์ 414M ํ๋ผ๋ฏธํฐ์ Whale-X ๋ชจ๋ธ์ ์ ์ํ๋ค.
Motivation
- Known: World model์ embodied agent์ ์์ฌ๊ฒฐ์ ์ ์ํด ์ค์ ํ๊ฒฝ ๋์ ์๋ฎฌ๋ ์ด์
์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์ค์ํ ๊ธฐ์ ์ด๋ค. ์ต๊ทผ ์ฐ๊ตฌ๋ค์ transformer, diffusion model ๋ฑ ๊ณ ๊ธ ์ํคํ
์ฒ์ ๋๊ท๋ชจ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ world model์ ๊ฐ์ ํ๊ณ ์๋ค.
- Gap: ๊ธฐ์กด world model ์ฐ๊ตฌ๋ ๋ถํฌ ์ด๋(distribution shift)์ผ๋ก ์ธํ ์ผ๋ฐํ ์ค๋ฅ์ ์ ๋ขฐํ ์ ์๋ uncertainty estimation ๋ฌธ์ ๋ฅผ ์ถฉ๋ถํ ํด๊ฒฐํ์ง ๋ชปํ๋ค. ํนํ ๊ณ ์ฐจ์ ์๊ฐ ๋ฐ์ดํฐ์์ ๋๊ท๋ชจ๋ก ํ์ฅํ๋ฉด์ ๋์์ OOD ์์ญ์์์ ์ถฉ์คํ ์์ธก์ ์ ์งํ๋ ๊ฒ์ด ์ด๋ ต๋ค.
- Why: World model์ด ์ ์ฑ
์ต์ ํ์ ์ ๋ขฐํ ์ ์๋ ์์ธก์ ์ ๊ณตํด์ผ ์คํ๋ผ์ธ ๊ฐํํ์ต ๋ฐ ์ค์ ๋ก๋ด ์ ์ด์ ๊ฐ์ ์ค์ ์์ฉ์ด ๊ฐ๋ฅํ๋ค. ์ ํํ ๋ถํ์ค์ฑ ์ถ์ ์ synthetic data ๋จ์ฉ์ผ๋ก ์ธํ ์ฑ๋ฅ ์ ํ๋ฅผ ๋ฐฉ์งํ ์ ์๋ค.
- Approach: ์ ์ฑ
๋ถํฌ ํธ์ฐจ๋ฅผ ์ง์ ํด๊ฒฐํ๋ behavior-conditioning ๊ธฐ๋ฒ๊ณผ ๋ชจ๋ธ ์์๋ธ ์์ด ํจ์จ์ ์ธ ๋ถํ์ค์ฑ ์ถ์ ์ ์ ๊ณตํ๋ retracing-rollout ๊ธฐ๋ฒ์ ํต์ฌ์ผ๋ก ์ ์ํ๋ค. ์ด ๋ ๊ธฐ๋ฒ์ spatial-temporal transformer ๊ธฐ๋ฐ Whale-ST์ ๋๊ท๋ชจ ์ฌ์ ํ์ต๋ Whale-X์ ์ ์ฉ๋๋ค.
Achievement
Figure 1: Qualitative evaluation on Meta-World, Open X-Embodiment, and our real-world tasks.
- Behavior-conditioning ๊ธฐ๋ฒ: ์ ์ฑ
๋ถํฌ ํธ์ฐจ๋ฅผ ์ง์ ํด๊ฒฐํ์ฌ world model์ ์ผ๋ฐํ ์ค๋ฅ๋ฅผ ๊ฐ์์ํค๊ณ , policy-conditioned ํ์ต์ ๊ธฐ๋ฐํ ๋ณดํธ์ ๊ธฐ๋ฒ
- Retracing-rollout ๊ธฐ๋ฒ: ๋ชจ๋ธ ์์๋ธ ์์ด ํจ์จ์ ์ธ ๋ถํ์ค์ฑ ์ถ์ ์ ์คํํ์ฌ ์คํ๋ผ์ธ ์ ์ฑ
์ต์ ํ ์ฑ๋ฅ ํฅ์
- Whale-ST: Spatial-temporal transformer ๊ธฐ๋ฐ ํ์ฅ ๊ฐ๋ฅํ world model๋ก Meta-World ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์ฐ์ํ ๊ฐ์น ์ถ์ ์ ํ๋ ๋ฐ ๋น๋์ค ์์ฑ ์ถฉ์ค๋ ๋ฌ์ฑ
- Whale-X: Open X-Embodiment ๋ฐ์ดํฐ์
์ 970K ๊ถค์ ์ผ๋ก ํ์ตํ 414M ํ๋ผ๋ฏธํฐ world model๋ก ์๊ฐ, ์์ง์, ์์
์ธก๋ฉด์์ ๊ฐ๋ ฅํ OOD ์ผ๋ฐํ ๋ฅ๋ ฅ ๋ฐ ํ์ฅ์ฑ ์
์ฆ
How
Figure 3: Overall architecture of Whale-ST. The behavior-conditioning model encodes the observation and action
- Behavior-conditioning: ์
๋ ฅ ์ํ์ค์ ํ๋(behavior) ํ ํฐ์ ์กฐ๊ฑด์ผ๋ก ํฌํจํ์ฌ ๋ค์ํ ์ ์ฑ
์ ๋ํ ๋ชจ๋ธ ์ ์์ฑ ํฅ์
- Retracing-rollout: ๋กค์์ ๊ณผ์ ์์ ๋ชจ๋ธ์ ์์ธก ์ค๋ฅ๋ฅผ ์ถ์ ํ์ฌ ๋ถํ์ค์ฑ์ ์ถ์ ํ๋ ๋ฐฉ์์ผ๋ก, end-effector ํฌ์ฆ ์ ์ด์ ์ ์ฉ ๊ฐ๋ฅ
- Spatial-temporal transformer ์ํคํ
์ฒ: ์๊ฐ์ ์ญํ์ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด spatial๊ณผ temporal ์ ๋ณด๋ฅผ ํตํฉํ๋ transformer ๊ธฐ๋ฐ ๊ตฌ์กฐ ํ์ฉ
- Meta-World ๋ฒค์น๋งํฌ์ ์ค์ ๋ก๋ด ํ๋ซํผ์์ ๊ด๋ฒ์ํ ํ๊ฐ: ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํฝ์
๊ธฐ๋ฐ ์กฐ์ ์์
๋ชจ๋์์ ๊ฒ์ฆ
- Open X-Embodiment ๋๊ท๋ชจ ์ฌ์ ํ์ต: ๋ค์ํ ๋ก๋ด ์์คํ
์ ๋๊ท๋ชจ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ๊ธฐ์ด world model ๊ตฌ์ถ ๋ฐ ์ต์ ์์ฐ์ผ๋ก ๋ฏธ์ง ํ๊ฒฝ ์ ์
Originality
- ํ๋ ์กฐ๊ฑดํ(behavior-conditioning)๋ ๊ธฐ์กด policy-conditioned ์ ๊ทผ๋ฒ์ ํ์ฅํ ๊ฒ์ด๋, ๋๊ท๋ชจ ์๊ฐ ๊ธฐ๋ฐ world model์ ์ง์ ์ ์ฉํ์ฌ ์ ์ฑ
๋ถํฌ ํธ์ฐจ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๋ ์ ์ด ์๋ก์
- Retracing-rollout์ ์์๋ธ ์์ด ๋จ์ผ ๋ชจ๋ธ์์ ๋ถํ์ค์ฑ์ ์ถ์ ํ๋ ๊ฐ๋จํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ๊ธฐ๋ฒ์ผ๋ก, ๊ธฐ์กด ์์๋ธ ๊ธฐ๋ฐ ๋ถํ์ค์ฑ ์ถ์ ๊ณผ ์ฐจ๋ณํ๋จ
- Whale-X๋ Open X-Embodiment ๋ฐ์ดํฐ์
์ ํ์ฉํ ์ฒ์์ ๋๊ท๋ชจ embodied world model ์ฌ์ ํ์ต ์๋๋ก, ๋ค์ค ๋ก๋ด ์์คํ
๊ฐ ์ ์ด ํ์ต ๊ฐ๋ฅ์ฑ์ ์ค์ฆํจ
- Spatial-temporal transformer ๊ธฐ๋ฐ ์ํคํ
์ฒ์ behavior-conditioning, retracing-rollout์ ๊ฒฐํฉ์ ํ์ฅ์ฑ๊ณผ ์ผ๋ฐํ์ฑ์ ๋์์ ์ถ๊ตฌํ๋ ํตํฉ์ ์ ๊ทผ
Limitation & Further Study
- Behavior-conditioning์ ์ด๋ก ์ ๊ทผ๊ฑฐ๊ฐ ์ ํ์ ์ด๋ฉฐ, ์ด๋ค ํ๋ ํํ์ด ์ต์ ์ธ์ง์ ๋ํ ์์ธํ ๋ถ์ ๋ถ์กฑ
- Retracing-rollout ๊ธฐ๋ฒ์ ๋ถํ์ค์ฑ ์ถ์ ์ด ์ค์ ๋ชจ๋ธ ์ค๋ฅ๋ฅผ ์๋ฒฝํ๊ฒ ํฌ์ฐฉํ๋์ง์ ๋ํ ํ๊ณ ์กด์ฌ ๊ฐ๋ฅ์ฑ
- Whale-X์ ์ค์ ๋ก๋ด ํ๊ฐ๊ฐ ์ ํ๋ ์๋๋ฆฌ์ค์์๋ง ์ํ๋์์ผ๋ฉฐ, ๋์ฑ ๋ณต์กํ ์กฐ์ ์์
์ ๋ํ ์ฑ๋ฅ ๊ฒ์ฆ ํ์
- ๋๊ท๋ชจ ์ฌ์ ํ์ต ๋ฐ์ดํฐ์ ์ด์ง์ฑ(heterogeneity)์ด ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ์ฌํ ๋ถ์ ๋ถ์ฌ
- ํฅํ ์ฐ๊ตฌ: (1) ํ๋ ์กฐ๊ฑดํ์ ์ด๋ก ์ ๊ธฐ์ด ๊ฐํ, (2) ๋ ์ ๊ตํ ๋ถํ์ค์ฑ ์ถ์ ๋ฐฉ๋ฒ๋ก ํ์, (3) ๋ค์ํ embodiment๊ณผ ์ฅ๊ธฐ ์งํ ์์
์ ๋ํ ํ๋ ํ๊ฐ, (4) ๋ชจ๋ธ์ ์ค์๊ฐ ์ ์ ๋ฅ๋ ฅ ๊ฐ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: WHALE๋ embodied AI์ ํต์ฌ ๊ณผ์ ์ธ ์ผ๋ฐํ์ ๋ถํ์ค์ฑ ์ถ์ ์ ์ง์ ํด๊ฒฐํ๋ ์ค์ฉ์ ์ด๋ฉด์๋ ์ด๋ก ์ ๊ธฐ์ฌ๋ ํฐ ํ๋ ์์ํฌ์ด๋ฉฐ, Whale-ST์ Whale-X๋ฅผ ํตํด ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ํ๊ฒฝ ๋ชจ๋์์ ๊ฐ๋ ฅํ ์ฑ๊ณผ๋ฅผ ์
์ฆํ์ฌ world model ๊ธฐ๋ฐ ์์ฌ๊ฒฐ์ ์ ์ค์ฉํ๋ฅผ ํฌ๊ฒ ์ ์ง์ํจ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์