์ ์: Akshay L Chandra, Iman Nematollahi, Chenguang Huang, Tim Welschehold, Wolfram Burgard, Abhinav Valada | ๋ ์ง: 2025-08-05 | URL: https://arxiv.org/abs/2508.03645 📄 PDF
Figure 1: (a) Standard diffusion policies trained via imitation learning are limited by offline data. (b) DPPO [17]
DiWA๋ ํ์ต๋ world model์ ํ์ฉํ์ฌ diffusion ๊ธฐ๋ฐ ๋ก๋ด ์ ์ฑ ์ ์คํ๋ผ์ธ์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ๋ ํ๋ ์์ํฌ๋ก, RL์ ํตํด ์์ ์ ๋กค์์์์ ์ ์ฑ ์ ๊ฐ์ ํ๋ค.
Figure 1: (a) Standard diffusion policies trained via imitation learning are limited by offline data. (b) DPPO [17]
Figure 2: DiWA framework: (1) A world model is trained on unstructured robot play data to learn latent dynamics.
์ดํ: DiWA๋ world model์ ํ์ฉํ offlineRL๋ก diffusion policy ๋ฏธ์ธ์กฐ์ ์ ์ํ ํจ์จ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ ํ์ ์ ์ฐ๊ตฌ๋ก, ์ค์ ๋ก๋ด ํ์ต์ ์ค๋ฌด์ ๋์ ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๋ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ด๋ค.