์ ์: David Ha, Jรผrgen Schmidhuber | ๋ ์ง: 2018-03-27 | URL: https://arxiv.org/abs/1803.10122 📄 PDF
Figure 3. In this work, we build probabilistic generative models of
ํ๊ฒฝ์ ์์ฑํ ์ ๊ฒฝ๋ง world model์ ๋น์ง๋ํ์ต์ผ๋ก ํ์ตํ ํ, ์ถ์ถ๋ ํน์ง์ผ๋ก ๊ฐ๋จํ policy๋ฅผ ํ๋ จํ์ฌ ๊ฐํํ์ต ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ์ฌ์ง์ด world model์ด ์์ฑํ ์์์ ํ๊ฒฝ์์ ํ๋ จํ policy๋ฅผ ์ค์ ํ๊ฒฝ์ ์ ์ด ๊ฐ๋ฅํจ์ ๋ณด์ธ๋ค.
Figure 5. Flow diagram of a Variational Autoencoder (VAE).
์ดํ: ์ด ๋ ผ๋ฌธ์ reinforcement learning๊ณผ ์์ฑ ๋ชจ๋ธ์ ์ฐ์ํ๊ฒ ๊ฒฐํฉํ์ฌ ํจ์จ์ ์ธ policy ํ์ต์ ๋ฌ์ฑํ์ผ๋ฉฐ, world model ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ์ค์ฉ์ฑ์ ๋ช ํํ ์ ์ฆํ ์ํฅ๋ ฅ ์๋ ์์ ์ด๋ค. ๋ชจ๋ํ๋ ์ค๊ณ์ dream training ๊ฐ๋ ์ ์ดํ ์ฐ๊ตฌ์ ํฐ ์๊ฐ์ ์ฃผ์๋ค.