์ ์: Matteo Hessel, Hubert Soyer, Lasse Espeholt, Wojciech Czarnecki, Simon Schmitt, Hado van Hasselt | ๋ ์ง: 2018-09-12 | URL: https://arxiv.org/abs/1809.04474 📄 PDF
Figure 2: Atari-57 (unclipped): Median human normalised
Multi-task Deep Reinforcement Learning์์ task ๊ฐ์ reward scale๊ณผ sparsity ์ฐจ์ด๋ก ์ธํ ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ PopArt ์ ๊ทํ๋ฅผ ํตํด ํด๊ฒฐํ์ฌ, 57๊ฐ Atari ๊ฒ์์ ๋จ์ผ ์ ์ฑ ์ผ๋ก ์ธ๊ฐ ์์ค ์ด์์ ์ฑ๋ฅ์ผ๋ก ํ์ต.
Figure 2: Atari-57 (unclipped): Median human normalised
Figure 3: Normalisation statistics: Top: learned statistics,
์ดํ: PopArt๋ฅผ multi-task RL์ ์ ์ฉํ ์ค์ฉ์ ์ด๊ณ ํจ๊ณผ์ ์ธ ์๋ฃจ์ ์ผ๋ก, ๋จ์ผ ์ ์ฑ ์ด ๋ค์ํ task์์ ์ธ๊ฐ ์์ค ์ฑ๋ฅ์ ๋ฌ์ฑํ ๊ฒ์ RL ๋ถ์ผ์ ์ค์ํ ์ด์ ํ๋ค. ๋ช ํํ ๋ฌธ์ ์ ์, ์ฐ์ํ ์๋ฃจ์ , ๊ทธ๋ฆฌ๊ณ ๊ฐ๋ ฅํ ์คํ ๊ฒฐ๊ณผ๋ก ๋์ ๊ฐ์น์ ๋ ผ๋ฌธ์ด๋ค.