์ ์: Wuhao Wang, Zhiyong Chen | ๋ ์ง: 2025-07-25 | URL: https://arxiv.org/abs/2507.18883 📄 PDF
Figure 1 summarizes the training performance under three partial observability configurations:
๋ถ๋ถ ๊ด์ฐฐ ํ๊ฒฝ์์ ๊ณ ์ ๊ธธ์ด ๊ณผ๊ฑฐ ๊ด์ฐฐ ์ํ์ค๋ฅผ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌํ๋ novel history encoder๋ฅผ ์ ์ํ์ฌ, Gymnasium Humanoid-v4 ํ๊ฒฝ์์ ๋ถ๋ถ ๊ด์ฐฐ ํ์์์ ์์ ์ ์ธ humanoid ์ ์ฑ ํ์ต์ ์ฒ์์ผ๋ก ์ฑ๊ณต์์ผฐ๋ค.
์ดํ: ๋ณธ ์ฐ๊ตฌ๋ ๋ถ๋ถ ๊ด์ฐฐ ํ๊ฒฝ์์์ ๊ณ ์ฐจ์ humanoid ์ ์ด๋ผ๋ ๋ฏธํด๊ฒฐ ๋ฌธ์ ๋ฅผ ์ฒ์์ผ๋ก ์ฑ๊ณต์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ๋ณ๋ ฌ history encoder๋ฅผ ํตํด ๊ธฐ์กด RNN ๊ธฐ๋ฐ ๋ฉ๋ชจ๋ฆฌ ๋ฐฉ๋ฒ๋ค์ ์๋์ ์ผ๋ก ๋ฅ๊ฐํ๋ค. ๋ค๋ง ๋ฐฉ๋ฒ๋ก ์ ๊ตฌ์ฒด์ ์ค๋ช ์ด ๋ถ์กฑํ๊ณ ์ค์ ๋ก๋ด ๊ฒ์ฆ์ด ํ์ํ๋ค.