์ ์: Yucheng Xin, Jiacheng Bao, Yubo Dong, Xueqian Wang, Bin Zhao, Xuelong Li | ๋ ์ง: 2026-04-23 | URL: https://arxiv.org/abs/2604.21355 📄 PDF
Fig. 1.
๋ณธ ๋ ผ๋ฌธ์ RPG(Robust Policy Gating)๋ผ๋ ํ์ด๋ธ๋ฆฌ๋ ์ ๋ฌธ๊ฐ ์ ์ฑ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ์ธํํ ๋ก๋ด์ด ๋ค์ํ ๊ฒฉํฌ ๊ธฐ์ ๊ฐ ๋งค๋๋ฝ๊ณ ์์ ์ ์ธ ์ ํ์ ํตํด ์ฅ์๊ฐ ๋์ ๊ฒฉํฌ๋ฅผ ์ํํ ์ ์๋๋ก ํจ.
Fig. 1.
Fig. 3.
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ RPG ํ๋ ์์ํฌ๋ฅผ ํตํด ์ธํํ ๋ก๋ด์ ๋ค์ค ๊ฒฉํฌ ๊ธฐ์ ๋งค๋๋ฌ์ด ์ ํ ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ์์ผ๋ฉฐ, policy-transition randomization๊ณผ temporal randomization์ ๊ฒฐํฉ์ ๊ธฐ์ ์ ํ ๊ฐ๊ฑด์ฑ ํ๋ณด์ ์ฐฝ์์ ๊ธฐ์ฌ๋ฅผ ํจ. ์ค์ธ๊ณ ๋ก๋ด ๊ฒ์ฆ๊ณผ ๊ฒ์ ์ธํฐํ์ด์ค ์ค๊ณ๋ก ์ค์ฉ์ฑ์ด ๋์ผ๋, ๊ธฐ์ ๋ฒ์ฃผ ํ์ฅ ๋ฐ ๋ค์ํ ๋ก๋ด ํ๋ซํผ ๊ฒ์ฆ์ด ํ์ํจ.