์ ์: Tingxuan Leng, Yushi Wang, Tinglong Zheng, Changsheng Luo, Mingguo Zhao | ๋ ์ง: 2025-10-12 | URL: https://arxiv.org/abs/2510.10851 📄 PDF
Fig. 1: Preference-conditioned locomotion: A single policy realizes behaviors from
์ธ๊ฐํ ๋ก๋ด์ ๋ช ๋ น ์ถ์ ๊ณผ ์ธ๋ ฅ ์์์ ๋์์ ๋ฌ์ฑํ๊ธฐ ์ํด ์ ํธ๋ ์กฐ๊ฑด๋ถ MORL ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ๋จ์ผ ์ ์ฑ ์ผ๋ก ์ถ์ -์์ ๊ฐ์ ์ฐ์์ ์ธ trade-off๋ฅผ ๊ตฌํํ๋ค.
Fig. 2: Policy training framework with auxiliary reconstruction of privileged observations: An asymmetric actorโcritic a
Fig. 2: Policy training framework with auxiliary reconstruction of privileged observations: An asymmetric actorโcritic a
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ์ ํธ๋ ์กฐ๊ฑด๋ถ MORL์ ํตํด ์ธ๊ฐํ ๋ก๋ด ๋ณดํ์ ํต์ฌ trade-off๋ฅผ ๋ช ์์ ์ผ๋ก ํด๊ฒฐํ๋ ์ฐฝ์์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ฉฐ, velocity-resistance ๋ชจ๋ธ๋ง์ด๋ผ๋ ์ฐ์ํ ํตํฉ ๊ธฐ๋ฒ๊ณผ ์ค์ธ๊ณ ๊ฒ์ฆ์ ํตํด ์ค์ ๋ฐฐ์น ๊ฐ๋ฅ์ฑ์ ์ ์ฆํ๋ค. ๋ค๋ง ๋ฒ์ ์ ํ(์ํ ํ๋ฉด, ์ ํ ๋ชจ๋ธ)๊ณผ ๋จ์ผ ํ๋ซํผ ์คํ์ด ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ํ ์๋ฌธ์ ๋จ๊ธด๋ค.