์ ์: Lucas N. Alegre, Agon Serifi, Ruben Grandia, David Mรผller, Espen Knoop, Moritz Bรคcher | ๋ ์ง: 2025-05-29 | URL: https://arxiv.org/abs/2505.23708 📄 PDF
Fig. 1. Our method uses multi-objective reinforcement learning to enable on-the-fly tuning of reward weights post-traini
๋ณธ ๋ ผ๋ฌธ์ Multi-Objective Reinforcement Learning(MORL)์ ํ์ฉํ์ฌ ๋ณด์ ํจ์์ ๊ฐ์ค์น๋ฅผ ํ์ต ํ ์กฐ์ ํ ์ ์๋ AMOR ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์ด๋ฅผ ํตํด ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์บ๋ฆญํฐ ์ ์ด์ ๋ฐ๋ณต ํ๋ ์๊ฐ์ ๋จ์ถํ๊ณ ์ค์ ๋ก๋ด์ผ๋ก์ ์ ์ด๋ฅผ ์ฉ์ดํ๊ฒ ํ๋ค.
Fig. 4. Pareto Fronts (PFs). Visualization of selected PFs generated by
Fig. 2 shows the structure of AMOR. At its core, it is an RL-based
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ MORL์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์บ๋ฆญํฐ ์ ์ด์ ์ฐฝ์์ ์ผ๋ก ์ ์ฉํ์ฌ ํ๋ จ ํ ๊ฐ์ค์น ์กฐ์ ์ ๊ฐ๋ฅํ๊ฒ ํจ์ผ๋ก์จ ๊ฐ๋ฐ ์ํฌํ๋ก์ฐ๋ฅผ ํฌ๊ฒ ๊ฐ์ ํ๊ณ , ์ค์ ๋ก๋ด ์ ์ฉ์์์ sim-to-real ์ ์ด๋ฅผ ์ฉ์ดํ๊ฒ ํ๋ ์ค์ฉ์ ์ด๊ณ ํ์ ์ ์ธ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.