์ ์: Oleg Kaidanov, Firas Al-Hafez, Yusuf Suvari, Boris Belousov, Jan Peters | ๋ ์ง: 2024-11-02 | URL: https://arxiv.org/abs/2411.01349 📄 PDF
Figure 2: Evaluation of Diffusion Policies in a non-randomized target environment. Top: A plot dis-
๋ณธ ๋ ผ๋ฌธ์ Humanoid ๋ก๋ด์ ์ ์ ์ ์ด๋ฅผ ์ํด Diffusion Policies๋ฅผ ํ๋ จํ ๋ Domain Randomization์ ์ญํ ์ ์กฐ์ฌํ๋ฉฐ, ์กฐ์ ์์ ๋ณด๋ค ๋ณดํ ์์ ์ด ํจ์ฌ ๋ ํฐ ๊ท๋ชจ์ ๋ค์์ฑ์ ๋ฐ์ดํฐ์ ์ ์๊ตฌํจ์ ๋ณด์ฌ์ค๋ค.
Figure 2: Evaluation of Diffusion Policies in a non-randomized target environment. Top: A plot dis-
Figure 1: Proposed method. First, a robust and stable RL policy is trained using AMP under ex-
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ humanoid ์ ์ด๋ฅผ ์ํ Diffusion Policies์ ๋ฐ์ดํฐ ์๊ตฌ์ฌํญ์ ๋ํ ์ฒซ ์ฒด๊ณ์ ablation ์ฐ๊ตฌ๋ก์, Domain Randomization์ ์ค์์ฑ์ ๋ช ํํ ์ ์ฆํ๊ณ ์กฐ์-๋ณดํ ์์ ๊ฐ์ ๊ทผ๋ณธ์ ์ฐจ์ด๋ฅผ ์ ๋ํํ๋ค. ๋ค๋ง ์ค์ ๋ก๋ด ๊ฒ์ฆ๊ณผ ๋ณต์กํ ์์ ์ผ๋ก์ ํ์ฅ์ด ํ์ํ๋ค.