์ ์: Khang Nguyen, Khai Nguyen, An T. Le, Jan Peters, Manfred Huber, Ngo Anh Vien, Minh Nhat Vu | ๋ ์ง: 2025-05-19 | URL: https://arxiv.org/abs/2505.13549 📄 PDF
Fig. 2: Overview of TD-GRPC for Humanoid Locomotion: Starting from an initial state s0 encoded into latent state z0 with
๋ณธ ๋ ผ๋ฌธ์ Humanoid Locomotion์ ์ํด TD-MPC ํ๋ ์์ํฌ์ Group Relative Policy Optimization (GRPO)์ trust-region constraint๋ฅผ ํตํฉํ TD-GRPC๋ฅผ ์ ์ํ์ฌ, off-policy ํ์ต์ ๋ถ์์ ์ฑ๊ณผ policy mismatch ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
Fig. 3: Episode Returns of TD-GRPC and Baselines on H1โ2 in Humanoid Locomotion Tasks: TD-GRPC achieves rapid convergenc
Fig. 2: Overview of TD-GRPC for Humanoid Locomotion: Starting from an initial state s0 encoded into latent state z0 with
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ GRPO์ trust-region constraint๋ฅผ ํตํฉํ TD-GRPC๋ฅผ ์ ์ํ์ฌ humanoid locomotion์ off-policy ํ์ต ์์ ์ฑ์ ํจ๊ณผ์ ์ผ๋ก ๊ฐ์ ํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋, ์ค์ ๋ก๋ด ๊ฒ์ฆ๊ณผ ์ด๋ก ์ ๋ถ์ ์ฌํ, ๊ทธ๋ฆฌ๊ณ ๋ ๊ด๋ฒ์ํ task ํ๊ฐ๊ฐ ํ์ํ๋ค.