์ ์: Qi Liu, Xiaopeng Zhang, Mingshan Tan, Shuaikang Ma, Jinliang Ding, Yanjie Li | ๋ ์ง: 2025-08-14 | URL: https://arxiv.org/abs/2508.10423 📄 PDF
Fig. 1. MARL model for a single humanoid robotโs locomotion
๋จ์ผ ์ธ๊ฐํ ๋ก๋ด์ ๋ณดํ์ ์ํด ๊ฐ ํ๋ค๋ฆฌ๋ฅผ ๋ ๋ฆฝ ์์ด์ ํธ๋ก ๋ชจ๋ธ๋งํ์ฌ Cooperative-Heterogeneous MARL์ ์ ์ฉํ๋ MASH ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ด๋ ์ ์ญ ๋นํ๊ฐ๋ฅผ ๊ณต์ ํ๋ฉฐ ํ๋ ฅํ์ต์ ํตํด ์ ์ ์กฐํ ๋ฅ๋ ฅ์ ํฅ์์ํจ๋ค.
Fig. 4. Reward growth trends for (a) leg training and (b) whole-body training, comparing MASH with the Single Agent PPO
Fig. 2. The framework of MASH
์ดํ: MASH๋ MARL ์์น์ ๋จ์ผ ์ธ๊ฐํ ๋ก๋ด์ ์ฐฝ์์ ์ผ๋ก ์ ์ฉํ์ฌ ์ ์ ์กฐํ ๋ณดํ ํ์ต์ ํจ๊ณผ์ ์ผ๋ก ๊ฐ์ ํ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ด๋ค. ๋ค๋ง ์ค์ ๋ก๋ด ๊ฒ์ฆ๊ณผ ์๊ณ ๋ฆฌ์ฆ ์ธ๋ถ์ฌํญ ๋ช ํํ๊ฐ ํ์ํ๋ค.