์ ์: Qijun Liao, Zhaoxin Yu, Jue Yang | ๋ ์ง: 2026-05-05 | URL: https://arxiv.org/abs/2605.04185 📄 PDF
๋ณธ ๋ ผ๋ฌธ์ ๊ฐํํ์ต์์ ์ด์ง์ (heterogeneous) ๊ด์ ๋ณ ์ก์ถ์์ดํฐ ์๋ ์ ์ฝ์ ์ ํํ ์ฒ๋ฆฌํ๋ Dynamic Decoupled Spherical Radial Squashing (DD-SRad) ๊ธฐ๋ฒ์ ์ ์ํ๋ค. ๊ธฐ์กด์ isotropic spherical ๋ฐฉ๋ฒ์ โโ ๋ฐ์ค ํํ์ ์ ์ฝ์ โ2 ๊ณต ํํ๋ก ์์ถํ์ฌ ์คํ ๊ฐ๋ฅ ์งํฉ์ ์์คํ๋ ๋ฐ๋ฉด, DD-SRad๋ ์ฐจ์๋ณ ์ ์ ๋ฐ๊ฒฝ(per-dimension adaptive radius)์ ๋ ๋ฆฝ์ ์ผ๋ก ๊ณ์ฐํ์ฌ ์ ํํ โโ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ๋ฌ์ฑํ๋ค.
Figure 5 presents the post-convergence per-dimension utilization radar charts across four MuJoCo
ํ๋ ์ ์ฝ ๋ง์กฑ: Theorem 2.4์์ ํ๋ฅ 1๋ก ๋ชจ๋ ์ ์ฝ |a_i^t - a_i^{t-1}| โค ฮด_i ๋ง์กฑ ์ฆ๋ช . ๊ธฐํํ์ ์ ๋ ฌ: โโ ๋ฐ์ค์ ์ ํํ ์ผ์นํ๋ ์คํ ๊ฐ๋ฅ ์งํฉ์ผ๋ก 30~50% ์ ์ฝ ๊ณต๊ฐ ์ปค๋ฒ๋ฆฌ์ง ๊ฐ์ . ๊ทธ๋๋์ธํธ ๋ณด์กด: Proposition 2.5์์ Jacobian์ด ๋๊ฐ ํ๋ ฌ์ด๊ณ ์กฐ๊ฑด์(condition number)๊ฐ ฮบ = max_i ฮด_i / min_i ฮด_i๋ก ์ ํ๋จ์ ๋ณด์ด๋ฉฐ, ๊ฒฝ๊ณ ๊ทผ์ฒ์์๋ ๊ทธ๋๋์ธํธ ์์ค ์ต์ํ. ์ค์ฆ ์ฑ๋ฅ: MuJoCo ๋ฒค์น๋งํฌ์์ ์ ์ฝ ์๋ฐ 0๊ฑด ์ ์งํ๋ฉฐ ์ ์ฝ ์๋ ์ํ๊ณผ ๋๋ฑํ ์ต๊ณ ์์ต๋ฅ ๋ฌ์ฑ, IsaacLab์ Unitree H1/G1์์ ๊ณต์ ์ฌ์์ผ๋ก๋ถํฐ end-to-end ์ต์ ์ฑ ๊ฒ์ฆ.
Figure 4 presents the mean return learning curves across four MuJoCo environments (Ant-v5,
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ์ด์ง์ ์๋ ์ ์ฝ์ ๊ฐ์ง ๊ฐํํ์ต ๋ฌธ์ ์ ๋ํด ์ด๋ก ์ ์ผ๋ก ๊ฑด์ ํ๊ณ ์ค๋ฌด์ ์ผ๋ก ํจ๊ณผ์ ์ธ ํด๊ฒฐ์ฑ ์ ์ ์ํ๋ค. ๊ธฐํํ์ ์ง๊ด, ์๋ฐํ ์ ๋ฆฌ, ๊ด๋ฒ์ํ ์ค์ฆ์ด ๊ฒฐํฉ๋์ด ์์ผ๋ฉฐ, ์ค ๋ก๋ด ๋ฐฐํฌ ๊ฒฝ๋ก๋ฅผ ๋ช ํํ ์ ์ํ๋ ์ ์ด ๋๋ณด์ธ๋ค. ๋ค๋ง UI=0 ๋ฏธ๋ถ ๋ถ๊ฐ๋ฅ์ฑ, ์ ํ๋ ์คํ ๋ฒ์, ์๋ ด์ฑ ์ฆ๋ช ๋ถ์ฌ๊ฐ ์์์ ์ฝ์ ์ด๋ ์ ๋ฐ์ ์ผ๋ก ๊ฒ์ฌ ๊ฐ์น๊ฐ ์ถฉ๋ถํ๋ค.