์ ์: Younggyo Seo, Carmelo Sferrazza, Juyue Chen, Guanya Shi, Rocky Duan, Pieter Abbeel | ๋ ์ง: 2025-12-01 | URL: https://arxiv.org/abs/2512.01996 📄 PDF
Figure 1: Summary of results. We introduce a simple recipe based on off-policy RL algorithms, i.e.,
์ด ๋ ผ๋ฌธ์ FastSAC์ FastTD3๋ผ๋ off-policy RL ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ๋จ์ผ RTX 4090 GPU์์ 15๋ถ ์ด๋ด์ humanoid ๋ก๋ด์ ๋ณดํ ์ ์ฑ ์ ํ์ตํ ์ ์๋ ์ค์ฉ์ ์ธ ๋ ์ํผ๋ฅผ ์ ์ํ๋ค.
Figure 1: Summary of results. We introduce a simple recipe based on off-policy RL algorithms, i.e.,
Figure 2: FastSAC: Analyses. We investigate the effect of (a) Clipped double Q-learning, (b) number
์ดํ: ์ด ๋ ผ๋ฌธ์ off-policy RL์ humanoid ์ ์ด์ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉํ๊ธฐ ์ํ ์ค์ฉ์ ์ด๊ณ ์ฒด๊ณ์ ์ธ ๋ ์ํผ๋ฅผ ์ ๊ณตํ๋ฉฐ, 15๋ถ์ ๋น ๋ฅธ ํ๋ จ ์๊ฐ๊ณผ ์ค์ ๋ก๋ด ๋ฐฐํฌ๋ฅผ ํตํด sim-to-real ๊ฐ๋ฐ ์ฌ์ดํด์ ํ์ ์ ๋ณด์ฌ์ค๋ค. ์คํ์์ค ๊ตฌํ ์ ๊ณต์ผ๋ก ์ฐ์ ๋ฐ ํ๊ณ์ ์ฆ์ ์ํฅ์ ๋ฏธ์น ์ ์๋ค.