์ ์: Younggyo Seo, Carmelo Sferrazza, Haoran Geng, Michal Nauman, Zhao-Heng Yin, Pieter Abbeel | ๋ ์ง: 2025-05-28 | URL: https://arxiv.org/abs/2505.22642 📄 PDF
Figure 3: Summary of results. FastTD3 is a simple, fast, and capable RL algorithm that significantly
FastTD3๋ ๋ณ๋ ฌ ์๋ฎฌ๋ ์ด์ , ๋๋ฐฐ์น ์ ๋ฐ์ดํธ, ๋ถํฌ ๊ธฐ๋ฐ ํฌ๋ฆฌํฑ ๋ฑ์ ๊ฐ๋จํ ์์ ์ ํตํด TD3๋ฅผ ์ต์ ํํ์ฌ humanoid ๋ก๋ด ์ ์ด ํ์คํฌ๋ฅผ ๋จ์ผ A100 GPU์์ 3์๊ฐ ์ด๋ด์ ํ์ตํ๋ ๋น ๋ฅด๊ณ ํจ์จ์ ์ธ ์คํ-์ ์ฑ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ๋ค.
Figure 4: Results on a selected set of tasks. Learning curves on selected individual tasks from
Figure 5: Effect of design choices (1 / 2). We investigate the effect of (a) parallel environments,
์ดํ: FastTD3๋ ๊ธฐ์กด ๊ธฐ๋ฒ์ ์กฐํฉ์ด์ง๋ง humanoid robotics์์ ์ค๋ฌด์ ์ผ๋ก ๋งค์ฐ ์ ์ฉํ ๊ฐ๋จํ๊ณ ๋น ๋ฅธ ์๋ฃจ์ ์ ์ ๊ณตํ๋ฉฐ, ์คํ์์ค ๊ตฌํ์ ํตํด RL ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ์ ๊ทผ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค. ๋ค๋ง ์๊ณ ๋ฆฌ์ฆ ํ์ ๋ณด๋ค๋ ์์ง๋์ด๋ง ์ต์ ํ์ ์ค์ ์ ๋๊ณ ์์ด ๊ณผํ์ ์์ฐฝ์ฑ์ ์ ํ์ ์ด๋ค.