์ ์: Jiaheng Hu, Peter Stone, Roberto Martรญn-Martรญn | ๋ ์ง: 2025-06-04 | URL: https://arxiv.org/abs/2506.04147 📄 PDF
Figure 1: SLAC uses a task-agnostic action space trained in low-fidelity simulation (left) to learn
SLAC๋ ์ ์ถฉ์ค๋ ์๋ฎฌ๋ ์ดํฐ์์ ํ์ตํ task-agnostic ์ ์ฌ ํ๋ ๊ณต๊ฐ์ ์ฌ์ฉํ์ฌ ๊ณ ์์ ๋ ๋ชจ๋ฐ์ผ ๋งค๋ํจ๋ ์ดํฐ๊ฐ ์ค์ ํ๊ฒฝ์์ ํจ์จ์ ์ด๊ณ ์์ ํ๊ฒ ๊ฐํํ์ต์ผ๋ก ์ ์ด์ด ํ๋ถํ ์ ์ ์กฐ์ ์์ ์ ํ์ตํ ์ ์๊ฒ ํ๋ค.
Figure 1: SLAC uses a task-agnostic action space trained in low-fidelity simulation (left) to learn
Figure 2: The two-step SLAC procedure to enable real-world policy learning. (Left) In the first
์ดํ: SLAC๋ ์ ์ถฉ์ค๋ ์๋ฎฌ๋ ์ด์ ๊ธฐ๋ฐ latent action space pretraining๊ณผ ์ค์ ํ๊ฒฝ ๊ฐํํ์ต์ ๊ฒฐํฉํ์ฌ ๊ณ ์์ ๋ ๋ชจ๋ฐ์ผ ๋งค๋ํจ๋ ์ดํฐ์ ๋ณต์กํ ์ ์ด ์กฐ์ ์์ ์ ์์ ํ๊ณ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์๊ฒ ํ๋ ํ์ ์ ์ธ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ฉฐ, 1์๊ฐ ๋ฏธ๋ง์ ์ค์ ์ํธ์์ฉ๋ง์ผ๋ก ์๋ฏธ ์๋ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํจ์ผ๋ก์จ ์ค์ ๋ก๋ด ํ์ต์ ์ค์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.