์ ์: Lars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi | ๋ ์ง: 2025-09-23 | URL: https://arxiv.org/abs/2509.19301 📄 PDF
Fig. 2. Off-policy residual fine-tuning (ResFiT): A two-phase approach using online RL to improve BC policies. First, we
Behavior Cloning(BC) ์ ์ฑ ์ ๊ธฐ๋ฐ์ผ๋ก Residual Off-Policy RL์ ์ ์ฉํ์ฌ ์ํ ํจ์จ์ ์ผ๋ก ์กฐ์ ์ ์ฑ ์ ๊ฐ์ ํ๋ฉฐ, ๊ณ ์์ ๋ ์ด์กฑ ๋ก๋ด์์์ ์ฒซ ์ค์๊ฐ RL ํ์ต์ ๋ฌ์ฑํ๋ค.
Fig. 5. Success rates of different approaches on our simulation tasks, showing ResFiT converging to high-performing poli
Fig. 2. Off-policy residual fine-tuning (ResFiT): A two-phase approach using online RL to improve BC policies. First, we
์ดํ: BC์ off-policy RL์ residual learning์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ, ๊ณ ์์ ๋ ์ค์๊ฐ ๋ก๋ด ํ์ต์ ์ค์ฉ์ ๊ฒฝ๋ก๋ฅผ ์ ์ํ๋ค. ๋ธ๋๋ฐ์ค ๋ฐฉ์์ ์ผ๋ฐ์ฑ๊ณผ ์ฒซ ํด๋จธ๋ ธ์ด๋ RL ์ค์ฆ์ด ๋ก๋ด ํ์ต ๋ถ์ผ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ์ด๋ฃฌ๋ค.