์ ์: Anlun Huang, Zhenyu Wu, Soofiyan Atar, Yuheng Zhi, Michael Yip | ๋ ์ง: 2026-03-11 | DOI: 10.48550/arXiv.2603.10306 📄 PDF
Fig. 2: Overview of the ReST-RL framework. Base Policy Training: A locomotion policy is first trained to carry a tray wh
ReST-RL์ ์ฌ์ ํ์ต๋ ์ด์กฑ ๋ณดํ ์ ์ฑ ์ ์์ฐจ ๋ชจ๋์ ์ถ๊ฐํ์ฌ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ด ๋์ ๋ณดํ ์ค ํธ๋ ์ด ์์ ๋ถ์์ ํ ๋ฌผ์ฒด๋ฅผ ์์ ์ ์ผ๋ก ์ด๋ฐํ ์ ์๋๋ก ํ๋ ๊ณ์ธต์ ๊ฐํํ์ต ์ํคํ ์ฒ์ด๋ค.
Fig. 4: Training reward comparison between End2End and
Fig. 2: Overview of the ReST-RL framework. Base Policy Training: A locomotion policy is first trained to carry a tray wh
์ดํ: ReST-RL์ ๋ณดํ ์์ ์ฑ์ ๋ณด์กดํ๋ฉด์ payload ์์ ํ๋ฅผ ๋ถ๋ฆฌ ํ์ตํ๋ ์ฐ์ํ ์ค๊ณ๋ก, ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์ค์ ์๋น์ค ์์ฉ(์์๋ฃ ๋ฐฐ์ก, ์๋ฃ ๊ธฐ๊ตฌ ์ด๋ฐ)์ ํ์์ ์ธ ์ ๋ขฐ์ฑ ๋์ ๋ฌผ์ฒด ์ด๋ฐ์ ์ฒ์ ์ฑ๊ณต์ ์ผ๋ก ์์ฐํ๋ค.