์ ์: Jesse Zhang, Karl Pertsch, Jiahui Zhang, Joseph J. Lim | ๋ ์ง: 2023-06-20 | URL: https://arxiv.org/abs/2306.11886 📄 PDF
Fig. 1: SPRINT is a scalable approach for pre-training robot policies with a rich repertoire of skills while minimizing
SPRINT๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํ์ฉํ instruction relabeling๊ณผ offline RL ๊ธฐ๋ฐ cross-trajectory skill chaining์ ํตํด ๋ก๋ด ์ ์ฑ ์ฌ์ ํ์ต์ ์ํ ์ธ๊ฐ ์ฃผ์ ๋น์ฉ์ ํฌ๊ฒ ์ค์ด๋ ํ์ฅ ๊ฐ๋ฅํ ์ ๊ทผ๋ฒ์ด๋ค.
Fig. 5: ALFRED-RL evaluation results. Left: Zero shot performance on EVALINSTRUCT and EVALLENGTH. SPRINT is able
Fig. 2: SPRINT overview. We assume access to a dataset
์ดํ: SPRINT๋ LLM๊ณผ offline RL์ ์ฐฝ์์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ๋ก๋ด ์ ์ฑ ์ฌ์ ํ์ต์ ์ธ๊ฐ ์ฃผ์ ๋น์ฉ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์์ํค๋ ์ค์ง์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ์คํ ๊ฒฐ๊ณผ๋ ์ฐ์ํ๋, ์์ฑ๋ instruction์ ํ์ง ๋ณด์ฆ๊ณผ ๋ค์ํ ๋๋ฉ์ธ์์์ ๊ฒ์ฆ์ด ์ถ๊ฐ๋๋ฉด ๋์ฑ ๊ฐ๋ ฅํ ๊ธฐ์ฌ๊ฐ ๋ ๊ฒ์ด๋ค.