์ ์: Runyu Ma, Jelle Luijkx, Zlatan Ajanovic, Jens Kober | ๋ ์ง: 2024-03-14 | URL: https://arxiv.org/abs/2403.09583 📄 PDF
Fig. 1: Graphical overview of ExploRLLM.
ExploRLLM์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ์์ฑํ ์ ์ฑ ์ฝ๋๋ก RL ์์ด์ ํธ์ ํ์์ ์ ๋ํ๋ฉด์, ์์ฐจ RL ์์ด์ ํธ๊ฐ FM์ ๋ฌผ๋ฆฌ์ ์ดํด ๋ถ์กฑ์ ๋ณด์ํ๋ ๋ฐฉ์์ผ๋ก ๋ก๋ด ์กฐ์ ์์ ์ ์ํ ํจ์จ์ฑ๊ณผ ์๋ ด์ฑ์ ๊ฐ์ ํ๋ค.
Fig. 4: Training curves for varying exploration rates in SH and LH tasks. ExploRLLM outperforms the exploration policies
Fig. 2: Implementation structure of ExploRLLM for tabletop manipulation, combining the strengths of RL and FMs.
์ดํ: ExploRLLM์ FM๊ณผ RL์ ์ฅ์ ์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ๋ก๋ด ์กฐ์์ ์ํ ํจ์จ์ฑ์ ํฌ๊ฒ ๊ฐ์ ํ๋ ์ค์ฉ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, ํนํ LLM ๊ธฐ๋ฐ ํ์ ์ ๋ต์ ํ์ ์ฑ๊ณผ ์ค์ ๋ก๋ด์์์ zero-shot ์ ์ด ์ฑ๊ณต์ ๋์ ๊ฐ์น๋ฅผ ๊ฐ์ง๋ค. ๋ค๋ง ํ๊ฐ ๋ฒ์ ํ๋์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ์ด ํ์ํ๋ค.