GenSim: Generating Robotic Simulation Tasks via Large Language Models
์ ์: Lirui Wang, Yiyang Ling, Zhecheng Yuan, Mohit Shridhar, Chen Bao, Yuzhe Qin, Bailin Wang, Huazhe Xu, Xiaolong Wang | ๋ ์ง: 2023-10-02 | URL: https://arxiv.org/abs/2310.01361 📄 PDF
Essence
Figure 2: GenSim is an LLM framework to scale up simulation task diversity for robotic policy
GenSim์ LLM์ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ๋ก๋ด ์๋ฎฌ๋ ์ด์
์์
์ ์๋์ผ๋ก ์์ฑํ๋ ํ๋ ์์ํฌ๋ก, ๊ธฐ์กด 10๊ฐ์ ์์์
์์
์ 100๊ฐ ์ด์์ผ๋ก ํ์ฅํ์ฌ ์์
์์ค์ ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ์๋ฎฌ๋ ์ด์
์ ๋ก๋ด ์ ์ฑ
ํ์ต์ ์ํ ๋น์ฉ ํจ์จ์ ์ธ ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ๋ฒ์ด์ง๋ง, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ฅ๋ฉด ์์ค์ ๋ค์์ฑ(๊ฐ์ฒด ์ธ์คํด์ค, ํฌ์ฆ)์๋ง ์ง์คํ์ฌ ์์
์์ค์ ์ผ๋ฐํ๊ฐ ์ด๋ ต๋ค.
- Gap: ์๋ก์ด ์์
์ ์ค๊ณํ๊ณ ๊ฒ์ฆํ๋ ์ธ๊ฐ์ ๋
ธ๋ ฅ์ด ํ์ํ์ฌ ์์
์์ค์ ๋ค์์ฑ์ ํ๋ณดํ๊ธฐ ์ด๋ ต๊ณ , ์ด๋ก ์ธํด ์์ฑ๋ ์ ์ฑ
์ ์์
์์ค ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ ํ๋๋ค.
- Why: ์์
์์ค ๋ค์์ฑ์ด ํ๋ถํ ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ๋ ๋ก๋ด ์ ์ฑ
์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์ผ๋ฉฐ, ์ด๋ ์ค์ธ๊ณ ์ ์ฉ ์ sim-to-real ์ ์ด ์ฑ๋ฅ์ ๊ฐ์ ํ์ฌ ๋ก๋ด ์ ์ฑ
์ ์ค์ฉ์ฑ์ ๋์ธ๋ค.
- Approach: LLM์ ์ถ๋ก ๋ฐ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ task creator๊ฐ ์์ฐ์ด ์ง์์ ์ฝ๋๋ฅผ ์์ฑํ๊ณ , task library๋ฅผ ํตํด ๊ณ ํ์ง ์์
์ ์บ์ฑํ๋ฉฐ, ์์ฑ๋ ์์
์ผ๋ก ๋ค์ค์์
์ ์ฑ
์ ํ์ตํ๋ค.
Achievement
Figure 1: Task gallery of over 100 tasks generated by GPT4. GenSim leverages a LLM code
- ๋๊ท๋ชจ ์์
์์ฑ: GPT4๋ฅผ ์ฌ์ฉํ์ฌ ๊ธฐ์กด 10๊ฐ์ ์์์
์์
์ 100๊ฐ ์ด์์ผ๋ก 10๋ฐฐ ํ์ฅํ๊ณ , goal-directed์ exploratory ๋ ๊ฐ์ง ์์ฑ ๋ชจ๋ ์ ์
- LLM ๋ฒค์น๋งํน: GPT-3.5, GPT-4, Code-Llama ๋ฑ ์ต์ LLM๋ค์ ๋ก๋ด ์๋ฎฌ๋ ์ด์
์์
์์ฑ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ณ , task library ๊ธฐ๋ฐ finetuning์ผ๋ก ์ฑ๋ฅ ๊ฐ์
- ์ ์ฑ
ํ์ต ๊ฐ์ : ์์ฑ๋ ์์
์ผ๋ก ํ์ตํ ๋ค์ค์์
์ ์ฑ
์ด ์ธ๋๋ฉ์ธ ์ผ๋ฐํ 50% ๊ฐ์ , ๋ฏธ์ง ์์
์ผ๋ก์ zero-shot ์ ์ด 40% ๋ฌ์ฑ
- Sim-to-real ์ ์ด: ์ต์ํ์ sim-to-real ์ ์์ผ๋ก ์์ฑ๋ ์์
๊ธฐ๋ฐ ์ ์ฑ
์ด ์ค์ ํ๊ฒฝ์์ ๋ฏธ์ง ์ฅ๊ธฐ ์์
์ ๋ํด 25% ์ฑ๋ฅ ํฅ์
How
Figure 3: Our automatic simulation task generation pipeline (top left) generates a task code that can
- Task creator ๋ชจ๋์ด ์์ฐ์ด ์ฒ๋ฆฌ๋ฅผ ํตํด ์์
์ค๋ช
์์ฑ ํ ์ฝ๋ ๊ตฌํ์ ์ํ
- Few-shot prompting์ผ๋ก task library์์ ์ฐธ์กฐ ์์
๊ณผ ์ฝ๋๋ฅผ ๊ฒ์ํ์ฌ ๊ตฌํ ๊ฐ์ด๋ ์ ๊ณต
- ์์ฑ๋ ์ฝ๋์ ๋ํด syntax ๊ฒ์ฌ, runtime ๊ฒ์ฆ, ํ๊ฒฝ ์คํ ์ฑ๊ณต๋ฅ ํ์ธ, policy training์ ํตํ ๋ฌ์ฑ ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ, ์ธ๊ฐ ๊ฒ์ฌ ๋ฑ 5๋จ๊ณ ํผ๋๋ฐฑ ๋ฃจํ ์ด์
- Goal-directed ๋ชจ๋์์๋ ๋ชฉํ ์์
์ ์
๋ ฅ๋ฐ์ task curriculum ์ ์ํ๋ ํํฅ์ ์ ๊ทผ
- Exploratory ๋ชจ๋์์๋ ๊ธฐ์กด ์์
์์ ๋ถํธ์คํธ๋ฉํ์ฌ ๋ฐ๋ณต์ ์ผ๋ก ์๋ก์ด ์์
์ ์ ์ํ๋ ์ํฅ์ ์ ๊ทผ
- ์์ฑ๋ ์์
์ผ๋ก language-conditioned multitask policy๋ฅผ supervised finetuningํ์ฌ ์ ์ฑ
์ ์์
์์ค ์ผ๋ฐํ ๋ฅ๋ ฅ ํฅ์
Originality
- LLM์ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ๋ก๋ด ์๋ฎฌ๋ ์ด์
์์
์๋ ์์ฑ์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ์ ์ฉํ์ฌ ์์
์์ค ๋ค์์ฑ ํ๋ณด
- Goal-directed์ exploratory ๋ ๊ฐ์ง ๋น๋์นญ์ ์์ฑ ๋ชจ๋๋ฅผ ์ ์ํ์ฌ ํน์ ๋ชฉํ ๋ฌ์ฑ๊ณผ ํ์์ ํ์ต์ ๋์์ ์ง์
- Task library ๊ธฐ๋ฐ์ ๊ฒ์-์ฆ๊ฐ ์์ฑ(retrieval-augmented generation) ๋ฐฉ์์ผ๋ก LLM์ด ๋ก๋ด ์ฝ๋ฉ ๊ท์ฝ์ ์ฒด๊ณ์ ์ผ๋ก ํ์ตํ๋๋ก ์ค๊ณ
- Syntax, runtime, environment, policy training, human inspection ๋ฑ ๋ค์ธต์ ํผ๋๋ฐฑ ๋ฃจํ๋ฅผ ํตํ ์์ฑ ์ฝ๋ ๊ฒ์ฆ ๋ฐ ๊ฐ์ ๋ฉ์ปค๋์ฆ ์ ์
Limitation & Further Study
- ํ์ฌ Ravens benchmark์ push/pick-and-place ๊ฐ์ ๊ธฐ๋ณธ ๋์์ ๊ธฐ๋ฐํ๋ฏ๋ก, ๋ ๋ณต์กํ ๋ค์ค ๋ก๋ด ํ๋ ฅ์ด๋ ๋์ ํ๊ฒฝ์์์ ํ์ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ์์ฑ๋ ์์
์ ํ์ง์ LLM์ ์ฑ๋ฅ์ ํฌ๊ฒ ์์กดํ๋ฏ๋ก, ๋ ์์ ์คํ์์ค LLM์ ๊ฒฝ์ฐ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- Sim-to-real ์ ์ด ์คํ์ด ์ ํ์ ์ด๋ฉฐ, ๋ ๋ค์ํ ์ค์ ํ๊ฒฝ๊ณผ ์์
์์์ ์ผ๋ฐํ ์ฑ๋ฅ ๊ฒ์ฆ ํ์
- ์์
์์ฑ ๊ณผ์ ์์ ์ฌ์ฉ๋๋ ํ๋กฌํํธ ์์ง๋์ด๋ง์ ์ํฅ๋๊ฐ ํฌ๋ฏ๋ก, ํ๋กฌํํธ ์ค๊ณ์ ๊ณผํํ์ ์๋ํ ์ฐ๊ตฌ ํ์
- Task library ์ด๊ธฐํ์ ํ์ํ ์์์
์์
์(10๊ฐ)์ ์ต์ํ ๋ฐฉ์๊ณผ, ์๋ก์ด ๋๋ฉ์ธ์ผ๋ก์ ์ ์ด ํ์ต ๋ฐฉ๋ฒ๋ก ๊ฐ๋ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: GenSim์ LLM์ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ๋ก๋ด ์๋ฎฌ๋ ์ด์
์ ์ฐฝ์์ ์ผ๋ก ์ ์ฉํ์ฌ ์์
์์ค ๋ค์์ฑ์ ํ๊ธฐ์ ์ผ๋ก ํ๋ํ๊ณ , ์ค์ฆ์ ์ผ๋ก ์ ์ฑ
์ผ๋ฐํ์ sim-to-real ์ ์ด ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํจ ํ์ ์ ์ธ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง ๋ณต์กํ ํ๊ฒฝ๊ณผ ๋ ๋ค์ํ ์ค์ ๋ก๋ด์์์ ์ผ๋ฐํ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์