RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation
์ ์: Yufei Wang, Zhou Xian, Feng Chen, Tsun-Hsuan Wang, Yian Wang, Katerina Fragkiadaki, Zackory Erickson, David Held, Chuang Gan | ๋ ์ง: 2023-11-02 | URL: https://arxiv.org/abs/2311.01455 📄 PDF
Essence
Figure 1: 25 example tasks generated and corresponding skills learned by RoboGen. Readers are encouraged to visit our pr
RoboGen์ ์์ฑํ ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๋ก๋ด์ด ์๋์ผ๋ก ๋ค์ํ ์์
, ์ฅ๋ฉด, ํ์ต ๊ฐ๋
์ ์์ฑํ๊ณ ์ด๋ฅผ ํตํด ๊ท๋ชจ ์๋ ๋ก๋ด ๊ธฐ์ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์๋ํ ํ์ดํ๋ผ์ธ์ด๋ค.
Motivation
- Known: ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ๋ก๋ด์ด ๋ณต์กํ ์คํฌ์ ํ์ตํ ์ ์์ผ๋ฉฐ, ์ต๊ทผ foundation ๋ชจ๋ธ๋ค์ด ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์๋ค.
- Gap: ๊ธฐ์กด ๋ก๋ด ํ์ต์ ์์
์ค๊ณ, ์์ฐ ์์ฑ, ์ฅ๋ฉด ๊ตฌ์ฑ, ๋ณด์ ํจ์ ์ค๊ณ ๋ฑ์ ๋ง์ ์ธ์ ๋
ธ๋ ฅ์ด ํ์ํ๋ฉฐ, foundation ๋ชจ๋ธ์ ๋ก๋ด์ ์ ์ฉํ ๋ ๋ฌผ๋ฆฌ ์ํธ์์ฉ๊ณผ ์ ์ด์ ํ์ํ ์ง์์ด ๋ถ์กฑํ๋ค.
- Why: ์๋ํ๋ ๋ก๋ด ์คํฌ ํ์ต ํ์ดํ๋ผ์ธ์ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์์ ํ์ฅ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์ผ๋ฉฐ, ์ด๋ ์ค์ ๋ก๋ด ์์คํ
์ ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฐ๋ฐ๋ก ์ด์ด์ง ์ ์๋ค.
- Approach: RoboGen์ propose-generate-learn ์ํ ๊ตฌ์กฐ๋ฅผ ํตํด foundation ๋ชจ๋ธ์์ ๊ฐ์ฒด ์๋ฏธ๋ก , affordance, ์์ ์ง์์ ์ถ์ถํ๊ณ ์ด๋ฅผ ์ด์ฉํด ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ๊ตฌ์ฑํ ํ ์ ์ ํ ํ์ต ๋ฐฉ๋ฒ(RL, motion planning, trajectory optimization)์ ์๋์ผ๋ก ์ ํํ์ฌ ๋ก๋ด ์ ์ฑ
์ ํ์ตํ๋ค.
Achievement
Figure 1: 25 example tasks generated and corresponding skills learned by RoboGen. Readers are encouraged to visit our pr
- ๋ค์ํ ์์
์์ฑ: ๊ฐ์ฒด ๋ฐ articulated ๊ฐ์ฒด ์กฐ์, deformable ๊ฐ์ฒด ์กฐ์, legged locomotion ๋ฑ 25๊ฐ ์ด์์ ๋ค์ํ ์์
์ ์๋์ผ๋ก ์์ฑํ๊ณ ํ์ต
- ์ต์ํ์ ์ธ์ ๊ฐ์
: ๋ช ๊ฐ์ง ํ๋กฌํํธ ์ค๊ณ์ in-context ์์ ๋ง์ผ๋ก ์ธ๊ฐ์ด ์๋์ผ๋ก ๊ตฌ์ฑํ ๋ก๋ด ๋ฐ์ด์
๋ณด๋ค ๋ ๋์ ๋ค์์ฑ ๋ฌ์ฑ
- ์์ ์์ฑํ ํ์ดํ๋ผ์ธ: ๋ฐ๋ณต์ ์ผ๋ก ์ฟผ๋ฆฌ ๊ฐ๋ฅํ ์๋-ํฌ-์๋ ํ์ดํ๋ผ์ธ์ผ๋ก ๋ฌดํํ ์คํฌ ๋ฐ๋ชจ ์คํธ๋ฆผ ์์ฑ
- ํฉ๋ฆฌ์ ์ธ foundation ๋ชจ๋ธ ํ์ฉ: ๋์ญํ๊ณผ ๋ฌผ๋ฆฌ ์ํธ์์ฉ์ ๋ํ ์ดํด๊ฐ ๋ถ์กฑํ foundation ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ์ธ์ํ๊ณ ๋ชจ๋ธ ๋ฅ๋ ฅ ๋ฒ์ ๋ด์ ์ ๋ณด๋ง ์ถ์ถํ์ฌ ํ์ฉ
How
Figure 2: RoboGen consists of the following stages: A) task proposal, B) scene generation, C) training supervision gener
- Task Proposal: LLM์ ์ฌ์ฉํ์ฌ ํ์ตํ ๊ฐ์น ์๋ ์์
๊ณผ ์คํฌ์ ์๋์ผ๋ก ์ ์
- Scene Generation: ์ ์๋ ์์
์ ๋ง์ถฐ ๊ด๋ จ ๊ฐ์ฒด์ ์์ฐ์ ์ ํํ๊ณ ์์ฑํ๋ฉฐ ๊ณต๊ฐ ๊ตฌ์ฑ ๊ฒฐ์
- Task Decomposition: ๊ณ ์์ค ์์
์ ์๋ธํ์คํฌ๋ก ๋ถํด
- Algorithm Selection: RL, motion planning, trajectory optimization ์ค ์ต์ ์ ํ์ต ๋ฐฉ๋ฒ ์๋ ์ ํ
- Training Supervision Generation: ๋ณด์ ํจ์ ๋ฑ ํ์ํ ํ์ต ๊ฐ๋
์๋ ์์ฑ
- Policy Learning: ์ ํ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ ์ฑ
ํ์ต ์ํ
Originality
- Foundation ๋ชจ๋ธ์ ์ง์์ ๋ก๋ด ์คํฌ ํ์ต์ ์ฒด๊ณ์ ์ผ๋ก ์ ์ฉํ๋, ์ง์ ์ ์ฑ
/์ก์
์์ฑ์ด ์๋ ์์
/์ฅ๋ฉด/๊ฐ๋
์์ฑ์๋ง ์ฌ์ฉํ๋ ์ฐฝ์์ ์ ๊ทผ
- ์์ ์๋ํ๋ propose-generate-learn ์ํ ๊ตฌ์กฐ๋ก ๊ธฐ์กด์ ์๋์ ์์
์ค๊ณ ๋ฐ ๋ณด์ ํจ์ ์ค๊ณ ํ์์ฑ ์ ๊ฑฐ
- ๋จ์ pick-and-place ์์ค์ ์ ์ฐจ์ ์์ฑ์ด ์๋ ๋ณต์กํ long-horizon ์์
, deformable ๊ฐ์ฒด ์กฐ์, ๋ณดํ ๋ก๋ด๊น์ง ํ์ฅ
- LLM ๊ธฐ๋ฐ ๋ณด์ ์์ฑ๊ณผ ์๊ณ ๋ฆฌ์ฆ ์๋ ์ ํ์ ๊ฒฐํฉ์ผ๋ก ๋ค์ํ ์์
์ ํ์ ๋ํ ์ผ๋ฐ์ ๋์
Limitation & Further Study
- Foundation ๋ชจ๋ธ์ด ๋ฌผ๋ฆฌ ๋์ญํ๊ณผ ์ ํํ ์ ์ด์ ๋ํ ์ดํด ๋ถ์กฑํ๋ฏ๋ก, ์์ฑ๋ ์์
์ ํ์ต ๊ฐ๋ฅ์ฑ๊ณผ ํ์ค์ฑ์ด foundation ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์์กด
- ํ์ฌ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ ๋ด์์๋ง ๊ฒ์ฆ๋์์ผ๋ฉฐ, ์ค์ ๋ก๋ด์ผ๋ก์ sim-to-real transfer ์ฑ๋ฅ์ ๋ฏธํ๊ฐ
- ์์ฑ๋ ์์
์ ์ฑ๊ณต๋ฅ ์ด ๋ณต์ก๋์ ๋ฐ๋ผ ๊ฐ์ํ๋ ๊ฒฝํฅ (Figure 5)์ด ์์ด ์ฅ๊ธฐ์ ์์
ํ์ต์ ์์ ์ฑ ๋ฌธ์
- ํ์ ์ฐ๊ตฌ: (1) ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ์ฑ๋ฅ ๊ฒ์ฆ, (2) ์์ฑ๋ ์์
์ ์คํ์ต ๊ฐ๋ฅ์ฑ์ ์ฌ์ ์ ๊ฒ์ฆํ๋ ๋ฉ์ปค๋์ฆ, (3) sim-to-real transfer ๊ธฐ๋ฒ ๊ฐ๋ฐ, (4) ๋ ์ ๊ตํ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
๊ณผ foundation ๋ชจ๋ธ์ ํตํฉ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: RoboGen์ foundation ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ์ธ์ํ๋ฉด์๋ ๊ทธ ๊ฐ์ ์ ์ฐฝ์์ ์ผ๋ก ํ์ฉํ์ฌ ๋ก๋ด ์คํฌ ํ์ต์ ์๋ํ์ ๊ท๋ชจ ํ๋๋ผ๋ ์๋ฏธ ์๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋
ผ๋ฌธ์ด๋ค. ์์ ์๋ํ๋ ํ์ดํ๋ผ์ธ๊ณผ ๋ค์ํ ์์
์์ฑ์ด๋ผ๋ ์ฑ๊ณผ๋ ์ฃผ๋ชฉํ ๋งํ๋, ํ์ค ํ๊ฒฝ์ผ๋ก์ ์ ์ฉ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์