RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (early version)
์ ์: Yao Mu, Tianxing Chen, Shijia Peng, Zanxin Chen, Zeyu Gao, Yude Zou, Lunkai Lin, Zhiqiang Xie, Ping Luo | ๋ ์ง: 2024-09-04 | URL: https://arxiv.org/abs/2409.02920 📄 PDF
Essence
Fig. 1: RoboTwin Benchmark.
RoboTwin์ 3D generative foundation model๊ณผ LLM์ ํ์ฉํ generative digital twin ํ๋ ์์ํฌ๋ก, 2D ์ด๋ฏธ์ง๋ก๋ถํฐ ๋ค์ํ 3D ๊ฐ์ฒด ๋ชจ๋ธ์ ์์ฑํ๊ณ dual-arm ๋ก๋ด ์์
์ ์ํ synthetic ๋ฐ์ดํฐ์
๊ณผ real-world-aligned ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ค.
Motivation
- Known: ๋ก๋ด ์กฐ์ ํ์ต์ human teleoperation๊ณผ behavioral cloning, offline RL, diffusion policy ๋ฑ์ ๋ฐฉ๋ฒ์ด ์์ผ๋ฉฐ, ์ด๋ค์ ๊ณ ํ์ง ๋ฐ์ดํฐ์
์ ์์กดํ๋ค. ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ค์ real-world ๋ฐ์ดํฐ ์์ง์ ์ด๋ ค์๊ณผ synthetic ๋ฐ์ดํฐ์ sim-to-real gap ๋ฌธ์ ๋ฅผ ์๊ณ ์๋ค.
- Gap: Dual-arm ๋ก๋ด ํ๋ ฅ๊ณผ tool use์ ํนํ๋ ๊ณ ํ์ง, ๋ค์ํ ๋ฐ์ดํฐ์
์ ๋ถ์กฑ์ผ๋ก advanced manipulation ์์คํ
๊ฐ๋ฐ์ด ์ ํ๋๊ณ ์๋ค. ๋ํ traditional digital twin ์์ฑ ๋ฐฉ์์ ๊ณ ๋น์ฉ์ ์ผ์์ ์๋ ์ค์ ์ ์๊ตฌํ์ฌ ํ์ฅ์ฑ์ด ๋ฎ๋ค.
- Why: Dual-arm ๋ก๋ด์ ํ๋ ฅ๊ณผ ๋๊ตฌ ์ฌ์ฉ ๋ฅ๋ ฅ์ manufacturing, healthcare, home ๋ฑ ๋ค์ํ ์ค์ ํ๊ฒฝ์์ ํ์์ ์ด๋ฉฐ, ํจ๊ณผ์ ์ธ training data์ evaluation benchmark๊ฐ ์์ผ๋ฉด ๋ก๋ด ๊ฐ๋ฐ์ ํฌ๊ฒ ๊ฐ์ํํ ์ ์๋ค.
- Approach: AIGC ๊ธฐ์ (Deemos Rodin)์ ์ด์ฉํด ๋จ์ผ 2D RGB ์ด๋ฏธ์ง์์ 3D ๋ชจ๋ธ์ ์์ฑํ๊ณ , ๊ฐ์ฒด์ functional part์ ์ขํ์ถ์ ํ ๋นํ์ฌ grasp pose๋ฅผ ์๋ ๊ณ์ฐํ๋ค. GPT4-V๋ฅผ ํ์ฉํด spatial relation-aware code generation์ผ๋ก task decomposition๊ณผ robotic movement code๋ฅผ ์๋ ์์ฑํ๊ณ , COBOT Magic ํ๋ซํผ์์ ์์งํ real-world data์ synthetic data๋ฅผ ๊ฒฐํฉํ ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ฑํ๋ค.
Achievement
Fig. 2: AIGC & Expert Data Generation pipeline. Automatic extraction of object seg-
- RoboTwin ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
: Real-world teleoperated data์ high-fidelity synthetic data๋ฅผ ํฌํจํ๋ฉฐ, dual-arm tool use์ human-robot interaction์ ํนํ๋ ํฌ๊ด์ ๋ฒค์น๋งํฌ ์ ๊ณต
- Real-to-simulation ํ์ดํ๋ผ์ธ: ๋จ์ผ RGB ์ด๋ฏธ์ง๋ก๋ถํฐ 3D mesh, texture, functional axes๋ฅผ ์๋ ์์ฑํ๋ cost-effective ๋ฐฉ์์ผ๋ก digital twin ๊ตฌ์ถ
- LLM ๊ธฐ๋ฐ expert data ์์ฑ: Spatial relation-aware code generation์ผ๋ก task-specific pose sequences์ trajectory planning์ ์๋ํ
- ์ฑ๋ฅ ํฅ์: Pre-trained ์ ์ฑ
์ fine-tuning์ผ๋ก single-arm ์์
70% ์ด์, dual-arm ์์
40% ์ด์์ success rate ๊ฐ์ ๋ฌ์ฑ
How
Fig. 2: AIGC & Expert Data Generation pipeline. Automatic extraction of object seg-
- 2D ์ด๋ฏธ์ง ์
๋ ฅ โ AIGC (Rodin)๋ฅผ ํตํด 3D geometry, surface normal, texture ์์ฑ
- ๊ฐ์ฒด์ functional part์ approach direction์ ๋ํ๋ด๋ ์ขํ์ถ ์ ์
- Surface normal๊ณผ ์ถ ์ ๋ณด๋ก๋ถํฐ grasp pose ์๋ ๊ณ์ฐ
- GPT4-V์ vision-language capability์ simulation environment ์ ๋ณด๋ฅผ ํ์ฉํ spatial relation ๋ถ์
- Code generation framework๋ก task decomposition โ spatial constraint ๊ฒฐ์ โ robotic movement code ์์ฑ
- COBOT Magic ํ๋ซํผ์์ real-world data ์์ง (4๊ฐ arms, 4๊ฐ RGBD cameras)
- Synthetic data์ real data ๊ฒฐํฉํ์ฌ ํ์ต ํ limited real-world samples๋ก fine-tuning
Originality
- AIGC ๊ธฐ๋ฐ cost-effective digital twin ์์ฑ์ผ๋ก high-precision sensors์ ์์กด์ฑ ์ ๊ฑฐ
- Functional part ์ค์ฌ์ coordinate axis ํ ๋น์ผ๋ก grasp pose ์๋ํ
- GPT4-V์ simulation ์ ๋ณด๋ฅผ ๊ฒฐํฉํ spatial relation-aware code generation์ ํ์ ์ ์ ๊ทผ
- Real-world teleoperated data์ synthetic data์ ์ฒด๊ณ์ ๊ฒฐํฉ์ผ๋ก sim-to-real transfer ๊ฐํ
- Dual-arm coordination๊ณผ tool use์ ํนํ๋ ์ต์ด์ comprehensive benchmark ์ ์
Limitation & Further Study
- Early version์ผ๋ก dataset ๊ท๋ชจ์ ๋ค์์ฑ์ด ์ ํ์ ์ผ ์ ์์ผ๋ฉฐ, ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ ๋ํ generalization ๊ฒ์ฆ ๋ถ์กฑ
- AIGC ์์ฑ ๋ชจ๋ธ์ ํ์ง์ด ๋ณต์กํ ๊ฐ์ฒด๋ ์ธ๋ถ ๊ตฌ์กฐ์์ ์๋ฒฝํ์ง ์์ ์ ์๊ณ , grasp pose ๊ณ์ฐ์ ์ ํ๋๊ฐ surface normal ์ถ์ ์ ์์กด
- LLM ๊ธฐ๋ฐ code generation์ ์ค๋ฅ rate์ edge case ์ฒ๋ฆฌ์ ๋ํ ํ๊ฐ ๋ถ์กฑ
- Real-world data ์์ง์ด ํน์ ํ๋ซํผ(COBOT Magic)์ ๊ตญํ๋์ด ๋ค๋ฅธ dual-arm ๋ก๋ด์ผ๋ก์ ์ ์ด ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ํ์ ์ฐ๊ตฌ: ๋ ๋ง์ ๊ฐ์ฒด์ task์ ๋ํ ๋ฐ์ดํฐ ํ๋, ๋ค์ํ ๋ก๋ด ํ๋ซํผ์์์ validation, LLM ์ค๋ฅ์ ๋ํ robust error handling, sim-to-real gap ๊ฐ์ ๋ฐฉ์ ์ฐ๊ตฌ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: RoboTwin์ AIGC์ LLM์ ์ฐฝ์์ ์ผ๋ก ๊ฒฐํฉํ์ฌ dual-arm ๋ก๋ด ํ์ต์ ์ํ scalable data generation๊ณผ evaluation ํ๋ ์์ํฌ๋ฅผ ์ ์ํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค. ๋จ์ผ ์ด๋ฏธ์ง์์ digital twin์ ์์ฑํ๋ cost-effective ๋ฐฉ์๊ณผ 40-70% ์ฑ๋ฅ ํฅ์์ ์ค์ฉ์ ๊ฐ์น๊ฐ ๋์ผ๋, early version ๋จ๊ณ์์ dataset ๊ท๋ชจ, ๋ค์ํ ํ๋ซํผ ๊ฒ์ฆ, LLM reliability์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์