Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware
์ ์: Justin Yu, Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg | ๋ ์ง: 2025-05-14 | URL: https://arxiv.org/abs/2505.09601 📄 PDF
Essence
Figure 1: Real2Render2Real generating robot training data for the task of โPut the Mug on the Coffee Makerโ.
Real2Render2Real (R2R2R)์ ์ค๋งํธํฐ์ผ๋ก ์ดฌ์ํ 3D ๊ฐ์ฒด ์ค์บ๊ณผ ๋จ์ผ ์ธ๊ฐ ์์ฐ ์์์ผ๋ก๋ถํฐ ๋์ญํ ์๋ฎฌ๋ ์ด์
์ด๋ ๋ก๋ด ํ๋์จ์ด ์์ด ๋๊ท๋ชจ ๋ก๋ด ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ํ์ดํ๋ผ์ธ์ด๋ค.
Motivation
- Known: ๋ก๋ด ํ์ต ํ์ฅ์๋ ๋๊ท๋ชจ ๋ค์ํ ๋ฐ์ดํฐ์
์ด ํ์ํ๋ฉฐ, ํ์ฌ ์ธ๊ฐ ํ
๋ ์คํผ๋ ์ด์
๊ณผ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
์ด ์ฃผ์ ๋ฐ์ดํฐ ์์ง ํจ๋ฌ๋ค์์ด๋ค. ํ์ง๋ง ์ ์๋ ๋น์ฉ๊ณผ ์์์
์ด ๋ง์ด ๋ค๊ณ , ํ์๋ ๋์ญํ ๋ชจ๋ธ๋ง์ ์ ํ์ฑ ๋ฌธ์ ๋ก ์ด๋ ค์์ด ์๋ค.
- Gap: ๋ก๋ด ๋ฐ์ดํฐ์
์ LLM/VLM์ ํ์ต ๋ฐ์ดํฐ ๊ท๋ชจ๋ณด๋ค 100,000๋ฐฐ ์ด์ ์์ผ๋ฉฐ, ๋์ญํ ์๋ฎฌ๋ ์ด์
์์ด๋ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ๋๊ท๋ชจ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์ ์๋์ง ๋ฏธํด๊ฒฐ์ด๋ค.
- Why: ์์ฑ AI ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ ๋ก๋ด ์ ์ฑ
์ ์ฌ์ ํ ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ํ์ฅ์ ์ ์ฝ๋ฐ๊ณ ์์ผ๋ฉฐ, ์ ๊ทผ ๊ฐ๋ฅํ๊ณ ์ ๋น์ฉ์ ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ๋ฒ์ด ์ผ๋ฐํ๋ ๋ก๋ด ์ ์ฑ
๊ฐ๋ฐ์ ๊ฐ์ํํ ๊ฒ์ด๋ค.
- Approach: R2R2R์ 3D Gaussian Splatting (3DGS)์ผ๋ก ๊ฐ์ฒด ๊ธฐํํ๊ณผ ์ธ๊ด์ ์ฌ๊ตฌ์ฑํ๊ณ , ๋น๋์ค์์ 6-DoF ๊ฐ์ฒด ๊ถค์ ์ ์ถ์ถํ ํ, ์ญ ๊ธฐ๊ตฌํ(differential inverse kinematics)๊ณผ ๋๋ฉ์ธ ๋๋คํ๋ก ๋ค์ํ ๋ก๋ด ์คํ์ ํฉ์ฑํ์ฌ IsaacLab์ ์์ ๋ ๋๋ง ์์ง์ผ๋ก ํ์ฉํ๋ค.
Achievement
Figure 2: Data Generation Efficiency and Average Policy Performance Across Manipulation Tasks.
- ๋์ญํ ์๋ฎฌ๋ ์ด์
์ ๊ฑฐ: IsaacLab์ ์ด๋ํ๋ง ์กด์คํ๊ณ ์ถฉ๋ ๋ชจ๋ธ๋ง์ ๋นํ์ฑํํ ๋ ๋๋ง ์์ง์ผ๋ก๋ง ์ฌ์ฉํ์ฌ ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง์ ๋ณต์ก์ฑ์ ํํผ
- ๋จ์ผ ์์ฐ์ผ๋ก 150๋ฐฐ ๋ฐ์ดํฐ ํจ์จ์ฑ: 1๋ช
์ ์ธ๊ฐ ์์ฐ์ผ๋ก๋ถํฐ ์์ฑ๋ R2R2R ๋ฐ์ดํฐ๋ก ํ์ตํ ์ ์ฑ
์ด 150๊ฐ์ ์ธ๊ฐ ํ
๋ ์คํผ๋ ์ด์
์์ฐ์ผ๋ก ํ์ตํ ์ ์ฑ
๊ณผ ๋๋ฑํ ์ฑ๋ฅ ๋ฌ์ฑ
- ๋ก๋ด ๋ถ๊ฐ์ง๋ก ์ ์์ฑ: ์ค๋งํธํฐ ์ค์บ๊ณผ ์ธ๊ฐ ์์ฐ๋ง์ผ๋ก ๋ค์ํ ๋ก๋ด ๊ตฌํ์ฒด์ ์์
์ ์ ์ฉ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ฑ
- 27๋ฐฐ ์ฒ๋ฆฌ๋ ํฅ์: ๋จ์ผ NVIDIA 4090 GPU์์ ์ธ๊ฐ ํ
๋ ์คํผ๋ ์ดํฐ ๋๋น 27๋ฐฐ ๋น ๋ฅธ ๊ถค์ ์์ฑ ์๋
- VLA ๋ฐ ํ์ฐ ์ ์ฑ
ํธํ์ฑ: ์์ฑ๋ ๋ฐ์ดํฐ๊ฐ vision-language-action ๋ชจ๋ธ ๋ฐ diffusion ๊ธฐ๋ฐ ์ํคํ
์ฒ์ ์ง์ ํธํ ๊ฐ๋ฅ
- ๊ฐ์ฒด ๋ฐ ๊ด์ ๊ฐ์ฒด ์ง์: ๋ถ๋ถ ์์ค ๋ถํด๋ก ํ์ ๊ด์ ๊ฐ์ฒด๊น์ง ์ฒ๋ฆฌ ๊ฐ๋ฅ
How
Figure 1: Real2Render2Real generating robot training data for the task of โPut the Mug on the Coffee Makerโ.
- ์ค๋งํธํฐ ๋ค์ค ์์ ์ดฌ์์ผ๋ก ๊ฐ์ฒด 3D ์ค์บ ํ๋
- ์ธ๊ฐ ์์ฐ ๋น๋์ค์์ 6-DoF ๊ฐ์ฒด ๊ถค์ ์ถ์ถ (pose tracking)
- 3D Gaussian Splatting (3DGS)์ผ๋ก ๊ฐ์ฒด ๊ธฐํํ ๋ฐ ์ธ๊ด ์ฌ๊ตฌ์ฑ
- ๋ฉ์ ๋ณํ์ผ๋ก IsaacLab ํธํ์ฑ ๋ณด์ฅ
- ์ฐจ๋ ์ญ๊ธฐ๊ตฌํ(differential inverse kinematics)์ผ๋ก ๋ก๋ด ๊ถค์ ๊ณ์ฐ
- ์กฐ๋ช
, ์นด๋ฉ๋ผ ํฌ์ฆ, ๊ฐ์ฒด ์ด๊ธฐ ์์น ๋๋คํ๋ก ๋๋ฉ์ธ ๋ค์์ฑ ํ๋ณด
- ๋ณ๋ ฌ ๋ ๋๋ง์ผ๋ก RGB ์ด๋ฏธ์ง ๋ฐ ๊ณ ์ ์ํ(proprioceptive state) ์์ฑ
- ๋ ๋๋ง๋ ๋ฐ์ดํฐ๋ฅผ VLA ๋ฐ ๋ชจ๋ฐฉ ํ์ต ์ ์ฑ
์ ์
๋ ฅ
Originality
- ๋์ญํ ์ ๊ฑฐ ํจ๋ฌ๋ค์: ๊ธฐ์กด ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ์์ฑ์ ๋ฌผ๋ฆฌ ๋ชจ๋ธ๋ง ๋ณต์ก์ฑ์ ์์ ํ ์ฐํํ๋ ์๋ก์ด ์ ๊ทผ
- 3DGS ๊ธฐ๋ฐ ์์ฐ ์์ฑ: ๊ณ ์ถฉ์ค๋ 3D ์ฌ๊ตฌ์ฑ์ผ๋ก ๋ฉ์ ์์ฑ๊น์ง ํตํฉํ๋ end-to-end ํ์ดํ๋ผ์ธ
- ๋จ์ผ ์์ฐ์ ์ผ๋๋ค ๊ถค์ ํฉ์ฑ: ํ๋์ ์ธ๊ฐ ์์ฐ์ผ๋ก๋ถํฐ ์ญ๊ธฐ๊ตฌํ ๋ฐ ๋๋คํ๋ฅผ ํตํด ๋๊ท๋ชจ ๋ค์ํ ๋ฐ์ดํฐ ์์ฑ
- ์ค๋งํธํฐ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์์ง: ์ ๋ฌธ ์ฅ๋น ์์ด ์ ๊ทผ ๊ฐ๋ฅํ ์
๋ ฅ์ผ๋ก ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ฑ ๊ฐ๋ฅ์ฑ ์ ์
Limitation & Further Study
- ์ ์ง ๊ฐ์ฒด ๊ฐ์ : ์ถ์ถ๋ ๊ถค์ ์ด ์ธ๊ฐ ์์ฐ ๊ธฐ์ค์ด๋ฏ๋ก, ๋ก๋ด์ด ์์ธก ๋ถ๊ฐ๋ฅํ ๋์ญํ ์ํธ์์ฉ์ ํด์ผ ํ๋ ์ํฉ์์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- VLA ๋ฐ ๋ชจ๋ฐฉ ํ์ต์ ์ ํ: RL ๊ธฐ๋ฐ ์ ์ฑ
์ด๋ ๋ณต์กํ ํ๊ฒฝ ์ํธ์์ฉ์ ์๊ตฌํ๋ ์์
์ ์ ์ฉ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ์ ํํ 6-DoF ์ถ์ ์์กด์ฑ: ๋น๋์ค ๊ธฐ๋ฐ pose tracking์ ์ค๋ฅ๊ฐ ์์ฑ ๋ฐ์ดํฐ ํ์ง์ ์ง์ ์ํฅ
- ์นด๋ฉ๋ผ-๊ด์ฐฐ ์ ์ฑ
์๋ง ์ ์ฉ: ์ด๊ฐ, ํ ์ ์ด ๋ฑ ๋ค๋ฅธ ์ผ์ ๋ชจ๋ฌ๋ฆฌํฐ ๋์ ๋ฏธ๊ฒํ
- ํ์ ์ฐ๊ตฌ: ๋์ ๊ฐ์ฒด ์ํธ์์ฉ ๋ชจ๋ธ๋ง, ๋ค์ค ์์ ์ถ์ ๊ฐํ, ์ค์๊ฐ pose tracking ์ ํ๋ ๊ฐ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: R2R2R์ ๋์ญํ ์๋ฎฌ๋ ์ด์
๊ณผ ๋ก๋ด ํ๋์จ์ด๋ผ๋ ๋ ๊ฐ์ง ์ฃผ์ ๋ณ๋ชฉ์ ์ ๊ฑฐํ์ฌ ์ค๋งํธํฐ ์
๋ ฅ๋ง์ผ๋ก ๋๊ท๋ชจ ๋ก๋ด ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ํ๊ธฐ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๋จ์ผ ์ธ๊ฐ ์์ฐ์ผ๋ก 150๋ฐฐ ๋ฐ์ดํฐ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค๋ ์ค์ฆ์ ๊ฒฐ๊ณผ์ VLA/๋ชจ๋ฐฉ ํ์ต ํธํ์ฑ์ ๋ก๋ด ํ์ต ํ์ฅ์ ์ค์ง์ ๊ฒฝ๋ก๋ฅผ ์ ์ํ๋ ์ค์ํ ๊ธฐ์ฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์