Re$^3$Sim: Generating High-Fidelity Simulation Data via 3D-Photorealistic Real-to-Sim for Robotic Manipulation
์ ์: Xiaoshen Han, Minghuan Liu, Yilun Chen, Junqiu Yu, Xiaoyang Lyu, Yang Tian, Bolun Wang, Weinan Zhang, Jiangmiao Pang | ๋ ์ง: 2025-02-12 | URL: https://arxiv.org/abs/2502.08645 📄 PDF
Essence
Figure 1: Illustration of RE3SIM. a) RE3SIM allows zero-shot policy transfer on various tasks. b) The system pipeline to
RE3SIM์ 3D ์ฌ๊ตฌ์ฑ๊ณผ ์ ๊ฒฝ ๋ ๋๋ง ๊ธฐ์ ์ ํ์ฉํ์ฌ ์ค์ ํ๊ฒฝ์ ๊ณ ์ถฉ์ค๋๋ก ๋ณต์ ํ ํ, ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ดํฐ ๋ด์์ ๋ก๋ด ์กฐ์ ์ ์ฑ
์ ํ์ตํ๋ real-to-sim-to-real ํ์ดํ๋ผ์ธ์ด๋ค. ์์ ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ๋ง์ผ๋ก ํ๊ท 58% ์ด์์ ์ฑ๊ณต๋ฅ ๋ก zero-shot sim-to-real ์ ์ด๋ฅผ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ๋ก๋ด ํ์ต์ ์ํ ์ค์ ๋ฐ์ดํฐ ์์ง์ ๋น์ฉ์ด ๋ง์ด ๋ค๊ณ , ์๋ฎฌ๋ ์ด์
์ ํ์ฅ์ฑ์ด ์์ง๋ง ๊ธฐํํ์ ๋ฐ ์๊ฐ์ sim-to-real ๊ฐญ์ผ๋ก ์ธํด ์ผ๋ฐํ์ ์คํจํ๋ค.
- Gap: ๊ธฐ์กด ์๋ฎฌ๋ ์ด์
์ CAD ๋ชจ๋ธ์ ๊ธฐํํ์ ๋ถ์ ํ์ฑ๊ณผ ์ ํ์ง ๋ ๋๋ง์ผ๋ก ์ธํด ์ค์ธ๊ณ์์ ํฐ ๊ฐญ์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ๋ฐฐ๊ฒฝ ์ฌ๊ตฌ์ฑ์ ํ์ง ์ ํ ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ์ง ๋ชปํ๋ค.
- Why: ๋ก๋ด ์ ์ฑ
ํ์ต์ ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ ํ๊ธฐ์ ์ผ๋ก ์ค์ผ ์ ์์ผ๋ฉฐ, ๊ณ ์ถฉ์ค๋ ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ ์์ฑ์ ํตํด ํ์ฅ ๊ฐ๋ฅํ ๋ก๋ด ํ์ต ์ฒด๊ณ๋ฅผ ๊ตฌ์ถํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
- Approach: multi-view stereo(MVS)๋ฅผ ์ฌ์ฉํ ๋ฉ์ ์ฌ๊ตฌ์ฑ๊ณผ 3D Gaussian splatting(3DGS)์ ํตํ ๋ฐฐ๊ฒฝ ๋ ๋๋ง, ๊ทธ๋ฆฌ๊ณ ๋ฉ์ ๊ธฐ๋ฐ ๊ฐ์ฒด ๋ ๋๋ง์ ๊ฒฐํฉํ์ฌ ํ์ด๋ธ๋ฆฌ๋ ์๊ฐ ๋ ๋๋ง์ ๊ตฌํํ๋ค. ArUco ๋ง์ปค๋ฅผ ์ฌ์ฉํ์ฌ ์ค์ธ๊ณ ์ขํ์ ์๋ฎฌ๋ ์ด์
๊ณต๊ฐ์ ์ ๋ ฌํ๊ณ , ํน๊ถ ์ ๋ณด(privileged information)๋ฅผ ํ์ฉํ์ฌ ์๋ฎฌ๋ ์ด์
์์ ์ ๋ฌธ๊ฐ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์์งํ๋ค.
Achievement
Figure 3: Visual comparison between real and simulation. Rendering results from our hybrid rendering method compared
- ๊ณ ์ถฉ์ค๋ ์ฌ๊ตฌ์ฑ ๋ฐ ์๊ฐํ: MVS ๊ธฐ๋ฐ ๋ฉ์ ์ฌ๊ตฌ์ฑ๊ณผ 3DGS ๋ ๋๋ง์ผ๋ก ๊ธฐํํ์ ๋ฐ ์๊ฐ์ sim-to-real ๊ฐญ์ ํฌ๊ฒ ๊ฐ์
- ๋น ๋ฅธ ์ฅ๋ฉด ์ฌ๊ตฌ์ฑ: 3๋ถ ์ด๋ด์ ์๋ ์ค์ ์ผ๋ก ์๋ก์ด ์ฅ๋ฉด ์ฌ๊ตฌ์ฑ ๊ฐ๋ฅ
- ํจ์จ์ ๋ ๋๋ง: 480p ํด์๋์์ 2๊ฐ ๋
๋ฆฝ ์นด๋ฉ๋ผ ๋ทฐ์ ๋ํด 24 FPS ๋ ๋๋ง ์ฑ๋ฅ
- Zero-shot sim-to-real ์ ์ด: ์ฝ 10๋ถ์ ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ ์์ง์ผ๋ก ํ๊ท 58% ์ด์์ ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ๋๊ท๋ชจ ํ์ฅ์ฑ: ๋๊ท๋ชจ ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ์
์์ฑ์ผ๋ก ๋ค์ํ ๊ฐ์ฒด์ ์ผ๋ฐํ๋๋ ๊ฐ๊ฑดํ ์ ์ฑ
๊ตฌ์ถ
How
Figure 2: Illustration of the proposed real-to-sim-to-real system, RE3SIM. It leverages 3D reconstruction and a physics-
- ๋ฉ์ ์ฌ๋ณต๊ตฌ: ๊ตฌ์กฐ-๋์(structure-from-motion) ์ ๊ทผ ๋ฐฉ์(COLMAP)์ ์ฌ์ฉํ์ฌ ์นด๋ฉ๋ผ ์์ธ ๋ฐ ํฌ์ ํฌ์ธํธ ํด๋ผ์ฐ๋ ์ถ์
- MVS ๊ธฐ๋ฐ ์ฌ๊ตฌ์ฑ: ๋ค์ค ์์ ์
์ฒด ๊ธฐ์ ์ผ๋ก ๋ฐฐ๊ฒฝ ๋ฉ์ ์ฌ๊ตฌ์ฑ
- 3D Gaussian Splatting: ๊ฐ Gaussian์ ํ์ R๊ณผ ์ค์ผ์ผ๋ง S๋ก๋ถํฐ ๊ณต๋ถ์ฐ ํ๋ ฌ ฮฃ = RSS^T R^T ๊ณ์ฐํ์ฌ ๊ณ ์ถฉ์ค๋ ๋ฐฐ๊ฒฝ ๋ ๋๋ง
- ํ์ด๋ธ๋ฆฌ๋ ๋ ๋๋ง: ๋ฐฐ๊ฒฝ์ 3DGS๋ก, ๊ฐ์ฒด๋ ๋ฉ์ ๊ธฐ๋ฐ ํ
์ค์ฒ ๋งคํ์ผ๋ก ๋ ๋๋ง
- ์ค์ธ๊ณ ์ ๋ ฌ: ArUco ๋ง์ปค๋ฅผ ํตํด ์ค์ ํ๊ฒฝ๊ณผ ์๋ฎฌ๋ ์ด์
๊ณต๊ฐ์ ์ขํ ๋๊ธฐํ
- ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
: Isaac Sim, PyBullet, Mujoco ๋ฑ ๋ฌผ๋ฆฌ ์์ง์ ์ฌ์ฉํ ๋์ ์๋ฎฌ๋ ์ด์
- ์ ์ฑ
ํ์ต: ํน๊ถ ์ ๋ณด๋ฅผ ํ์ฉํ ์๋ฎฌ๋ ์ด์
๋ด ์ ๋ฌธ๊ฐ ์์ฐ์ผ๋ก ๋ชจ๋ฐฉ ํ์ต(imitation learning) ์ํ
Originality
- ํ์ด๋ธ๋ฆฌ๋ ๋ ๋๋ง ์ ๋ต: ๋ฐฐ๊ฒฝ์๋ 3DGS, ๊ฐ์ฒด์๋ ๋ฉ์ ๊ธฐ๋ฐ ๋ ๋๋ง์ ๋ถ๋ฆฌํ์ฌ ์ ์ฉํ์ฌ ๋ฐฐ๊ฒฝ ์ฌ๊ตฌ์ฑ ํ์ง ๋ฌธ์ ํด๊ฒฐ
- ์ต์ ์ธ๊ฐ ๊ฐ์
: ArUco ๋ง์ปค ๋ฐฐ์น์ ์ฌ์ง/๋น๋์ค ์ดฌ์๋ง์ผ๋ก scene reconstruction ์๋ํ
- ์ค์๊ฐ ๊ณ ์ถฉ์ค๋ ๋ ๋๋ง: 24 FPS์ ๋์ ๋ ๋๋ง ์ฑ๋ฅ์ผ๋ก ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ฑ ๊ฐ๋ฅ
- End-to-end real-to-sim-to-real ํ์ดํ๋ผ์ธ: ๋จ๊ณ์ ํ๋ก์ธ์ค๋ก ๋ช
ํํ๊ณ ์ฌํ ๊ฐ๋ฅํ ์์คํ
์ค๊ณ
Limitation & Further Study
- ๊ฒฝ์ง๋ ๋ฌผ์ฒด ํ์คํฌ ์ ํ: ๋ณํ ๊ฐ๋ฅํ ๊ฐ์ฒด(deformable objects)๋ ์ ์ฒด์ ๋ํ ๊ฒ์ฆ ๋ถ์กฑ
- ํ์ ์กฐ์ ํ๊ฒฝ ์ ์ฝ: ํ
์ด๋ธํ ๋ก๋ด ํ์ ๋ํด์๋ง ๊ฒ์ฆ๋์์ผ๋ฉฐ, ์ด๋ํ ๋ก๋ด(mobile manipulator) ๋ฑ์ผ๋ก์ ํ์ฅ ๋ฏธ๊ฒํ
- ๋ฐฐ๊ฒฝ ์ฌ๊ตฌ์ฑ ์ ํ๋: MVS ๋ฐฉ์์ ๋ฐฐ๊ฒฝ ๋ฉ์ ์ฌ๊ตฌ์ฑ์ด ๋ณต์กํ ๊ธฐํํ์ ๊ตฌ์กฐ์์ ๋ถ์์ ํ ์ ์์
- ๊ฐ์ฒด ์ธ๋ถํ ์๊ตฌ: ํ์ฌ ์์คํ
์์ ์ ๊ฒฝ ๊ฐ์ฒด ๋ถํ ์ด ํ์ํ๋ฉฐ ์ด ๊ณผ์ ์์ ์ผ๋ถ ์ธ๊ฐ ๊ฐ์
ํ์
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ณํ ๊ฐ๋ฅ ๊ฐ์ฒด ๋ฐ ์
์ ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ด์
ํ์ฅ, (2) ๋ชจ๋ฐ์ผ ๋งค๋ํฐ๋ ์ดํฐ ํ๋ซํผ ์ ์ฉ, (3) ์๋ ๊ฐ์ฒด ์ธ๋ถํ ๊ธฐ์ ๊ฐ๋ฐ, (4) ๋ ๋ณต์กํ ๋์ญํ(์ ์ด, ๋ง์ฐฐ ๋ฑ) ๋ชจ๋ธ๋ง
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: RE3SIM์ 3D ์ฌ๊ตฌ์ฑ๊ณผ ์ ๊ฒฝ ๋ ๋๋ง์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ sim-to-real ๊ฐญ์ ํฌ๊ฒ ์ค์ด๋ ์ค์ฉ์ ์ธ ์์คํ
์ผ๋ก, ์ต์ํ์ ์ธ๊ฐ ๊ฐ์
์ผ๋ก ๋๊ท๋ชจ ๊ณ ํ์ง ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ๋ฅผ ์์ฑํ ์ ์๋ ์ ์์ ๋ก๋ด ํ์ต ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์