GaussGym: An open-source real-to-sim framework for learning locomotion from pixels
์ ์: Alejandro Escontrela, Justin Kerr, Arthur Allshire, Jonas Frey, Rocky Duan, Carmelo Sferrazza, Pieter Abbeel | ๋ ์ง: 2025-10-17 | URL: https://arxiv.org/abs/2510.15352 📄 PDF
Essence
Figure 1: GaussGym constructs photorealistic worlds from various data sources and renders them
3D Gaussian Splatting์ IsaacGym ๊ฐ์ ๋ฒกํฐํ๋ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์ ํตํฉํ์ฌ ์ด๋น 100,000์คํ
์ด์์ ๊ณ ์ ์๋ฎฌ๋ ์ด์
๊ณผ ๋์ ์๊ฐ์ ์ถฉ์ค๋๋ฅผ ๋์์ ๋ฌ์ฑํ๋ ํฌํ ๋ฆฌ์ผ๋ฆฌ์คํฑ ๋ก๋ด ์๋ฎฌ๋ ์ด์
ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Motivation
- Known: ๊ธฐ์กด ์๋ฎฌ๋ ์ดํฐ๋ค์ ๋์ ๋ฌผ๋ฆฌ ์ ํ๋๋ฅผ ์ ๊ณตํ์ง๋ง RGB ๊ธฐ๋ฐ ํ์ต์ ์ํ ์ถฉ๋ถํ ์๊ฐ์ ์ถฉ์ค๋๋ ์ฒ๋ฆฌ์๋๋ฅผ ์ ๊ณตํ์ง ๋ชปํ๋ฉฐ, ๋๋ถ๋ถ์ ์ค์ ๋ฐฐํฌ ์ ์ฑ
์ ๊น์ด ๋งต์ด๋ LiDAR ๊ฐ์ ๊ธฐํํ์ ์
๋ ฅ์ ์์กดํ๋ค.
- Gap: ๋์ ์ฒ๋ฆฌ๋๊ณผ ๋์ ์๊ฐ์ ์ถฉ์ค๋๋ฅผ ๋์์ ์ ๊ณตํ๋ฉด์๋ ๋ค์ํ ๋ฐ์ดํฐ ์์ค๋ฅผ ์ฝ๊ฒ ํตํฉํ ์ ์๋ ํฌํ ๋ฆฌ์ผ๋ฆฌ์คํฑ ์๋ฎฌ๋ ์ด์
ํ๋ ์์ํฌ๊ฐ ๋ถ์กฑํ๋ฉฐ, RGB ํฝ์
๋ก๋ถํฐ ์ง์ ํ์ตํ๋ ์๊ฐ-์๋ฎฌ-ํ์ค ๊ฐ์ ๊ฐญ์ด ๋ช
ํํ์ง ์๋ค.
- Why: ๋ก๋ด์ด ์ค์ ํ๊ฒฝ์์ ํก๋จ๋ณด๋, ๋ฌผ์
๋ฉ์ด ๊ฐ์ ์๋ฏธ๋ก ์ ์๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํ ์ ์์ด์ผ ํ๋ฉฐ, ์ด๋ฅผ ์ํด์๋ ๊ณ ์์ ํฌํ ๋ฆฌ์ผ๋ฆฌ์คํฑ ํ์ต ํ๊ฒฝ์ด ํ์์ ์ด๋ค.
- Approach: 3D Gaussian Splatting์ ๋ ๋๋ฌ๋ก ์ฌ์ฉํ์ฌ IsaacGym ๋ด์ ํตํฉํ๊ณ , iPhone ์ค์บ, ๋๊ท๋ชจ ์ฅ๋ฉด ๋ฐ์ดํฐ์
(GrandTour, ARKit), ์์ฑ ๋น๋์ค ๋ชจ๋ธ(Veo) ์ถ๋ ฅ ๋ฑ ๋ค์ํ ์์ค์ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ์ฌ ํ์ค์ ์ธ ํ์ต ํ๊ฒฝ์ ๊ตฌ์ถํ๋ค.
Achievement
Figure 3: Velocity-tracking policies trained directly from pixels in GaussGym: Photorealistic envi-
- ๊ณ ์ ์๋ฎฌ๋ ์ด์
: RTX 4090 GPU์์ 640ร480 ํด์๋๋ก 4,096๊ฐ ๋ณ๋ ฌ ํ๊ฒฝ์ ๋ํด ์ด๋น 100,000์คํ
์ด์์ ์ฒ๋ฆฌ ์๋ ๋ฌ์ฑ
- ํฌํ ๋ฆฌ์ผ๋ฆฌ์คํฑ ํ๊ฒฝ: 2,500๊ฐ์ ์ฅ๋ฉด์ ํฌํจํ๊ณ ๋ค์ํ ๋ฐ์ดํฐ ์์ค ์ง์์ผ๋ก ์ฌ์ค์ ์ธ ํ๋ จ ์ธ๊ณ ์์ฑ
- ์๋ฏธ๋ก ์ ํ์ต: RGB ์ ์ฑ
์ด ๊น์ด ์ ์ฉ ์ ์ฑ
์ด ๊ฐ์งํ์ง ๋ชปํ๋ ์ํ์ง ์๋ ์์ญ์ ํํผํ๋๋ก ํ์ตํ์ฌ ์๋ฏธ๋ก ์ ์ถ๋ก ๋ฅ๋ ฅ ์ฆ๋ช
- ์๋ฎฌ-ํ์ค ์ ์ด: ๊ณ๋จ ์ค๋ฅด๊ธฐ ์์
์์ GaussGym์์ ํ๋ จํ ์๊ฐ์ ์ด๋ ์ ์ฑ
์ ์ด๊ธฐ ์ ๋ก์ท ์ ์ด ์ฑ๊ณต
- ์คํ์์ค ๊ณต๊ฐ: ์ ์ฒด ์ฝ๋์ ๋ฐ์ดํฐ ๊ณต๊ฐ๋ก ์ปค๋ฎค๋ํฐ ์ ๊ทผ์ฑ ํ๋
How
Figure 2: Data collection overview: GaussGym ingests data from various data sources and processes
- 3D Gaussian Splatting์ ๋ฒกํฐํ๋ ๋ฌผ๋ฆฌ ์์ง์ ๋๋กญ์ธ ๋ ๋๋ฌ๋ก ํตํฉ
- VGGT๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ ๋ฐ์ดํฐ ์์ค์์ ์ธ๋ถ ํ๋ผ๋ฏธํฐ(extrinsics), ๋ด๋ถ ํ๋ผ๋ฏธํฐ(intrinsics), ๋ฒ์ ์ด ์๋ ํฌ์ธํธ ํด๋ผ์ฐ๋ ์ถ์ถ
- ์ถ์ถ๋ ํฌ์ธํธ ํด๋ผ์ฐ๋์์ ์ถฉ๋ ๋ฉ์๋ฅผ ์ถ์ ํ๊ณ 3DGS ํ๋ จ์ ์ฌ์ฉ
- RGB ์
๋ ฅ์ผ๋ก๋ถํฐ ์ ์ฑ
์ ํ์ตํ ๋ ๊ธฐํํ์ ์ฌ๊ตฌ์ฑ์ ๋ณด์กฐ ์์ค ํจ์๋ก ์ถ๊ฐํ์ฌ ํ์ต ์๋ ๋ฐ ์ฑ๋ฅ ๊ฐ์
- iPhone ์ค์บ, SLAM ์บก์ฒ, ๊ธฐ์กด 3D ๋ฐ์ดํฐ์
, ํธ๋ํฌ๋ ๋น๋์ค, ์์ฑ ๋น๋์ค ๋ชจ๋ธ ์ถ๋ ฅ ๋ฑ ๋ค์ํ ์
๋ ฅ ํ์ ์ง์
Originality
- 3D Gaussian Splatting์ GPU ๊ฐ์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์ ์ฒ์์ผ๋ก ํตํฉํ์ฌ ๊ณ ์์ฑ๊ณผ ์๊ฐ์ ์ถฉ์ค๋์ ํธ๋ ์ด๋์คํ ํด๊ฒฐ
- Veo ๊ฐ์ ์์ฑ ๋น๋์ค ๋ชจ๋ธ์ ์ถ๋ ฅ์ ๋ก๋ด ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ผ๋ก ์ง์ ๋ณํํ๋ ํ์ดํ๋ผ์ธ ์ ์
- ๊ธฐํํ์ ์ฌ๊ตฌ์ฑ ๋ณด์กฐ ์์ค์ ํตํด RGB ๊ธฐ๋ฐ ์ ์ฑ
ํ์ต์ ์ด๋ ค์์ ํด๊ฒฐํ๋ ์ค์ฉ์ ์ธ ๋ฐฉ๋ฒ ์ ์
- ํฌํ ๋ฆฌ์ผ๋ฆฌ์คํฑ ๋ ๋๋ง๊ณผ ๋์ ์ฒ๋ฆฌ๋์ ๋์์ ๋ฌ์ฑํ๋ ๊ตฌ์กฐ์ ํ์
Limitation & Further Study
- RGB๋ก๋ถํฐ ์ง์ ํ์ต์ด ์ฌ์ ํ ๋์ ์ ์ด๋ฉฐ, ๊ธฐํํ์ ๋ณด์กฐ ์์ค์ด ํ์์ ์ธ ์ ์ ์์ RGB ์ ์ฑ
ํ์ต์ ํ๊ณ๋ฅผ ์์ฌ
- ์๋ฎฌ-ํ์ค ์ ์ด๋ ๊ณ๋จ ์ค๋ฅด๊ธฐ ํ ๊ฐ์ง ์์
์์๋ง ์์ฐ๋์ด ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ถ๊ฐ ๊ฒ์ฆ ํ์
- 3D Gaussian Splatting์ ๋์ ๊ฐ์ฒด๋ ๋ณํ ๊ฐ๋ฅํ ํ๊ฒฝ์ ๋ํ ํ์ฅ์ฑ์ด ๋ช
ํํ์ง ์์
- ํ์์ฐ๊ตฌ: ๋ ๋ณต์กํ ํ์ค ํ๊ฒฝ์์์ ์๋ฎฌ-ํ์ค ์ ์ด ๊ฒ์ฆ, ๋์ ์ฅ๋ฉด ์ง์ ์ถ๊ฐ, ์๋-ํฌ-์๋ RGB ์ ์ฑ
ํ์ต ๊ฐ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ 3D Gaussian Splatting์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์ ํตํฉํ์ฌ ๊ณ ์์ฑ๊ณผ ์๊ฐ์ ์ถฉ์ค๋๋ฅผ ๋์์ ๋ฌ์ฑํ ํ๊ธฐ์ ์ธ ์์
์ผ๋ก, ํฌํ ๋ฆฌ์ผ๋ฆฌ์คํฑ ๋ก๋ด ํ์ต์ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด์๋ค. ์คํ์์ค ๊ณต๊ฐ์ ๊ด๋ฒ์ํ ๋ฐ์ดํฐ ์ง์์ผ๋ก ํฅํ ์ฐ๊ตฌ์ ๊ธฐ๋ฐ์ด ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์