EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation
๐ง Audio Overview ์์ฑ
์ ์ : Siyuan Huang, Liliang Chen, Pengfei Zhou, Shengcong Chen, Zhengkai Jiang, Yue Hu, Yue Liao, Peng Gao, Hongsheng Li, Maoqing Yao, Guanghui Ren | ๋ ์ง : 2025-01-03 | URL : https://arxiv.org/abs/2501.01895 📄 PDF
Essence
Figure 1: An overview of ENERVERSE. With camera ob-
EnerVerse๋ chunk-wise autoregressive video diffusion๊ณผ sparse memory๋ฅผ ํ์ฉํ์ฌ instruction์ผ๋ก๋ถํฐ embodied future space๋ฅผ ์์ธกํ๊ณ , multi-view video generation๊ณผ 4D Gaussian Splatting ๊ธฐ๋ฐ data flywheel์ ํตํด ๋ก๋ด ์กฐ์์ ์ํ generative foundation model์ ์ ์ํ๋ค.
Motivation
Known : Video generation ๋ชจ๋ธ๋ค์ high-quality spatiotemporal prediction์ด ๊ฐ๋ฅํ๋ฉฐ, ์ต๊ทผ ์ฐ๊ตฌ๋ค์ video generation ๋ชจ๋ธ์ ๋ก๋ด ์กฐ์ ์์ธก์ ์ ์ฉํ๋ ค๋ ์๋๋ฅผ ํ๊ณ ์๋ค.
Gap : ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ผ๋ฐ ๋ชฉ์ ์ video generation ๋ชจ๋ธ์ ๋จ์ํ adaptingํ์ฌ 2D pixel-level ํ์ง์ ์ถ๊ตฌํ์ง๋ง, 3D ๋ก๋ด ํ๊ฒฝ๊ณผ์ substantial gap์ ๋ฌด์ํ๊ณ action-conditioned 3D dynamics๋ฅผ ์ ๋๋ก ์ธ์ฝ๋ฉํ์ง ๋ชปํ๋ค.
Why : ์ ํํ 3D ๋ฏธ๋ ๊ณต๊ฐ ์์ธก๊ณผ action planning์ ๋ก๋ด์ ๋ฌผ๋ฆฌ ์ธ๊ณ ์ํธ์์ฉ ์ฑ๋ฅ์ ๊ฒฐ์ ํ๋ ํต์ฌ์ด๋ฉฐ, sim-to-real gap ํด๊ฒฐ์ ์ค์ ๋ฐฐํฌ์ ํ์ ์กฐ๊ฑด์ด๋ค.
Approach : Multi-view diffusion generator๋ก 3D spatial prior๋ฅผ ํ์ตํ๊ณ , sparse context memory๋ก long-term reasoning์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, 4DGS ๊ธฐ๋ฐ data flywheel๋ก geometry-consistent training data๋ฅผ ํ๋ณดํ์ฌ 4D world representation์ physical action์ผ๋ก ๋ณํํ๋ค.
Achievement
Figure 1: An overview of ENERVERSE. With camera ob-
Chunk-wise Autoregressive Architecture : Sparse memory๋ฅผ ํ์ฉํ์ฌ ์ฝ 80% frame drop์๋ robustํ๊ฒ ์๋ํ๋ฉฐ ์ด๋ก ์ ๋ฌดํ ๊ธธ์ด ์ํ์ค ์์ฑ ๊ฐ๋ฅ
Multi-View Diffusion Generator : Ray direction map๊ณผ temporal attention์ผ๋ก single camera ํ๊ฒฝ์์๋ 3D ์ฌ์ ์ง์์ ํ์ฉํ์ฌ rendered views๋ฅผ ์์ฑ
4DGS-based Data Flywheel : Generative model๊ณผ 4D Gaussian Splatting์ ๊ฒฐํฉํ์ฌ sim-to-real gap์ ๊ฐ์์ํค๋ ์์ฒด ๊ฐํ ๋ฐ์ดํฐ ๋ฃจํ ๊ตฌ์ฑ
State-of-the-Art Performance : Simulation๊ณผ real-world tasks ๋ชจ๋์์ ์ต๊ณ ์ฑ๋ฅ ๋ฌ์ฑ
Computational Efficiency : Single RTX 4090์์ 8-step action chunk๋น ์ฝ 280ms๋ก ์ค์๊ฐ ์ฒ๋ฆฌ ๊ฐ๋ฅ
How
Figure 2: An overview of our chunk-wise autoregressive generation approach and multi-view diffusion
VAE๋ก observed frames๋ฅผ latent space์ ์ธ์ฝ๋ฉํ๊ณ diffusion model์ noise prediction ๋์ v-prediction ์ฌ์ฉ
Chunk ๋จ์๋ก autoregressiveํ๊ฒ ๋ค์ frame๋ค์ ์์ฑํ๋ฉฐ, newly generated frames๊ฐ ๋ค์ iteration์ clean frames๊ฐ ๋จ
Training ์ random sampling์ผ๋ก sparse context๋ฅผ ์ ํํ์ฌ video redundancy ํ์ฉ ๋ฐ OOD robustness ๊ฐํ
Multi-view diffusion generator block์์ ray direction maps์ spatial/temporal attention์ ์กฐํฉํ์ฌ multi-view consistency ํ์ต
4DGS๋ก observation์ 3D reconstructionํ ํ rendered views๋ฅผ ์์ฑํ์ฌ multi-view training data ์๋ ์์ฑ
Policy head (EnerVerse-A)๋ฅผ ํตํด generated video features๋ฅผ directly physical actions๋ก ๋ณํ
EOS detection์ผ๋ก sequence generation ์ข
๋ฃ (๊ฐ frame์ EOS์์ L1 distance ๊ธฐ๋ฐ)
Originality
Chunk-wise autoregressive ๋ฐฉ์์ผ๋ก long-term grounding์ sparse memory๋ก ๊ตฌํํ novel architecture
Ray direction map ํ์ฉ์ผ๋ก single camera์์ multi-view consistency prior ํ์ต
4D Gaussian Splatting๊ณผ generative model์ ๊ฒฐํฉ์ ํตํ self-reinforcing data flywheel ๊ตฌ์
Video diffusion์ 3D action-conditioned dynamics๋ก explicitly alignํ๋ ๊ด์ ์ ์ฌ์ ์
Limitation & Further Study
Multi-view pre-training์ ์ํ ์ ํํ calibrated multi-camera ๋ฐ์ดํฐ ์์ง์ ๋
ธ๋ ์ง์ฝ์ฑ
Threshold ๊ธฐ๋ฐ EOS detection์ robustness๊ฐ ์ค์ ํ๊ฒฝ ๋ณํ์ ์ผ๋ง๋ ๊ฐ์ธํ์ง ์์ธ ๋ถ์ ๋ถ์กฑ
Single camera deployment ์ rendered views์ ํ์ง์ด ์ค์ multi-camera ๋ฐ์ดํฐ๋ณด๋ค ์ผ๋ง๋ ์ด๋ฑํ์ง ์ ๋์ ํ๊ฐ ํ์
๋ค์ํ ๋ก๋ด ํ๋ซํผ ๋ฐ task ์ข
๋ฅ์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ ๊ฒ์ฆ ํ์
๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ ๋ฐ ๋ค์ํ ์๊ฐ ๊ธธ์ด์ task์ ๋ํ scaling ํน์ฑ ๋ฏธ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : EnerVerse๋ video diffusion์ ๋ก๋ด ์กฐ์์ ์ฒด๊ณ์ ์ผ๋ก alignํ๋ฉด์ 3D spatial prior ํ์ต๊ณผ data flywheel์ ํตํด sim-to-real gap์ ํด๊ฒฐํ๋ ํฌ๊ด์ ์ธ framework๋ฅผ ์ ์ํ๋ฉฐ, chunk-wise autoregressive์ sparse memory ์ค๊ณ๋ ๋
์ฐฝ์ ์ด๊ณ ์ค์ฉ์ ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com