SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model
์ ์: Delin Qu, Haoming Song, Qizhi Chen, Yuanqi Yao, Xinyi Ye, Yan Ding, Zhigang Wang, JiaYuan Gu, Bin Zhao, Dong Wang, Xuelong Li | ๋ ์ง: 2025-01-27 | URL: https://arxiv.org/abs/2501.15830 📄 PDF
Essence
Fig. 2: Overview of SpatialVLA. Given an image observation ot and a task instruction L, the model processes the image
๋ก๋ด ์กฐ์์ ์ํ 3D ๊ณต๊ฐ ์ดํด๋ฅผ ๊ฐํํ VLA ๋ชจ๋ธ SpatialVLA๋ฅผ ์ ์ํ๋ฉฐ, Ego3D Position Encoding๊ณผ Adaptive Action Grids๋ฅผ ํตํด ์ด์ง์ ์ธ ๋ก๋ด ๊ฐ ์ผ๋ฐํ ๊ฐ๋ฅํ ๊ณต๊ฐ ํํ์ ํ์ตํ๋ค.
Motivation
- Known: ์ต๊ทผ Vision-Language-Action ๋ชจ๋ธ๋ค์ด ๋๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ์
์ผ๋ก ์ฌ์ ํ์ต๋์ด ๋ค์ํ ๋ก๋ด ์กฐ์ ์์
์ ์ํํ ์ ์์ผ๋, ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ 2D ๊ด์ฐฐ์๋ง ์์กดํ๊ณ 3D ๋ฌผ๋ฆฌ ํ๊ฒฝ์ ๋ํ ์ ํํ ๊ณต๊ฐ ์ดํด๊ฐ ๋ถ์กฑํ๋ค.
- Gap: ์ด์ง์ ์ธ ๋ก๋ด embodiment ๊ฐ์ 3D ๊ณต๊ฐ ์ ๋ ฌ์ด ์ด๋ฃจ์ด์ง์ง ์์ผ๋ฉฐ, ์๋ก ๋ค๋ฅธ ๋ก๋ด์ ํ๋ ํน์ฑ(์์ ๋, ์ ์ด๊ธฐ, ์์
๊ณต๊ฐ)์ผ๋ก ์ธํด ์ผ๋ฐํ ๊ฐ๋ฅํ ๊ณต๊ฐ ํ๋ ํํ ํ์ต์ด ์ด๋ ต๋ค.
- Why: ๋ก๋ด ์กฐ์์ ์ฑ๊ณต์ ๋ณธ์ง์ ์ผ๋ก 3D ๊ณต๊ฐ ๊ตฌ์กฐ ์ดํด์ ๋ฌ๋ ค์์ผ๋ฉฐ, ๋ค์ํ ๋ก๋ด ํ๊ฒฝ๊ณผ ์์
์ ๊ฑธ์ณ ๊ฐ๋ ฅํ ๊ณต๊ฐ ์ง๋ฅ์ ๊ฐ์ถ ์ผ๋ฐํ ๋ก๋ด ์ ์ฑ
์ด ํ์ํ๋ค.
- Approach: Ego3D Position Encoding์ผ๋ก 2D ์๊ฐ ํน์ง์ 3D ๊ณต๊ฐ ์ ๋ณด๋ฅผ ์ฃผ์
ํ๊ณ , Adaptive Action Grids๋ก ์ฐ์ ๋ก๋ด ํ๋์ ์ ์์ ์ด์ฐํ๋ ๊ณต๊ฐ ๊ฒฉ์๋ก ํํํ์ฌ ๋ก๋ด ๊ฐ ํ๋ ๊ณต๊ฐ์ ํต์ผํ๋ค.
Achievement
Fig. 1: We present SpatialVLA, a spatial-enhanced vision-language-action model that is trained on 1.1 Million real robot
- ๋๊ท๋ชจ ์ฌ์ ํ์ต: 110๋ง ๊ฐ์ ์ค์ ๋ก๋ด ์ํผ์๋๋ก ์ฌ์ ํ์ต๋์ด ๋ค์ํ ๋ก๋ด ํ๊ฒฝ๊ณผ ์์
์ ๊ฑธ์ณ ์ผ๋ฐํ ๊ฐ๋ฅํ ์กฐ์ ์ ์ฑ
ํ์ต
- ์ฐ์ํ Zero-shot ์ฑ๋ฅ: ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ด ์ง์ ๋ค์ํ ์์
์ zero-shot์ผ๋ก ์ํ ๊ฐ๋ฅํ๋ฉฐ ์ฐ์ํ ๋ณต์ก ๋ก๋ด ๊ถค์ ์ถ๋ก ๋ฅ๋ ฅ ์์ฐ
- ํจ์จ์ ์ธ ์ ์: Adaptive Action Grids์ ์ฌ์ด์ฐํ๋ฅผ ํตํด ์๋ก์ด ๋ก๋ด ํ๊ฒฝ์ ํจ์จ์ ์ผ๋ก ๋ฏธ์ธ์กฐ์ ๊ฐ๋ฅ
- ๋น ๋ฅธ ์ถ๋ก ์๋: ํ ํฐ๋น ๊ณต๊ฐ ํ๋์ผ๋ก ์ธํ ๊ฐ์๋ ํ ํฐ ์๋ก 20 Hz ์ด์์ ๋น ๋ฅธ ์ถ๋ก ์๋ ๋ฌ์ฑ
- ์ฐ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ: ์์ /ํ
์ค์ฒ/์กฐ๋ช
๋ณํ, ๋ณด์ง ๋ชปํ ๊ฐ์ฒด, ๋ณด์ง ๋ชปํ ๋ก๋ด ํ๊ฒฝ, ๊ณต๊ฐ ๋ฐฐ์น ๋ณํ ๋ฑ ๋ค์ํ ์๋๋ฆฌ์ค์์ ๋ฐ์ด๋ in-distribution ์ผ๋ฐํ ๋ฐ out-of-distribution ์ ์ ๋ฅ๋ ฅ
How
Fig. 2: Overview of SpatialVLA. Given an image observation ot and a task instruction L, the model processes the image
- Ego3D Position Encoding: Egocentric ์นด๋ฉ๋ผ ํ๋ ์์์ 3D ์์น ์ธ์ฝ๋ฉ ๋์ถ์ผ๋ก ํน์ ๋ก๋ด-์นด๋ฉ๋ผ ์บ๋ฆฌ๋ธ๋ ์ด์
๋ถํ์ํ๊ณ ๋ค์ํ ๋ก๋ด embodiment์ ๋ณดํธ ์ ์ฉ ๊ฐ๋ฅ
- Adaptive Action Grids: ์ ์ฒด ๋ก๋ด ์ํผ์๋์ ํต๊ณ์ ํ๋ ๋ถํฌ์ ๋ฐ๋ผ ์ฐ์ 7D ํ๋(ฮ T, ฮ R, G)์ 3๊ฐ์ ๊ณต๊ฐ ํ๋ ํ ํฐ์ผ๋ก ์ด์ฐํํ๊ณ ์ด๋ค์ ๋ํด ๊ณต๊ฐ ํ๋ ํ ํฐ ํ์ต
- Post-training ์ ์: ์๋ก์ด ๋ก๋ด ํ๊ฒฝ์ Gaussian ๋ถํฌ๋ก๋ถํฐ ํ๋ ๊ฒฉ์์ ๊ณต๊ฐ ์๋ฒ ๋ฉ์ ์ ์์ ์ผ๋ก ์ฌ์ด์ฐํํ์ฌ ๋ก๋ด ํนํ ๊ณต๊ฐ ํ๋ ํ์ต
- ์๋ํ๊ท ์์ธก: PaliGemma 2 ๊ธฐ๋ฐ vision-language ๋ชจ๋ธ์์ ์๋ํ๊ท ๋ฐฉ์์ผ๋ก ๊ณต๊ฐ ํ๋ ํ ํฐ์ ์์ฐจ์ ์ผ๋ก ์์ธก
- Cross-embodiment ํ์ต: 1.1 Million์ ๋ค์ํ ๋ก๋ด ์ํผ์๋๋ก ๋ค์ค ๋ก๋ด ํ๊ฒฝ๊ณผ ์์
์ ๊ฑธ์ณ ๊ณต๊ฐ ์ ๋ ฌ๋ ํ๋ ํํ ํ์ต
Originality
- ๊ณต๊ฐ ํํ์ ์ฒด๊ณ์ ์ค๊ณ: Ego3D Position Encoding๊ณผ Adaptive Action Grids๋ฅผ ํตํด ๊ด์ฐฐ๊ณผ ํ๋ ์์ธก์์ ํตํฉ๋ 3D ๊ณต๊ฐ ํํ ์ ์๋ก ๊ธฐ์กด VLA ๋ชจ๋ธ์ 2D ํ๊ณ ๊ทน๋ณต
- ๋ก๋ด ๋ฌด๊ด ๊ณต๊ฐ ์ ๋ ฌ: Egocentric ์นด๋ฉ๋ผ ํ๋ ์ ๊ธฐ๋ฐ ์ ๊ทผ์ผ๋ก ๋ก๋ด ํนํ ์บ๋ฆฌ๋ธ๋ ์ด์
์์ด ์ด์ง์ ๋ก๋ด ๊ฐ ๊ด์ฐฐ ๊ณต๊ฐ ์ ๋ ฌ
- ์ ์์ ํ๋ ๊ฒฉ์ ์ฌ์ด์ฐํ: ์ฌ์ ํ์ต๋ ํ๋ ๊ฒฉ์๋ฅผ ์๋ก์ด ๋ก๋ด์ ํ๋ ๋ถํฌ์ ๋ฐ๋ผ ์ฌ์ด์ฐํํ๋ ์ ์ฐํ ์ ์ ๋ฉ์ปค๋์ฆ ์ ์
- ๋๊ท๋ชจ Cross-embodiment ํ๊ฐ: 24๊ฐ์ ์ค์ ๋ก๋ด ์์
๊ณผ 3๊ฐ์ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ํตํ ๊ด๋ฒ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฒ์ฆ
Limitation & Further Study
- ์นด๋ฉ๋ผ ์์กด์ฑ: Ego3D Position Encoding์ด egocentric ์นด๋ฉ๋ผ ํ๋ ์์ ์์กดํ๋ฏ๋ก ์นด๋ฉ๋ผ๊ฐ ์๋ ๋ก๋ด์ด๋ ๋ค์ค ์นด๋ฉ๋ผ ์์คํ
์์์ ์ ์ฉ ๋ช
ํ์ฑ ๋ถ์กฑ
- ์ด์ฐํ ํด์๋ ์ ํ: Adaptive Action Grids์ ์ด์ฐํ ํด์๋๊ฐ ๊ณ ์ ๋์ด ๋งค์ฐ ๋ฏธ์ธํ ์กฐ์์ด ํ์ํ ์์
์์์ ์ฑ๋ฅ ์ ์ฝ ๊ฐ๋ฅ์ฑ
- ๊ณ์ฐ ํจ์จ์ฑ: 110๋ง ๊ฐ ์ํผ์๋ ์ฌ์ ํ์ต์ ํ์ํ ๊ณ์ฐ ๋น์ฉ ์์ธ ์ ๋ณด ๋ถ์ฌ
- ํ์์ฐ๊ตฌ ๋ฐฉํฅ: ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ ์ผ์(ํ ํผ๋๋ฐฑ, ์ด๊ฐ ์ ๋ณด) ํตํฉ, ๋ ๋ณต์กํ bimanual ์กฐ์, ๋์ ํ๊ฒฝ์์์ ์ค์๊ฐ ์ ์, ๊ณต๊ฐ ํํ์ ์ด๋ก ์ ๋ถ์ ์ฌํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ VLA ๋ชจ๋ธ์ ์ฒด๊ณ์ ์ธ 3D ๊ณต๊ฐ ์ดํด๋ฅผ ๋์
ํ๊ณ ์ด์ง์ ๋ก๋ด ๊ฐ ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ์ ์ํ๋ฉฐ, ๊ด๋ฒ์ํ ์คํ์ ํตํด ์ ์ ๋ฐฉ๋ฒ์ ํจ๊ณผ๋ฅผ ์
์ฆํ์ผ๋, ์นด๋ฉ๋ผ ์์กด์ฑ๊ณผ ์ด์ฐํ ํด์๋ ์ ์ฝ ๋ฑ์ ํ๊ณ๊ฐ ์กด์ฌํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์