OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation
์ ์: Heyu Guo, Shanmu Wang, Ruichun Ma, Shiqi Jiang, Yasaman Ghasempour, Omid Abari, Baining Guo, Lili Qiu | ๋ ์ง: 2025-11-03 | URL: https://arxiv.org/abs/2511.01210 📄 PDF
Essence
Fig. 2: System Overview. OmniVLA processes diverse sensor data into image-like 2D spatial representations, and then
OmniVLA๋ RGB, ์ ์ธ์ , mmWave ๋ ์ด๋, ์ํฅ ๋ง์ดํฌ๋กํฐ ๋ฑ ๋ค์ค ์ผ์๋ฅผ ํตํฉํ๋ ์ต์ด์ VLA ๋ชจ๋ธ๋ก, ์ผ์-๋ง์คํฌ๋ ์ด๋ฏธ์ง๋ผ๋ ํต์ผ๋ ํํ์ ํตํด ๋ฌผ๋ฆฌ์ ์ ๋ณด๊ฐ ํฌํจ๋ ๋ก๋ด ์กฐ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Motivation
- Known: VLA ๋ชจ๋ธ์ ๋๊ท๋ชจ ๋น์ -์ธ์ด ์ฌ์ ํ์ต์ ํตํด ๋ก๋ด ์กฐ์์์ ์ฐ์ํ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ๋๋ถ๋ถ RGB ์นด๋ฉ๋ผ์๋ง ์์กดํ๋ค. ๊น์ด, ์ด๊ฐ ๋ฑ ์ถ๊ฐ ์ผ์ ํตํฉ ์ฐ๊ตฌ๋ ์กด์ฌํ์ง๋ง ๋ณต์กํ ์ํคํ
์ฒ์ ๋์ ๋ฐ์ดํฐ ์๊ตฌ๋์ด ๋ฌธ์ ๋ค.
- Gap: ๊ธฐ์กด VLA ๋ชจ๋ธ์ RGB ์ด์ธ์ ์ผ์ ๋ชจ๋ฌ๋ฆฌํฐ(์ด์, ๋ ์ด๋, ์ํฅ)์์ ํจ๊ณผ์ ํตํฉ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ฉฐ, ์ผ์๋ง๋ค ๋ค๋ฅธ ํ์๊ณผ ํด์๋๋ฅผ ์ฒ๋ฆฌํ๋ ํ์ฅ ๊ฐ๋ฅํ ํํ์ด ์๋ค.
- Why: ๋ก๋ด์ด ์ธ๊ฐ์ฒ๋ผ ๋ค์ํ ์ผ์ ์ ๋ณด๋ฅผ ํ์ฉํ๋ฉด ํ์๋ ๋ฐ์ค ์ ๋ฌผ์ฒด ํ์ง, ์ท ์๋ ๋ฒจ์๋ฆฌ, ์จ๋ ๊ธฐ๋ฐ ์์
๋ฑ RGB๋ง์ผ๋ก๋ ๋ถ๊ฐ๋ฅํ ๋ณต์กํ ์กฐ์ ์์
์ ์ํํ ์ ์๋ค.
- Approach: RGB ์ด๋ฏธ์ง์ ๋ค์ํ ์ผ์ ์ ๋ณด๋ฅผ ๊ณต๊ฐ์ ์ผ๋ก ์ ๋ ฌ๋ ๋ง์คํฌ ํํ๋ก ์ค๋ฒ๋ ์ดํ๋ ์ผ์-๋ง์คํฌ๋ ์ด๋ฏธ์ง ํํ์ ์ ์ํ๊ณ , ์ฌ์ ํ์ต๋ VLA ๋ฐฑ๋ณธ์ ํ์ฅํ์ฌ ๊ฒฝ๋์ ์ผ์๋ณ projection ๋ ์ด์ด๋ฅผ ์ถ๊ฐํ๋ค.
Achievement
Fig. 5: Examples of Robotic Manipulation Task Completion
- ๋ค์ค ์ผ์ VLA์ ์ต์ด ๊ตฌํ: RGB, ์ ์ธ์ , mmWave ๋ ์ด๋, ์ํฅ ๋ง์ดํฌ๋กํฐ์ ํตํฉํ๋ ์ฒซ VLA ๋ชจ๋ธ ๊ฐ๋ฐ
- ์ฐ์ํ ์ฑ๋ฅ: RGB ์ ์ฉ ๊ธฐ์ค ๋๋น 59% ํฅ์, ์๋ณธ ์ผ์ ์
๋ ฅ ๊ธฐ์ค ๋๋น 28% ํฅ์ํ์ฌ ํ๊ท 84% ์์
์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ๋ฐ์ดํฐ ํจ์จ์ฑ: ์๋ณธ ์ผ์ ๊ธฐ๋ฐ ๋ชจ๋ธ ๋๋น 50% ๋ฐ์ดํฐ๋ก ์ ์ฌํ ์ฑ๋ฅ ๋ฌ์ฑ
- ๊ฐํ ์ผ๋ฐํ ๋ฅ๋ ฅ: ์ธ ๊ฐ์ง ๋ฏธํ์ต ์์
์์ RGB ์ ์ฉ ๋ฐ ์๋ณธ ์ผ์ ๋ชจ๋ธ์ ๊ฐ๊ฐ 59%, 28% ์ํ
How
Fig. 2: System Overview. OmniVLA processes diverse sensor data into image-like 2D spatial representations, and then
- mmWave ๋ ์ด๋์ ์ํฅ ๋ฐฐ์ด ๋ฐ์ดํฐ๋ฅผ beamforming ์ฒ๋ฆฌํ์ฌ 2D ํํธ๋งต ํํ์ ์ผ์ ์ด๋ฏธ์ง๋ก ๋ณํ
- VLM๊ณผ Grounded SAM์ ์ด์ฉํ ์๋ฏธ ๊ธฐ๋ฐ ๋ถํ ๋ก ๊ด์ฌ ๊ฐ์ฒด์ ๋ง์คํฌ ์์ฑ
- ์์ฑ๋ ๋ง์คํฌ ์์ญ์ ์ผ์ ์ ๋ณด๋ฅผ ์ปฌ๋ฌ๋ก ์ค๋ฒ๋ ์ดํ์ฌ ์ผ์-๋ง์คํฌ๋ ์ด๋ฏธ์ง ์์ฑ
- ๋๊ฒฐ๋ vision encoder๋ฅผ ํต๊ณผ ํ ์ผ์๋ณ ๊ฒฝ๋ MLP projection ๋ ์ด์ด๋ฅผ ์ ์ฉํ์ฌ ํ ํฐ ์ ๋ ฌ
- LLM ๋ฐฑ๋ณธ๊ณผ diffusion ๊ธฐ๋ฐ action expert๋ก ์ต์ข
๋ก๋ด ๋์ ์์ฑ
- ๋ค์ค ์ผ์ ๋ก๋ด ์ ํ๋ซํผ์์ RGB ์นด๋ฉ๋ผ ๋ฐ ์ผ์ ๋ฐ์ดํฐ์ ์กฐ์ ์์ฐ์ ์์งํ์ฌ ํ์ต
Originality
- ์ผ์-๋ง์คํฌ๋ ์ด๋ฏธ์ง๋ผ๋ ์ ๊ท ์ค๊ฐ ํํ์ผ๋ก ์ด์ง์ ์ผ์๋ฅผ RGB ๊ณต๊ฐ์ ํต์ผ์ ์ผ๋ก ํตํฉํ๋ ์ฐฝ์์ ์ ๊ทผ
- ์ฌ์ ํ์ต๋ vision encoder๋ฅผ ์ฌ์ฌ์ฉํ๋ฉด์๋ ๋ค์ํ ์ผ์ ํ๋์จ์ด์ ๋์ ๊ฐ๋ฅํ ํ์ฅ ๊ฐ๋ฅ ์ค๊ณ
- ์ด์, mmWave, ์ํฅ ๋ฑ ๊ธฐ์กด VLA์์ ๋ฏธํ์ํ ์ผ์ ๋ชจ๋ฌ๋ฆฌํฐ์ ๋ก๋ด ์กฐ์ ์ ์ฉ
- ๋จ์ํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ๊ฒฝ๋ projection ๋ ์ด์ด ๊ธฐ๋ฐ ์ํคํ
์ฒ๋ก ๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ํธํ์ฑ ๋์ ๋ฌ์ฑ
Limitation & Further Study
- ํ๊ฐ๊ฐ ํน์ ์ธ ์ ํ์ ์์
(์ด์ ๊ธฐ๋ฐ, mmWave ๊ธฐ๋ฐ, ์ํฅ ๊ธฐ๋ฐ)์ ์ ํ๋์ด ๋ค์ํ ์ค๋ฌด ์๋๋ฆฌ์ค์์์ ์ฑ๋ฅ ๊ฒ์ฆ ํ์
- ์ผ์ ๋ง์คํฌ ์์ฑ ๊ณผ์ ์์ VLM๊ณผ SAM2์ ์์กดํ๋ฏ๋ก ์ด๋ค ๋ชจ๋ธ์ ์ค๋ฅ๊ฐ ์ ํ๋ ์ ์์
- ์์ง๋ ๋ฐ์ดํฐ์
์ ๊ท๋ชจ์ ๋ค์์ฑ์ด ๋ช
ํํ ์ ์๋์ง ์์ ์ฌํ ๊ฐ๋ฅ์ฑ๊ณผ ์ผ๋ฐํ ๋ฒ์ ํ๊ฐ ์ด๋ ค์
- ์ผ์ ์บ๋ฆฌ๋ธ๋ ์ด์
, ๋ถ์ ๋ ฌ, ํ๋์จ์ด ๋ณํ์ ๋ํ ๊ฒฌ๊ณ ์ฑ ๋ถ์ ๋ฏธํก
- ํ์ ์ฐ๊ตฌ๋ ๋ ๋ง์ ์ผ์ ๋ชจ๋ฌ๋ฆฌํฐ(์ด์ํ, ์ ์ด ์ผ์ ๋ฑ) ํตํฉ, ์ค์๊ฐ ์ฑ๋ฅ ์ต์ ํ, ์๋ฎฌ๋ ์ด์
-ํ์ค ์ด์ ์ ๋ต ๊ฐ๋ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: OmniVLA๋ ๋ค์ค ์ผ์๋ฅผ VLA์ ํตํฉํ๋ ๋ฌธ์ ์ ๋ํด ์ฐ์ํ๊ณ ์ค์ฉ์ ์ธ ์๋ฃจ์
์ ์ ์ํ๋ฉฐ, ์ผ์-๋ง์คํฌ๋ ์ด๋ฏธ์ง๋ผ๋ ๋จ์ํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ํํ์ผ๋ก ํ์ฅ ๊ฐ๋ฅ์ฑ๊ณผ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋์์ ๋ฌ์ฑํ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์