Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs
์ ์: Amir Taherin, Juyi Lin, Arash Akbari, Arman Akbari, Pu Zhao, Weiwei Chen, David Kaeli, Yanzhi Wang | ๋ ์ง: 2025-09-15 | URL: https://arxiv.org/abs/2509.11480 📄 PDF
Essence
Fig. 1. Peak VRAM usage for each evaluated VLA model
Vision-Language-Action (VLA) ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ฃ์ง ๋๋ฐ์ด์ค๋ถํฐ ๋ฐ์ดํฐ์ผํฐ GPU๊น์ง ๋ค์ํ ํ๋์จ์ด ํ๋ซํผ์์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ์ฌ, ์ํคํ
์ฒ์ ํ๋์จ์ด ์ ์ฝ ์กฐ๊ฑด์ ๋ฐ๋ฅธ ์ ํ๋, ๋ ์ดํด์, ์ฒ๋ฆฌ๋, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ํ์ฅ ์ถ์ด๋ฅผ ๋ฐํ๋ธ๋ค.
Motivation
- Known: VLA ๋ชจ๋ธ์ ๋ก๋ด ์ ์ด๋ฅผ ์ํ ๊ฐ๋ ฅํ ์ผ๋ฐํ ์ ์ฑ
์ผ๋ก ๋ฑ์ฅํ์ผ๋ฉฐ, OpenVLA, SpatialVLA, VOTE ๋ฑ ์ฌ๋ฌ ๊ธฐ์ค์ ๋ชจ๋ธ์ด ๊ฐ๋ฐ๋์๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ ์ฃผ๋ก ๋จ์ผ ํ๋์จ์ด ํ๋ซํผ์์ ๊ณ ์ ๋ ์์ ์ค์ ํ์์๋ง ํ๊ฐ๋์๋ค.
- Gap: VLA ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋ค์ํ ๋ชจ๋ธ ์ํคํ
์ฒ, ํ๋์จ์ด ํด๋์ค, ์ ๋ ฅ ์์ฐ์ ๋ฐ๋ผ ์ด๋ป๊ฒ ํ์ฅ๋๋์ง์ ๋ํ ์ฒด๊ณ์ ์ธ ์ดํด๊ฐ ๋ถ์กฑํ๋ค. ์ฃ์ง-ํด๋ผ์ฐ๋ ์คํํธ๋ผ ์ ์ฒด์ ๊ฑธ์น ์ ํ๋, ๋ ์ดํด์, ์ฒ๋ฆฌ๋, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ํธ๋ ์ด๋์คํ๊ฐ ๋ช
ํํ์ง ์๋ค.
- Why: ์ค์ ๋ก๋ด ์์คํ
์ ๋ค์ํ ํ๋์จ์ด ์์, ๋ ์ดํด์ ์๊ตฌ ์ฌํญ, ์๋์ง ์์ฐ์ ๊ฐ์ง๊ณ ์์ผ๋ฏ๋ก, ๋ฐฐํฌ ์๋๋ฆฌ์ค์ ๋ง๋ ์ต์ ์ ๋ชจ๋ธ ์ ํ๊ณผ ์ต์ ํ๋ฅผ ์ํด ํ์ฅ ์ถ์ด๋ฅผ ์ดํดํ๋ ๊ฒ์ด ํ์์ ์ด๋ค.
- Approach: LIBERO ๋ฒค์น๋งํฌ๋ฅผ ์ฌ์ฉํ์ฌ 5๊ฐ์ ๋ํ์ ์ธ VLA ๋ชจ๋ธ(OpenVLA, SpatialVLA, OpenVLA-OFT, QwenVLA, VOTE ํฌํจ 2๊ฐ์ ์๋ก์ด ์ํคํ
์ฒ)์ Jetson AGX Orin ์ฃ์ง ๋๋ฐ์ด์ค(๋ค์ํ ์ ๋ ฅ ๋ชจ๋)์ H100, A100, A6000, V100 ๋ฐ์ดํฐ์ผํฐ GPU์์ ํ๊ฐํ๋ค. ์ ํ๋์ ํจ๊ป ๋ ์ดํด์, ์ฒ๋ฆฌ๋, ํผํฌ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋ ๋ฑ ์์คํ
๋ ๋ฒจ ๋ฉํธ๋ฆญ์ ์ธก์ ํ๋ค.
Achievement
Fig. 1. Peak VRAM usage for each evaluated VLA model
- ์ํคํ
์ฒ ์ํฅ: Action tokenization๊ณผ ๋ชจ๋ธ backbone ํฌ๊ธฐ ๊ฐ์ ์ํคํ
์ฒ ์ ํ์ด ์ฒ๋ฆฌ๋๊ณผ ๋ฉ๋ชจ๋ฆฌ ํํ๋ฆฐํธ์ ๊ฐํ๊ฒ ์ํฅ์ ๋ฏธ์นจ์ ํ์ธ
- ์ฃ์ง ๋๋ฐ์ด์ค์ ๋น์ ํ ์ฑ๋ฅ ์ ํ: ์ ๋ ฅ ์ ์ฝ์ด ์๋ ์ฃ์ง ๋๋ฐ์ด์ค์์ ์ฑ๋ฅ์ด ๋น์ ํ์ ์ผ๋ก ์ ํ๋์ง๋ง, ์ผ๋ถ ๊ตฌ์ฑ์ด ๊ตฌํ ๋ฐ์ดํฐ์ผํฐ GPU์ ๋๋ฑํ๊ฑฐ๋ ์ด๊ณผํ๋ ์ฑ๋ฅ์ ๋ณด์
- ์ ํ๋ ์์ค ์ต์ํ: ์๋นํ ์ ํ๋ ์์ค ์์ด ๋์ ์ฒ๋ฆฌ๋ ๋ณํ์ด ๋ฌ์ฑ ๊ฐ๋ฅํจ์ ์
์ฆ
- ๋ฐฐํฌ ์์ฌ๊ฒฐ์ ์ง์นจ: ๋ค์ํ ๋ฐฐํฌ ์ ์ฝ ์กฐ๊ฑด์ ๋ฐ๋ผ VLA ๋ชจ๋ธ์ ์ ํํ๊ณ ์ต์ ํํ๊ธฐ ์ํ ์คํ ๊ฐ๋ฅํ ํต์ฐฐ๋ ฅ ์ ๊ณต
- ํต๋
๋์ : ๋ก๋ด ์ถ๋ก ์์ ๋ฐ์ดํฐ์ผํฐ ํ๋์จ์ด์ ์ฐ์์ฑ์ ๋ํ ํ์ฌ์ ๊ฐ์ ์ ์๋ฌธ์ ์ ๊ธฐ
How
- Jetson AGX Orin์์ 15W, 30W, 50W, MAX ๋ฑ 4๊ฐ์ง ์ ๋ ฅ ๋ชจ๋์์ CPU/GPU ์ฝ์ด ์์ ํด๋ก ์ฃผํ์์ ๋ณํ๋ฅผ ์ธก์
- H100, A100, A6000, V100 ๋ฑ 4๊ฐ์ ๋ฐ์ดํฐ์ผํฐ GPU๋ฅผ ํ์ฉํ์ฌ ๋ค์ํ ์ํคํ
์ฒ ์ธ๋์ ์ฑ๋ฅ ๊ณ์ธต ํ๊ฐ
- OpenVLA, SpatialVLA, OpenVLA-OFT, QwenVLA, VOTE 5๊ฐ ๋ชจ๋ธ์ ๋ํด LIBERO ๋ฒค์น๋งํฌ์์ ์ ํ๋ ํ๊ฐ
- ๊ฐ ๋ชจ๋ธ๊ณผ ํ๋์จ์ด ์กฐํฉ์์ ํผํฌ VRAM ์ฌ์ฉ๋, ์ถ๋ก ๋ ์ดํด์, ์ฒ๋ฆฌ๋์ ์ธก์
- ์ํคํ
์ฒ ํน์ฑ(LLM backbone ํฌ๊ธฐ, action head ์ค๊ณ, ์ถ๋ ฅ tokenization)๊ณผ ํ๋์จ์ด ๋ฅ๋ ฅ ๊ฐ์ ์ํธ์์ฉ ๋ถ์
Originality
- VLA ๋ชจ๋ธ์ ๋ํ ์ต์ด์ ํฌ๊ด์ ์ธ ํฌ๋ก์ค ํ๋ซํผ ์ฑ๋ฅ ํ๊ฐ ์ฐ๊ตฌ๋ก, ์ฃ์ง๋ถํฐ ํด๋ผ์ฐ๋๊น์ง ์คํํธ๋ผ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์
- ์ ๋ ฅ ์ ์ฝ์ด ์๋ ์ฃ์ง ๋๋ฐ์ด์ค์์์ ๋น์ ํ ์ฑ๋ฅ ์ ํ ํจํด์ ์ฒ์์ผ๋ก ์์ธํ ๋ฌธ์ํ
- ๊ตฌํ ๋ฐ์ดํฐ์ผํฐ GPU์ ์ต์ ์ฃ์ง ๋๋ฐ์ด์ค์ ์ฑ๋ฅ ๋น๊ต๋ฅผ ํตํด ํ๋์จ์ด ์ฐ์์ฑ ๊ฐ์ ์ ์ค์ฆ์ ์ผ๋ก ๋์
- ๋ ๊ฐ์ ์๋ก์ด VLA ์ํคํ
์ฒ(QwenVLA, VOTE์ ์๋ก์ด ๊ตฌ์ฑ)๋ฅผ ์ ์ํ๊ณ ํ๊ฐ
Limitation & Further Study
- ํ๊ฐ๊ฐ LIBERO ๋ฒค์น๋งํฌ๋ก ์ ํ๋์ด ์์ด, ๋ค๋ฅธ ๋ก๋ด ์์
๋๋ฉ์ธ์ด๋ ์ค์ ํ๊ฒฝ์์์ ์ฑ๋ฅ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ถ๋ช
ํ
- ์ฃ์ง ๋๋ฐ์ด์ค๋ Jetson AGX Orin ํ๋๋ง ํ๊ฐ๋์ด, ๋ค์ํ ์ฃ์ง ํ๋ซํผ(๋ค๋ฅธ ๋ชจ๋ฐ์ผ ํ๋ก์ธ์, IoT ๋๋ฐ์ด์ค)์์์ ํ์ฅ์ฑ ๋ฏธ์ง
- ์ ๋ ฅ ์ ์ฝ ํ์์์ ์ฑ๋ฅ ์ ํ ์์ธ์ ๋ํ ์ฌํ ๋ถ์(๋ฉ๋ชจ๋ฆฌ ๋์ญํญ, ์บ์ ๋ฏธ์ค, ์ฐ์ฐ ์ ์ฝ) ๋ถ์กฑ
- ์ค์๊ฐ ๋ก๋ด ์ ์ด์์์ ์ง์ฐ ์๊ฐ ๋์ ํจ๊ณผ๋ ๋ฐฐ์น ์ฒ๋ฆฌ์์ ์ํธ์์ฉ ๋ฏธ๋ถ์
- ํ์ ์ฐ๊ตฌ๋ก๋ ๋ค์ํ ์ฃ์ง ํ๋ซํผ๊ณผ ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ๊ฒ์ฆ, ์ ๋ ฅ ์ ์ฝ ํ ์ฑ๋ฅ ์ต์ ํ ๊ธฐ๋ฒ ๊ฐ๋ฐ, VLA ๋ชจ๋ธ ์์ถ(pruning, quantization) ๊ธฐ๋ฒ์ ์ํฅ ๋ถ์์ด ํ์ํจ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ VLA ๋ชจ๋ธ์ ํฌ๋ก์ค ํ๋ซํผ ์ฑ๋ฅ ํ์ฅ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ ์ค์ํ ๋ฒค์น๋งํฌ ์ฐ๊ตฌ๋ก, ๋ก๋ด ๋ฐฐํฌ ์๋๋ฆฌ์ค์ ๋ง๋ ํ๋์จ์ด ์ ํ๊ณผ ๋ชจ๋ธ ์ต์ ํ๋ฅผ ์ํ ์ค์ฉ์ ์ธ ํต์ฐฐ๋ ฅ์ ์ ๊ณตํ๋ค. ์ฃ์ง ๋๋ฐ์ด์ค์ ๊ฒฝ์๋ ฅ์ ์
์ฆํจ์ผ๋ก์จ ๋ก๋ด ์์คํ
์ค๊ณ์ ๋ํ ์๋ก์ด ๊ด์ ์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์