GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data
์ ์: Shengliang Deng, Mi Yan, Songlin Wei, Haixin Ma, Yuxin Yang, Jiayi Chen, Zhiqi Zhang, Taoyu Yang, Xuheng Zhang, Wenhao Zhang, Heming Cui, Zhizheng Zhang, He Wang | ๋ ์ง: 2025-05-06 | URL: https://arxiv.org/abs/2505.03233 📄 PDF
Essence
Figure 1: GraspVLA is a grasping foundation model pre-trained exclusively on billion-scale syn-
SynGrasp-1B๋ผ๋ 10์ต ํ๋ ์ ๊ท๋ชจ์ ํฉ์ฑ ๋ฐ์ดํฐ์
์ ๊ธฐ๋ฐ์ผ๋ก GraspVLA๋ผ๋ Vision-Language-Action ๊ธฐ๋ฐ ์ง๊ธฐ ๋ชจ๋ธ์ ์ ์ํ๋ฉฐ, ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ผ๋ก ์ฌ์ ํ์ตํ์ฌ ์ค์ธ๊ณ์์ ๊ฐ๋ ฅํ ์ ๋ก์ท ์ผ๋ฐํ์ ์์์ท ์ ์์ฑ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: VLA ๋ชจ๋ธ์ NLP/CV ๋ถ์ผ์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ์ฑ๊ณต์ ์๊ฐ์ ๋ฐ์ ๊ฐ๋ฐ๋์์ผ๋, ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ ๋น์ฉ์ด ๋ง์ด ๋๋ ์ค์ธ๊ณ ๋ฐ์ดํฐ์ ํฌ๊ฒ ์์กดํ๊ณ ์๋ค.
- Gap: ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ์ฌ๋ ฅ์ ๋ก๋ด ์กฐ์ ํ์ต์์ ํฌ๊ฒ ๊ณผ์ํ๊ฐ๋์์ผ๋ฉฐ, ๋๊ท๋ชจ ํฉ์ฑ ํ๋ ๋ฐ์ดํฐ๋ก๋ง ํ์ตํ VLA ๋ชจ๋ธ์ ์คํ ๊ฐ๋ฅ์ฑ์ด ์ฒด๊ณ์ ์ผ๋ก ํ๊ตฌ๋์ง ์์๋ค.
- Why: ํฉ์ฑ ๋ฐ์ดํฐ๋ ์ค์ธ๊ณ ๋ฐ์ดํฐ ์์ง์ ๋น์ฉ๊ณผ ๋
ธ๋ ์ง์ฝ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ์ค์ผ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ๋ฏผ์ฃผํ์ ์ ๊ทผ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: Progressive Action Generation์ด๋ผ๋ ํตํฉ Chain-of-Thought ํ๋ก์ธ์ค๋ฅผ ํตํด ์๋ํ๊ท ์ง๊ฐ ์์
๊ณผ flow-matching ๊ธฐ๋ฐ ํ๋ ์์ฑ์ ๊ฒฐํฉํ๊ณ , ํฉ์ฑ ๋ฐ์ดํฐ์ ์ธํฐ๋ท ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ํ์ตํ์ฌ ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฐ๊ทน์ ์ํํ๊ณ ๊ฐ๋ฐฉ ์ดํ ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ๋ค.
Achievement
Figure 1: GraspVLA is a grasping foundation model pre-trained exclusively on billion-scale syn-
- SynGrasp-1B ๋ฐ์ดํฐ์
: 240๊ฐ ์นดํ
๊ณ ๋ฆฌ์ 10,680๊ฐ ๊ฐ์ฒด๋ฅผ ํฌํจํ ์ ์ธ๊ณ ์ต์ด์ 10์ต ํ๋ ์ ๊ท๋ชจ ๋ก๋ด ์ง๊ธฐ ๋ฐ์ดํฐ์
๊ตฌ์ถ
- Progressive Action Generation: ์ง๊ฐ ์์
์ ์ค๊ฐ ๋จ๊ณ๋ก ์ทจ๊ธํ๋ ํตํฉ Chain-of-Thought ํ๋ก์ธ์ค๋ก ํฉ์ฑ ๋ฐ ์ธํฐ๋ท ๋ฐ์ดํฐ์ ๋ณด์์ ํ์ต ๊ฐ๋ฅ
- ์ง์ ์๋ฎฌ-ํ์ค ์ ์ด: ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ตํ์ฌ ์ค์ธ๊ณ์์ ์ง์ ๋ฐฐํฌ ๊ฐ๋ฅํ๋ฉฐ ์ถฉ๋ ํ๋ณต ๋ฅ๋ ฅ์ ๊ฐ์ง ํ๋ฃจํ ์ ์ฑ
์ ๊ณต
- ๊ฐ๋ ฅํ ์ ๋ก์ท ์ฑ๋ฅ: AnyGrasp ๋๋น ํฌ๋ช
๊ฐ์ฒด์์ ํ์ ํ ์ฐ์ํ๋ฉฐ ์๋ฎฌ๋ ์ด์
๋ฐ ์ค์ธ๊ณ ๋ฒค์น๋งํฌ์์ ์ฐ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ์
์ฆ
- ์์์ท ์ ์์ฑ: ์ฌ์ฉ์ ์ ํธ๋์ ํนํ๋ ์์ฉ ์๋๋ฆฌ์ค(์: ์ปต ๋ด๋ถ ํํผ, ๋ฐ์ง๋ ๋ณ ์์ฐจ ์ง๊ธฐ)์ ํจ์จ์ ์ผ๋ก ์ ์
How
Figure 3: GraspVLA consists of an autoregressive vision-language backbone and a flow-matching
- Objaverse์ LVIS ๋ถ๋ถ์งํฉ์์ 10,680๊ฐ ๊ฐ์ฒด ๋ฉ์๋ฅผ ์ ๋ณํ๊ณ ๋๋ค ์ค์ผ์ผ๋ง ๋ฐ ๋ฌผ๋ฆฌ์ ๋ฐฐ์น๋ฅผ ํตํด ๋ค์ํ ์ฅ๋ฉด ์์ฑ
- Grasp synthesis ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์์ ์ ์ธ antipodal grasps ์์ฑ ๋ฐ CuRoB ์ด๋ ๊ณํ๊ธฐ๋ฅผ ์ฌ์ฉํ ์ถฉ๋ ์๋ ๊ถค์ ๊ณํ
- ํฌํ ๋ฆฌ์ผ๋ฆฌ์คํฑ ๋ ๋๋ง๊ณผ ๊ด๋ฒ์ํ domain randomization์ผ๋ก ๋ฐฐ๊ฒฝ, ์กฐ๋ช
, ๊ณต๊ฐ, ๊ฐ์ฒด ์นดํ
๊ณ ๋ฆฌ, ๋ฐฉํด๋ฌผ ๋ฑ์ ๋ณ๋ ํฌํจ
- ์๋ํ๊ท vision-language backbone๊ณผ flow-matching ๊ธฐ๋ฐ ํ๋ ์์ฑ ๋ชจ๋์ ๊ฒฐํฉํ ์๋ํฌ์๋ ์ํคํ
์ฒ ์ค๊ณ
- ์๊ฐ์ ๊ทธ๋ผ์ด๋ฉ ๋ฐ ์ง๊ธฐ ์์ธ ์์ธก์ ์ค๊ฐ ๋จ๊ณ๋ก ํ๋ Chain-of-Thought ํ๋ก์ธ์ค๋ก ํฉ์ฑ ๋ฐ ์ธํฐ๋ท ๋ฐ์ดํฐ ๊ณต๋ ํ์ต
Originality
- VLA ๋ชจ๋ธ์ ์ํ ํฉ์ฑ ๋ฐ์ดํฐ๋ง์ ์์ ์ฌ์ ํ์ต ํจ๋ฌ๋ค์ ์ ์์ผ๋ก ๊ธฐ์กด์ ์ค์ธ๊ณ ๋ฐ์ดํฐ ์ค์ฌ ์ ๊ทผ๊ณผ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅธ ๋ฐฉ์ ์ ์
- Progressive Action Generation์ผ๋ก ์ง๊ฐ ์์
์ ํ๋ ์์ฑ์ ์ธ๊ณผ์ ์ค๊ฐ ๋จ๊ณ๋ก ๋ชจ๋ธ๋งํ์ฌ ํฉ์ฑ๊ณผ ์ธํฐ๋ท ๋ฐ์ดํฐ์ ๋ณด์์ ํ์ต ๊ฐ๋ฅํ๊ฒ ํจ
- ์ ์ธ๊ณ ์ต์ด์ 10์ต ํ๋ ์ ๊ท๋ชจ ํฉ์ฑ ๋ก๋ด ํ๋ ๋ฐ์ดํฐ์
๊ตฌ์ถ์ผ๋ก ๋๊ท๋ชจ ๋ฐ์ดํฐ ์๋์ ๋ก๋ด ํ์ต ๊ธฐ๋ฐ ๋ง๋ จ
- ๊ฐ๋ฐฉ ์ดํ ์ง๊ธฐ ๋ฌ์ฑ์ ์ํด ํฉ์ฑ ๋ฐ์ดํฐ์ ๊ธฐํํ์ ์ ๋ณด์ ์ธํฐ๋ท ๋ฐ์ดํฐ์ ์๋ฏธ๋ก ์ ์ง์์ ๋ช
์์ ์ผ๋ก ๊ฒฐํฉํ๋ ์ค๊ณ
Limitation & Further Study
- ํ์ฌ๋ ์ง๊ธฐ๋ผ๋ ํน์ ์กฐ์ ์คํฌ์๋ง ์ด์ ์ ๋ง์ถ๊ณ ์์ผ๋ฉฐ, ๋ค๋ฅธ ์กฐ์ ์์
(์: ํธ์ฑ, ์กฐ๋ฆฝ)์ผ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ์ด ๋ฏธํ์
- ํฉ์ฑ ๋ฐ์ดํฐ์ ์ค์ธ๊ณ ๊ฐ์ ์ ํํ ๋๋ฉ์ธ ๊ฐญ ๋ถ์์ด ๋ถ์กฑํ๋ฉฐ, ์ด๋ค domain randomization ์์๊ฐ ์๋ฎฌ-ํ์ค ์ ์ด์ ๊ฐ์ฅ ์ค์ํ์ง ๋ช
ํํ์ง ์์
- ์ธํฐ๋ท ๋ฐ์ดํฐ์์ ๊ณต๋ ํ์ต์ด ๊ฐ๋ฐฉ ์ดํ ์ฑ๋ฅ ๊ฐ์ ์ ์ผ๋ง๋ ๊ธฐ์ฌํ๋์ง์ ๋ํ ablation ๋ถ์์ ์์ธํจ์ด ํ์
- ํ์ ์ฐ๊ตฌ๋ก ๋ค์ํ ๋ก๋ด ํํ์ ์๋์ดํํฐ์ ๋ํ ์ผ๋ฐํ, ๋์ ํ๊ฒฝ๊ณผ ๋ฉํฐ ์์ด์ ํธ ์๋๋ฆฌ์ค ํ์ฅ, ๋ ํจ์จ์ ์ธ ์์์ท ์ ์ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ๋ก๋ด ์กฐ์ ํ์ต์ ์ํ ํฉ์ฑ ๋ฐ์ดํฐ์ ๋๊ท๋ชจ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ์ต์ด๋ก ์ฒด๊ณ์ ์ผ๋ก ์
์ฆํ๋ฉฐ, 10์ต ํ๋ ์ ๊ท๋ชจ์ ๊ณ ํ์ง ๋ฐ์ดํฐ์
๊ณผ ํ์ ์ ์ธ Progressive Action Generation ๋ฉ์ปค๋์ฆ์ ํตํด ์ค์ธ๊ณ ๋ฐฐํฌ ๊ฐ๋ฅํ ๊ฐ๋ ฅํ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์