DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping
์ ์: Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Zhang Chen, Tianrui Guan, Fanlian Zeng, Ka Num Lui, Yuyao Ye, Yitao Liang, Yaodong Yang, Yuanpei Chen | ๋ ์ง: 2025-02-28 | URL: https://arxiv.org/abs/2502.20900 📄 PDF
Essence
Figure 2: Overview of DexGraspVLA. A pre-trained VLM-based high-level planner (purple) decomposes prompts into object-
DexGraspVLA๋ Vision-Language model์ ๊ณ ์์ค ๊ณํ์๋ก, diffusion ๊ธฐ๋ฐ ์ ์์ค ํ๋ ์ปจํธ๋กค๋ฌ๋ฅผ ํ์ตํ๋ ๊ณ์ธต์ VLA ํ๋ ์์ํฌ๋ก, foundation model์ ํตํด ์ธ์ดยท์๊ฐ ์
๋ ฅ์ ๋๋ฉ์ธ ๋ถ๋ณ ํํ์ผ๋ก ๋ณํํ์ฌ ๋ชจ๋ฐฉ ํ์ต์ ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ๋ค.
Motivation
- Known: Dexterous grasping์ ๋ก๋ด ์กฐ์์ ๊ธฐ๋ณธ ๊ณผ์ ์ด๋, ๊ธฐ์กด ์ฐ๊ตฌ๋ ๋จ์ผ ๊ฐ์ฒด ๋๋ ์ ํ๋ ํ๊ฒฝ ๊ฐ์ ์ ์์กดํ๋ฉฐ ์ผ๋ฐํ ์ฑ๋ฅ์ด ์ ์ฝ์ ์ด๋ค. Foundation model์ ์ธํฐ๋ท ๊ท๋ชจ ๋ฐ์ดํฐ๋ก ํ์ต๋์ด ์ฐ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ ํ์ง๋ง, ๋ก๋ด ์ ์ฑ
์ ์ง์ ์ ์ฉ ์ ๋๊ท๋ชจ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์๊ตฌํ๊ณ unseen scenario์์ ์ฑ๋ฅ ์ ํ๊ฐ ๋ฐ์ํ๋ค.
- Gap: Foundation model์ ์ฐ์ํ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ๋ชจ๋ฐฉ ํ์ต์ ์ ํ๋ ๋ฐ์ดํฐ ํ์ฉ์ฑ์ ๊ฒฐํฉํ์ฌ, ๋๋ฉ์ธ ์ํํธ ์ํ๋ฅผ ํตํด ํ๋ฃจํ ์ ์ด ์ ์ฑ
์ ๊ฐ๊ฑดํ ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค. ํนํ cluttered scenario์์์ ์ฅ๊ธฐ ์งํ ๋ค์ค ๊ฐ์ฒด grasping๊ณผ adversarial robustness๋ฅผ ๋์์ ๋ฌ์ฑํ๋ ํตํฉ ํ๋ ์์ํฌ๊ฐ ๋ถ์ฌํ๋ค.
- Why: ์ค์ธ๊ณ ๋ก๋ด ์์ฉ์ ๋ค์ํ ๊ฐ์ฒด ๋ฌผ๋ฆฌ ํน์ฑ, ํ๊ฒฝ ๋ณ๋(์กฐ๋ช
, ๋ฐฐ๊ฒฝ), ๋ฐฉํด ์กฐ๊ฑด์์ ๊ฒฌ๊ณ ํ grasping ๋ฅ๋ ฅ์ ์๊ตฌํ๋ฉฐ, ์ ํ๋ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ๋ก๋ถํฐ ํจ๊ณผ์ ์ธ ์ผ๋ฐํ ๋ฌ์ฑ์ ์ค์ฉ์ ๋ฐฐํฌ์ ํต์ฌ ๊ณผ์ ์ด๋ค.
- Approach: DexGraspVLA๋ ์ฌ์ ํ์ต VLM์ ๊ณ ์์ค ๊ณํ์๋ก ํ์ฉํ์ฌ ๋๋ฉ์ธ ๋ถ๋ณ affordance ์ ํธ๋ฅผ ์์ฑํ๊ณ , ์ ์์ค ์ปจํธ๋กค๋ฌ๋ vision foundation model๋ก multimodal ์
๋ ฅ์ ์ ์ ํ ํ diffusion ๊ธฐ๋ฐ action head๋ก ํ๋ฃจํ ํ๋์ ์์ฑํ๋ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ์ฑํํ๋ค.
Achievement
Figure 1: We propose DexGraspVLA, a hierarchical VLA
- Unseen cluttered scenario ์ผ๋ฐํ: 1,287๊ฐ์ unseen object, ์กฐ๋ช
, ๋ฐฐ๊ฒฝ ์กฐํฉ์์ 90.8%์ grasping ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ๋จ์ผ ๊ฐ์ฒด ์ฑ๋ฅ: 98.6% ์ฑ๊ณต๋ฅ ๋ก ์๋ณธ ์๊ฐ ์
๋ ฅ ํ์ต ๊ธฐ์ค์ ๋๋น 48% ์ด์ ์ฑ๋ฅ ํฅ์
- ์ฅ๊ธฐ ์งํ ๋ช
๋ น ์คํ: ์์ ํ long-horizon prompt์ ๋ํด 89.6% ์ฑ๊ณต๋ฅ ๋ก embodied reasoning ๊ธฐ๋ฐ ๋ค๋จ๊ณ task ์์ฑ
- Robustness: adversarial object, ์ธ๊ฐ ๋ฐฉํด, ์คํจ ๋ณต๊ตฌ ์ํฉ์์ ๊ฒฌ๊ณ ํ ์ฑ๋ฅ ์ ์ง
- ์ผ๋ฐ์ฑ ํ์ฅ: Nonprehensile grasping์ผ๋ก ํ์ฅ ์ ์ฉ ๊ฐ๋ฅ์ฑ ์
์ฆ
How
Figure 2: Overview of DexGraspVLA. A pre-trained VLM-based high-level planner (purple) decomposes prompts into object-
- Pre-trained VLM์ high-level planner๋ก frozen ํ์ฉํ์ฌ prompt๋ฅผ object ์์ค grasping instruction๊ณผ bounding box๋ก ๋ถํด
- Vision foundation model (์: SAM ๋ฑ)๋ก target object mask ์ถ์ถ ๋ฐ RGB, mask, proprioception์ multimodal ์
๋ ฅ์ผ๋ก ์ธ์ฝ๋ฉ
- Diffusion-based action head (DiT model)๋ฅผ imitation learning์ผ๋ก ํ์ตํ์ฌ action chunk ์์ธก
- Domain-invariant ํํ ๊ณต๊ฐ์์ ๋ชจ๋ฐฉ ํ์ต ์ ์ฉ์ผ๋ก ๋๋ฉ์ธ ์ํํธ ์ํ ๋ฐ ์ผ๋ฐํ ํฅ์
- High-level planner๊ฐ execution์ ๋ชจ๋ํฐ๋งํ๋ฉฐ ๊ฐฑ์ ๋ scene ๊ธฐ๋ฐ ์๋ก์ด instruction ์ ์๋ก ์ฅ๊ธฐ task ๊ด๋ฆฌ
Originality
- Foundation model์ domain-invariant ํํ ๋ฅ๋ ฅ๊ณผ imitation learning์ action modeling์ ๊ณ์ธต์ ์ผ๋ก ๊ฒฐํฉํ๋ novel architecture ์ ์
- Frozen VLM์ affordance ์ ํธ ์์ฑ์ ํ์ฉํ๋ฉด์๋ ์ ์์ค ์ปจํธ๋กค๋ฌ์์ diffusion ๊ธฐ๋ฐ ํ๋ฃจํ ์ ์ฑ
ํ์ต - ๊ธฐ์กด end-to-end fine-tuning๊ณผ modular frozen ์ ๊ทผ ๊ฐ ์ค๊ฐ ๊ฒฝ๋ก ๊ฐ์ฒ
- Unseen cluttered scenario์์ 90+% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ - ๊ธฐ์กด imitation learning ๊ธฐ๋ฐ dexterous grasping ๋๋น ํ๊ธฐ์ ์ฑ๊ณผ
- Long-horizon prompt execution, adversarial robustness, failure recovery๋ฅผ ๋จ์ผ ํ๋ ์์ํฌ์์ ๋์ ์
์ฆํ ์ต์ด ์ฌ๋ก
Limitation & Further Study
- Foundation model์ affordance ์ธ์ ์ค๋ฅ(์: ๋ถ์ ํํ mask ๋๋ object ๋ถ๋ฅ ์คํจ)๊ฐ ์ ์์ค ์ปจํธ๋กค๋ฌ ์ฑ๋ฅ์ ์ง์ ์ํฅ ๊ฐ๋ฅํ๋, ์ด์ ๋ํ error propagation ๋ถ์ ๋ถ์กฑ
- Diffusion model ๊ธฐ๋ฐ action head์ ์ํ๋ง ๊ณผ์ ์ผ๋ก ์ธํ inference ๊ณ์ฐ๋ ์ฆ๊ฐ ๋ฐ ์ค์๊ฐ์ฑ ์ ์ฝ์ ๋ํ ์ธ๊ธ ๋ถ์ฌ
- ๋ชจ๋ฐฉ ํ์ต ๋ฐ์ดํฐ์
์ ๊ท๋ชจ, ์์ง ํ๋กํ ์ฝ, ๋ค์์ฑ ์์ค์ ๋ํ ์์ธ ๊ธฐ์ ๋ถ์กฑ - ์ฌํ์ฑ ๋ฐ ๋ฐ์ดํฐ ์๊ตฌ๋ ํ๊ฐ ์ด๋ ค์
- ๋จ์ผ ๋ก๋ด ํ๋์จ์ด ํ๋ซํผ์์๋ง ๊ฒ์ฆ๋์ด ๋ค์ํ dexterous hand morphology์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธํ์ธ
- ํ์ ์ฐ๊ตฌ: (1) Foundation model ์ค๋ฅ์ ๋ํ ๊ฐ๊ฑด์ฑ ๊ฐํ, (2) ํจ์จ์ inference ๊ธฐ๋ฒ ๊ฐ๋ฐ, (3) ๋ค์ค ๋ก๋ด ํ๋ซํผ ํ๋ ์คํ, (4) sim-to-real ์ ์ฉ ๊ฐ๋ฅ์ฑ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: DexGraspVLA๋ foundation model๊ณผ imitation learning์ ์๋ณด์ ๊ฐ์ ์ ๊ณ์ธต์ ์ผ๋ก ํตํฉํ์ฌ cluttered real-world scenario์์ unprecedented 90+% ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ด๋ฉฐ, ์ฅ๊ธฐ task, adversarial robustness, failure recovery๋ฅผ ๋์ ๋ฌ์ฑํจ์ผ๋ก์จ ์ค์ฉ์ dexterous grasping ๋ก๋ด์ ์คํ ๊ฐ๋ฅ์ฑ์ ํฌ๊ฒ ๋์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์