ManipBench: Benchmarking Vision-Language Models for Low-Level Robot Manipulation
์ ์: Enyu Zhao, Vedant Raval, Hejia Zhang, Jiageng Mao, Zeyu Shangguan, Stefanos Nikolaidis, Yue Wang, Daniel Seita | ๋ ์ง: 2025-05-14 | URL: https://arxiv.org/abs/2505.09698 📄 PDF
Essence
Figure 1: ManipBench is a novel benchmark with over 12,000 multiple-choice questions across three different
ManipBench๋ Vision-Language Model(VLM)์ ์ ์์ค ๋ก๋ด ์กฐ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ 12,617๊ฐ์ ๊ฐ๊ด์ ๋ฌธ์ ๋ก ๊ตฌ์ฑ๋ ๋ฒค์น๋งํฌ์ด๋ฉฐ, 33๊ฐ์ VLM์ 10๊ฐ ๋ชจ๋ธ ๊ณ์ด์์ ๊ด๋ฒ์ํ๊ฒ ํ
์คํธํ์ฌ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ถ์ํ๋ค.
Motivation
- Known: VLM์ ๊ณ ์์ค ๋ก๋ด ๊ณํ์ ์ฌ์ฉ๋์ด ์์ผ๋, ์ ํํ ๋ก๋ด ์์ง์ ๊ฒฐ์ ๊ณผ ๊ฐ์ ์ ์์ค ์ถ๋ก ๋ฅ๋ ฅ์ ๋ ์ฐ๊ตฌ๋์๋ค. ๋ก๋ด ์กฐ์์ ์ํ ๋ค์ํ ๋ฒค์น๋งํฌ๊ฐ ์กด์ฌํ์ง๋ง VLM์ ์ ์์ค ์ถ๋ก ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ ํ์คํ๋ ๋ฒค์น๋งํฌ๊ฐ ๋ถ์กฑํ๋ค.
- Gap: ๊ธฐ์กด VLM ๋ก๋ด ๋ฒค์น๋งํฌ๋ค์ ๋ฎ์ ๋ชจ๋ธ ๋ค์์ฑ, ์ ํ๋ ์์
๋ฒ์, ํน์ ๋ถ์ ์ ํ ํ๊ฐ ๋ฉํธ๋ฆญ(MSE ๋ฑ)์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ํนํ deformable object ์กฐ์๊ณผ ์ ์์ค ๋ฌผ๋ฆฌ ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ์ ์ด์ ์ ๋ง์ถ ํฌ๊ด์ ๋ฒค์น๋งํฌ๊ฐ ์๋ค.
- Why: VLM์ ๋ก๋ด ์์ด์ ํธ๋ก ์ฌ์ฉํ ๋ ์ ์์ค ์ถ๋ก ๋ฅ๋ ฅ์ ์ค์ ์กฐ์ ์ฑ๊ณต์ ์ง์ ์ํฅ์ ๋ฏธ์น๋ฏ๋ก, ์ด๋ค VLM์ด ๋ก๋ด ์ ์ด์ ์ต์ ์ธ์ง ํ์
ํ๊ณ ๋ชจ๋ธ ๊ฐ์ ์ ๋ฐฉํฅ์ ์ ์ํ๊ธฐ ์ํด ์ฒด๊ณ์ ์ธ ํ๊ฐ๊ฐ ํ์์ ์ด๋ค.
- Approach: ์ค์ ๋ก๋ด ๋ฐ์ดํฐ, ์๋ ํ๋ ์ด์
fabric ์กฐ์ ๋ฐ์ดํฐ, ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ๋ก๋ถํฐ mark-based visual prompting์ ํตํด MCQ ๊ธฐ๋ฐ ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ฑํ๊ณ , ํคํฌ์ธํธ ์์ธก ์ค์ฌ์ ํ๊ฐ ์ค๊ณ๋ก ํจ์จ์ ์ธ ์ ์์ค ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ๋ฅผ ์ํํ๋ค.
Achievement
Figure 4: The percentage accuracies of the VLMs for evaluating the dimensions of Fabric Manipulation, de-
- ManipBench ๋ฒค์น๋งํฌ ๊ฐ๋ฐ: pick-and-place, articulated object manipulation, deformable object manipulation, dynamic manipulation ๋ฑ ๋ค์ํ ์์
์ ํฌํจํ 12,617๊ฐ์ MCQ ๊ธฐ๋ฐ ํ๊ฐ ์ธํธ ๊ตฌ์ฑ
- ๊ด๋ฒ์ํ VLM ํ๊ฐ: 33๊ฐ VLM์ 10๊ฐ ๋ชจ๋ธ ๊ณ์ด์์ ํ๊ฐํ์ฌ ๋ชจ๋ธ ๊ฐ ์ฑ๋ฅ ์ฐจ์ด ๋ฐ ํฌ๊ธฐ๋ณ ๋ณํ ๋ถ์
- ํ์ค๊ณผ์ ์ฐ๊ด์ฑ ๊ฒ์ฆ: ๋ฒค์น๋งํฌ ์ฑ๋ฅ๊ณผ ์ค์ ๋ก๋ด ์กฐ์ ์์
์์์ ์ฑ๊ณต๋ฅ ๊ฐ ๊ฐํ ์๊ด๊ด๊ณ ์
์ฆ
- ์ฑ๋ฅ ๊ฐญ ๋ถ์: ์ต๊ณ ์ฑ๋ฅ ๋ชจ๋ธ(Gemini-2.5-pro)๋ ์ธ๊ฐ ์์ค ์ดํด์ ํฐ ๊ฒฉ์ฐจ๊ฐ ์์์ ์์ฐ
How
Figure 2: ManipBench uses real and simulated environments, typically pre-processed with a MOKA-style [6]
- ์ค์ ๋ก๋ด ๋ฐ์ดํฐ๋ก๋ถํฐ DROID, Bridge ๋ฑ Open-X ๋ฐ์ดํฐ์
ํ์ฉ
- Fabric manipulation์ ์ํ ์๋ ํ๋ ์ด์
์ง๋ฌธ ์์ฑ
- ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ(ManiSkill ๋ฑ)์์ ์์ฑ๋ ๋ฐ์ดํฐ ํ์ฉ
- Mark-based visual prompting์ผ๋ก ๊ฐ๊ด์ ๋ฌธ์ ์์ฑ (gripper mask ์ฃผ์ ํ์ฉ)
- Keypoint ์์ธก ์ค์ฌ์ ํ๊ฐ๋ก ์ ์์ค ์กฐ์ ์ถ๋ก ๋ฅ๋ ฅ ์ธก์
- MCQ ๊ธฐ๋ฐ ์ค๊ณ๋ก trajectory rollout ์์ด ํจ์จ์ ํ๊ฐ ์ํ
- ์ค์ ๋ก๋ด ์คํ์ ํตํด ๋ฒค์น๋งํฌ ์ฑ๋ฅ๊ณผ ํ์ค ์ฑ๋ฅ ๊ฐ ์๊ด๊ด๊ณ ๋ถ์
Originality
- MCQ ๊ธฐ๋ฐ ํ๊ฐ ์ค๊ณ๋ก ๊ธฐ์กด MSE ๊ธฐ๋ฐ ํ๊ฐ์ multimodality ๋ฌธ์ ํด๊ฒฐ
- ์ค์ ๋ก๋ด ๋ฐ์ดํฐ์ ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ๋ฅผ ํตํฉํ์ฌ ํฌ๊ด์ ๋ฒค์น๋งํฌ ๊ตฌ์ฑ
- Deformable object manipulation์ ํนํ๋ ๋๊ท๋ชจ ๋ฒค์น๋งํฌ (๊ธฐ์กด ๋ฒค์น๋งํฌ์ ์ฃผ์ ํ๊ณ ๊ทน๋ณต)
- ์ ์์ค ๋ฌผ๋ฆฌ ์ถ๋ก (low-level physical reasoning)์ ์ง์ ์ด์ ์ ๋ง์ถ ์ฒซ ์ข
ํฉ ๋ฒค์น๋งํฌ
- ๋ชจ๋ธ-์ฑ๋ฅ ๊ฐ real-world ๊ฒ์ฆ์ ํฌํจํ์ฌ ๋ฒค์น๋งํฌ ์ ๋ขฐ์ฑ ์
์ฆ
Limitation & Further Study
- ํ์ฌ 2๊ฐ closed-source, 8๊ฐ open-source ๋ชจ๋ธ ๊ณ์ด๋ง ํฌํจ๋์ด ํฅํ ๋ ๋ค์ํ VLM ์ถ๊ฐ ํ์
- MCQ ํ์์ ํ๊ณ๋ก ์ฐ์์ trajectory ์์ธก์ด ํ์ํ ๋ณต์กํ ์กฐ์ ์์
ํ๊ฐ ๋ฏธํก
- ์ค์ ๋ก๋ด ๊ฒ์ฆ ์คํ์ด ์ ํ์ ์ด๋ฏ๋ก ๋ ๋ค์ํ ์ค์ ์กฐ์ ์์
์์์ ์๊ด๊ด๊ณ ๋ถ์ ํ์
- Sim-to-real gap์ด ์ฌ์ ํ ์กด์ฌํ๋ฏ๋ก ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ๋ฐ์ดํฐ์ ํ์ค ๋ํ์ฑ ํ๊ณ
- Fine-tuning ๋ฑ ๋ชจ๋ธ ๊ฐ์ ๋ฐฉ๋ฒ๋ก ์ ๋ํ ์ฒด๊ณ์ ๊ฐ์ด๋๋ผ์ธ ๋ถ์ฌ
- ํน์ ๋๋ฉ์ธ(fabric, articulated object)์ ๋ํ ์ธ๋ถ ์ฑ๋ฅ ๋ถ์ ์ฌํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ManipBench๋ VLM์ ์ ์์ค ๋ก๋ด ์กฐ์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ ์ฒซ ์ข
ํฉ ๋ฒค์น๋งํฌ๋ก์, ๊ด๋ฒ์ํ ๋ชจ๋ธ ํ๊ฐ, ํฌ๊ด์ ์์
๋ฒ์, ํ์ค ๊ฒ์ฆ์ ํตํด ๋ก๋ด ์กฐ์ ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ๋ค๋ง ํ๊ฐ ํ์์ ํ๊ณ์ ์ค์ ๋ก๋ด ๊ฒ์ฆ์ ํ์ฅ ํ์์ฑ์ด ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์