VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks
์ ์: Shiduo Zhang, Zhe Xu, Peiju Liu, Xiaopeng Yu, Yuan Li, Qinghui Gao, Zhaoye Fei, Zhangyue Yin, Zuxuan Wu, Yu-Gang Jiang, Xipeng Qiu | ๋ ์ง: 2024-12-24 | URL: https://arxiv.org/abs/2412.18194 📄 PDF
Essence
Figure 1. Overview of VLABench. VLABench is a large-scale language-conditioned manipulation benchmark to evaluate the co
VLABench๋ Vision-Language-Action ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด ์ค๊ณ๋ ๋๊ท๋ชจ ๋ก๋ด ์กฐ์ ๋ฒค์น๋งํฌ๋ก, ์์ฐ์ด ์ง์, ์์ ์ด์ , ์ฅ๊ธฐ ์ถ๋ก ์ด ํ์ํ 100๊ฐ์ ๊ณผ์ ๋ฅผ ์ ๊ณตํ๋ค.
Motivation
- Known: RLBench, LIBERO, CALVIN ๋ฑ์ ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ค์ด ์กด์ฌํ์ง๋ง, ๋๋ถ๋ถ ํ
ํ๋ฆฟ ๊ธฐ๋ฐ ์ง์์ ๋จ๊ธฐ ์คํฌ ํ์ต์ ์ด์ ์ ๋ง์ถ๊ณ ์๋ค. ์ต๊ทผ RT-2, PaLM-E ๊ฐ์ VLA ๋ชจ๋ธ๋ค์ด ์ธ์ด-์กฐ์ ๊ณผ์ ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์๋ค.
- Gap: ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ค์ ์์ฐ์ด์ ์๋ฌต์ ์๋, ์์ ๋ฐ ์ธ๊ณ ์ง์ ์ด์ , ๋ค๋จ๊ณ ์ถ๋ก ์ด ํ์ํ ์ฅ๊ธฐ ๊ณผ์ , ๊ทธ๋ฆฌ๊ณ VLA์ VLM์ ์ข
ํฉ์ ์ญ๋ ํ๊ฐ๋ฅผ ์ถฉ๋ถํ ๋ค๋ฃจ์ง ๋ชปํ๊ณ ์๋ค.
- Why: foundation model ๊ธฐ๋ฐ์ VLA์ VLM์ด ๋ก๋ด ์กฐ์ ๋ถ์ผ์์ ํฐ ์ ์ฌ๋ ฅ์ ๋ณด์ด๊ณ ์์ผ๋, ์ด๋ฅผ ๊ณต์ ํ๊ณ ํฌ๊ด์ ์ผ๋ก ํ๊ฐํ ํ์คํ๋ ๋ฒค์น๋งํฌ๊ฐ ํ์ํ๋ฉฐ, ์ด๋ ๊ตฌ์ฒดํ๋ AI ์ฐ๊ตฌ ๋ฐ์ ์ ํ์์ ์ด๋ค.
- Approach: 2000๊ฐ ์ด์์ 3D ๊ฐ์ฒด์ 163๊ฐ ์นดํ
๊ณ ๋ฆฌ๋ฅผ ํฌํจํ 100๊ฐ์ ์ ์คํ ์ค๊ณ๋ ๊ณผ์ ๋ฅผ ์ ๊ณตํ๋ฉฐ, ์๋ํ๋ ๋ฐ์ดํฐ ์์ง ํ๋ ์์ํฌ๋ฅผ ํตํด ๊ณ ํ์ง ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ฑํ๋ค. VLA, VLM ๊ธฐ๋ฐ ์ํฌํ๋ก์ฐ, ์์ VLM ๋ฑ ์ธ ๊ฐ์ง ์ ๊ทผ๋ฒ์ ๋น๊ต ํ๊ฐํ๋ค.
Achievement
Figure 1. Overview of VLABench. VLABench is a large-scale language-conditioned manipulation benchmark to evaluate the co
- ํฌ๊ด์ ๋ฅ๋ ฅ ํ๊ฐ: mesh&texture ์ดํด, ๊ณต๊ฐ ๊ด๊ณ, ์๋ฏธ๋ก ์ ์ง์ ์ดํด, ๋ฌผ๋ฆฌ๋ฒ์น ์ดํด, ์ง์ ์ด์ , ์ถ๋ก ๋ฅ๋ ฅ ๋ฑ ์ฌ๋ฌ ์ฐจ์์์ VLA๋ฅผ ํ๊ฐํ๋ ์ฒซ ๋ฒ์งธ ๋ฒค์น๋งํฌ
- ์์ฐ์ธ์ด ๊ธฐ๋ฐ ๊ณผ์ : ํ
ํ๋ฆฟ์ด ์๋ ์์ฐ์ค๋ฌ์ด ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ ํ์์ ์ง์๋ฌธ๊ณผ ์๋ฌต์ ์๋๋ฅผ ํฌํจํ 100๊ฐ์ LCM ๊ณผ์
- ์๋ํ ๋ฐ์ดํฐ ์์ง: heuristic skill๊ณผ ์ฌ์ ์ ๋ณด๋ฅผ ํ์ฉํ ํจ์จ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ ์์ฑ ํ๋ ์์ํฌ
- ํํฉ ๋ถ์: ๊ธฐ์กด์ SOTA VLA ๋ชจ๋ธ๋ค๊ณผ VLM ๊ธฐ๋ฐ ์ํฌํ๋ก์ฐ๊ฐ ์์ ์ด์ , ์ฅ๊ธฐ ์ถ๋ก , ์๋ฏธ๋ก ์ ์ดํด๊ฐ ํ์ํ ๊ณผ์ ์์ ์๋นํ ์ด๋ ค์์ ๊ฒช๊ณ ์์์ ์
์ฆ
How
Figure 3. Task examples in each dimension. The first row showcases examples of primitive tasks from Section 3.1, while t
- 100๊ฐ์ LCM ๊ณผ์ ๋ฅผ 6๊ฐ์ง ํ๊ฐ ์ฐจ์(์์&์ธ๊ณ์ง์, mesh&texture, ์๋ฏธ๋ก ์ ์ดํด, ๊ณต๊ฐ ๊ด๊ณ, ๋ฌผ๋ฆฌ๋ฒ์น, ์ถ๋ก )์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ์ค๊ณ
- 2000๊ฐ ์ด์์ ๋ค์ํ 3D ๊ฐ์ฒด์ 163๊ฐ์ ๊ฐ์ฒด ์นดํ
๊ณ ๋ฆฌ๋ฅผ ์ด์ฉํ ๊ฐํ domain randomization ์ ์ฉ
- ์๋ํ๋ ๋ฐ์ดํฐ ์์ง ํ๋ ์์ํฌ๋ก ๊ฐ ๊ณผ์ ์ ๋ํ ํ์คํ๋ ํ๋ จ ๋ฐ์ดํฐ์
๊ตฌ์ฑ
- RT-2, PaLM-E ๋ฑ์ VLA ๋ชจ๋ธ, VoxPoser/CoPA ๋ฑ์ VLM ๊ธฐ๋ฐ ์ํฌํ๋ก์ฐ, ๋ค์ํ VLM๋ค์ ๋ํ ์ฒด๊ณ์ ์ธ ์ฑ๋ฅ ํ๊ฐ
- cross-embodiment ์ง์, point cloud ๋ฐ์ดํฐ ์ง์, ๋ค์ค ์นด๋ฉ๋ผ ๊ด์ ์ ๊ณต์ผ๋ก ํ๊ฐ์ ๋ค์์ฑ ํ๋ณด
Originality
- ์์ฐ์ธ์ด ๊ธฐ๋ฐ ์๋ฌต์ ์๋ ํํ: ๊ธฐ์กด ํ
ํ๋ฆฟ ๊ธฐ๋ฐ ์ง์๋ฌธ๊ณผ ๋ฌ๋ฆฌ, ์ค์ ์ธ๊ฐ์ ์ํธ์์ฉ ๋ฐฉ์์ ๋ชจ๋ฐฉํ ์์ฐ์ค๋ฌ์ด ์ธ์ด ์ง์ ๋์
- ์ฅ๊ธฐ ์ถ๋ก (long-horizon reasoning) ๊ฐ์กฐ: multi-step ์์ฌ๊ฒฐ์ ๊ณผ task decomposition์ด ํ์ํ ๋ณตํฉ ๊ณผ์ ๋ฅผ ๋ฒค์น๋งํฌ์ ํต์ฌ ์์๋ก ์ฒด๊ณํ
- ์์ ๋ฐ ์ง์ ์ด์ ํ๊ฐ: '๋ฌผ์ฒด๋ฅผ ํน์ ์ธ๋ฌผ์๊ฒ ์ด๋'๊ณผ ๊ฐ์ ์์ ์ถ๋ก ์ด ํ์์ ์ธ ๊ณผ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ค๊ณ", 'VLA์ VLM ๋ชจ๋๋ฅผ ๋์์ผ๋ก ํ ํตํฉ ํ๊ฐ ํ๋ ์์ํฌ: ๋จ์ผ ์ ์ฑ
๋ชจ๋ธ๊ณผ ๋ชจ๋ํ๋ ์ํฌํ๋ก์ฐ ์ ๊ทผ์ ์ฅ๋จ์ ์ ๋์์ ํ๊ฐ
Limitation & Further Study
- ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ํ๊ณ: ์ค์ ๋ก๋ด์ ๋ฌผ๋ฆฌ์ ํน์ฑ, ๋ถํ์ค์ฑ, ์ค์๊ฐ ์ ์ฝ ์กฐ๊ฑด๋ค์ด ์๋ฒฝํ ๋ฐ์๋์ง ์์ ์ ์์
- ๊ฐ์ฒด ๋ฐ ์ฅ๋ฉด ๋ค์์ฑ: 2000๊ฐ ์ด์์ ๊ฐ์ฒด๋ก ๊ด๋ฒ์ํ์ง๋ง, ์ค์ ํ์ค ํ๊ฒฝ์ ๋ฌดํํ ๋ค์์ฑ์ ์์ ํ ํฌ๊ดํ๊ธฐ๋ ์ด๋ ค์
- VLA ๋ชจ๋ธ ์ฑ์๋: ํ์ฌ ์ฌ์ฉ ๊ฐ๋ฅํ VLA ๋ชจ๋ธ๋ค์ด ์์ ์ด์ ๊ณผ ์ฅ๊ธฐ ์ถ๋ก ์ ์ ๋๋ก ์ต์ ํ๋์ง ์์์ ๊ฐ๋ฅ์ฑ์ผ๋ก, ๋ฒค์น๋งํฌ์ ์ด๋ ค์์ด ๋ชจ๋ธ ์ค๊ณ์ ํ๊ณ์ธ์ง ๊ณผ์ ์ค๊ณ์ ํ๋น์ฑ์ธ์ง ๊ตฌ๋ถ์ด ํ์
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: VLA ๋ชจ๋ธ์ ๋๊ท๋ชจ ์ฌ์ ํ์ต ๋ฐ์ดํฐ ํ๋ณด, ์์ฐ์ธ์ด ์๋ ์ดํด ๋ฅ๋ ฅ ๊ฐํ, ์์ ๊ธฐ๋ฐ ์ถ๋ก ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ, ์๋ฎฌ-ํฌ-๋ฆฌ์ผ ์ ์ด ํ์ต ๊ธฐ๋ฒ ๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: VLABench๋ foundation model ๊ธฐ๋ฐ์ ๋ก๋ด ์กฐ์ ์ฐ๊ตฌ๋ฅผ ํ๊ฐํ๊ธฐ ์ํ ์ฒซ ๋ฒ์งธ ํฌ๊ด์ ๋ฒค์น๋งํฌ๋ก์, ์์ฐ์ธ์ด ์ง์, ์์ ์ด์ , ์ฅ๊ธฐ ์ถ๋ก ๋ฑ ๊ธฐ์กด ๋ฒค์น๋งํฌ๊ฐ ๊ฐ๊ณผํ๋ ์ค์ํ ์ฐจ์๋ค์ ์ฒด๊ณ์ ์ผ๋ก ๋์
ํ๋ค. ํ SOTA ๋ชจ๋ธ๋ค์ ํ๊ณ๋ฅผ ๋ช
ํํ ๋๋ฌ๋์ผ๋ก์จ ํฅํ VLA ๋ฐ embodied AI ์ฐ๊ตฌ ๋ฐฉํฅ ์ค์ ์ ์ค์ํ ์ญํ ์ ํ ๊ฒ์ผ๋ก ์์๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์