ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models
์ ์: Siyuan Huang, Iaroslav Ponomarenko, Zhengkai Jiang, Xiaoqi Li, Xiaobin Hu, Peng Gao, Hongsheng Li, Hao Dong | ๋ ์ง: 2024-03-17 | URL: https://arxiv.org/abs/2403.11289 📄 PDF
Essence
Fig. 2: Overview of ManipVQA: We created a comprehensive vision-language dataset by merging existing datasets and
ManipVQA๋ Multi-Modal Large Language Model (MLLM)์ ๋ก๋ด ์กฐ์ ์์
์ ์ํ affordance ์ธ์๊ณผ ๋ฌผ๋ฆฌ์ ๊ฐ๋
์ดํด๋ฅผ ์ฃผ์
ํ๋ ํ๋ ์์ํฌ์ด๋ค. Visual Question-Answering ํ์์ ํตํฉ ๋ฐ์ดํฐ์
๊ณผ fine-tuning ์ ๋ต์ ํตํด ๋ก๋ด ์กฐ์ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
Motivation
- Known: MLLM์ ์ผ๋ฐ์ ์ธ image-text ์์ผ๋ก ํ์ต๋์ด ์์์ ์ถ๋ก ๊ณผ vision ์์
์ ๋ฐ์ด๋์ง๋ง, ๋ก๋ด ์กฐ์ ์์
์ ํ์ํ affordance์ ๋ฌผ๋ฆฌ์ ๊ฐ๋
์ดํด๊ฐ ๋ถ์กฑํ๋ค. ์ต๊ทผ robotic affordance๋ฅผ ๋ค๋ฃจ๋ ์ฐ๊ตฌ๋ค์ด ์์ง๋ง physical information์ด๋ affordance grounding์ ์ถฉ๋ถํ ๊ณ ๋ คํ์ง ๋ชปํ๋ค.
- Gap: ๊ธฐ์กด MLLM์ ์ผ๋ฐ์ ์ธ ์ด๋ฏธ์ง ์บก์
๋ ๋ฐ์ดํฐ๋ก ํ์ต๋์ด ๋ก๋ด ์กฐ์์ ํ์์ ์ธ affordance grounding๊ณผ ๋ฌผ๋ฆฌ์ ์ฑ์ง ์ดํด๊ฐ ๋ถ์กฑํ๋ค. ๊ธฐ์กด ๋ก๋ด affordance ์ฐ๊ตฌ๋ค๋ explicit affordance grounding์ด๋ ๋ฌผ๋ฆฌ์ ์ถ๋ก ์ ๋ช
์์ ์ผ๋ก ๋ค๋ฃจ์ง ์๋๋ค.
- Why: ๋ก๋ด ์์คํ
์ MLLM์ ํตํฉํ๋ ๊ฒ์ ์์ฐ์ธ์ด ๋ช
๋ น ์ดํด๋ฅผ ํฅ์์ํค์ง๋ง, ์กฐ์ ์์
์ ์ ํ์ฑ๊ณผ ๋ฒ์๋ฅผ ์ ํํ๋ affordance์ ๋ฌผ๋ฆฌ์ ๊ฐ๋
์ ๋ถ์กฑ์ ์ค์ ๋ก๋ด ์์ฉ์ ํต์ฌ ์ฅ์ ๋ฌผ์ด๋ค. ์ด๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ ๋ก๋ด์ ์ค์ ์กฐ์ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: ๊ธฐ์กด HANDAL, PACO, RefCOCO, Visual Genome, PhysObjects ๋ฑ์ ๋ฐ์ดํฐ์
์ ํตํฉํ๊ณ ChatGPT๋ก affordance ๊ธฐ๋ฐ ํ์คํฌ๋ฅผ ํ์ฅํ์ฌ VQA ํ์์ ํฌ๊ด์ ์ธ ๋ฐ์ดํฐ์
์ ๊ตฌ์ฑํ๋ค. ์ด ๋ฐ์ดํฐ์
์ผ๋ก SPHINX + LLaMa2 ๊ธฐ๋ฐ MLLM์ fine-tuningํ๋, ์๋์ vision-reasoning ๋ฅ๋ ฅ์ ๋ณด์กดํ๋ฉด์ ๋ก๋ด ํนํ ์ง์์ ์ฃผ์
ํ๋ค.
Achievement
Fig. 2: Overview of ManipVQA: We created a comprehensive vision-language dataset by merging existing datasets and
- ํตํฉ VQA ๋ฐ์ดํฐ์
๊ตฌ์ฑ: PACO, RefCOCO, Visual Genome, HANDAL, PhysObjects ๋ฑ ์ฌ๋ฌ ๋ฐ์ดํฐ์
์ ๋ณํฉํ๊ณ tool detection, affordance grounding, ๋ฌผ๋ฆฌ์ ๊ฐ๋
์ดํด๋ฅผ ํฌํจํ๋ VQA ํ์์ผ๋ก ํต์ผ
- ๋ค์ค ์์
์ง์: REC(Referring Expression Comprehension), REC-Grounding-Affordance, REG(Referring Expression Generation), REG-Physical ๋ฑ 4๊ฐ์ง ๊ด๋ จ ์์
์ ํตํฉ VQA ํฌ๋งท์ผ๋ก ์ฒ๋ฆฌ ๊ฐ๋ฅ
- fine-tuning ์ ๋ต: ์๋์ vision-reasoning ๋ฅ๋ ฅ์ ๋ณด์กดํ๋ฉด์ ๋ก๋ด affordance์ ๋ฌผ๋ฆฌ์ ์ง์์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ๋ fine-tuning ๋ฐฉ๋ฒ ๊ฐ๋ฐ
- ๊ฐ๋ ฅํ ์คํ ์ฑ๋ฅ: ๋ก๋ด ์๋ฎฌ๋ ์ดํฐ์ ๋ค์ํ vision task ๋ฒค์น๋งํฌ์์ robust ์ฑ๋ฅ ์
์ฆ
- ๊ณต๊ฐ ์์: ์ฝ๋์ ๋ฐ์ดํฐ์
์ GitHub์ ๊ณต๊ฐํ์ฌ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ๊ธฐ์ฌ
How
Fig. 2: Overview of ManipVQA: We created a comprehensive vision-language dataset by merging existing datasets and
- ๊ธฐ์กด ๋ฐ์ดํฐ์
(PACO, RefCOCO, Visual Genome, HANDAL, PhysObjects)์ ์์งํ๊ณ ํตํฉ
- ChatGPT๋ฅผ ์ฌ์ฉํ์ฌ affordance ๊ธฐ๋ฐ ์์
์ ๋ํ contextually rich ์ง์๋ฌธ ์์ฑ
- tool detection, affordance recognition, ๋ฌผ๋ฆฌ์ ๊ฐ๋
์ดํด(transparency, liquid storage, seal-ability) ๊ด๋ จ VQA ์ง๋ฌธ-๋ต๋ณ ์ ๊ตฌ์ฑ
- SPHINX์ mixed visual encoders๋ฅผ ํ์ฉํ์ฌ multi-scale ์ด๋ฏธ์ง ์ฒ๋ฆฌ (์ ํด์๋ 224x224 + 4๊ฐ์ 224x224 sub-image)
- LLaMa2 ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ์ projection layers๋ฅผ ํตํด visual features ์ ๋ ฌ
- fine-tuning ์ ์๋์ vision-reasoning ๋ฅ๋ ฅ ๋ณด์กดํ๋ฉด์ ๋ก๋ด ํนํ ์ง์ ์ฃผ์
- ์์ธก๋ bounding boxes์ SAM-HQ๋ฅผ ํ์ฉํ affordance ์์ญ ์๊ฐํ
- heuristic policy์ ๊ฒฐํฉํ์ฌ ๋ณต์กํ ์กฐ์ ์์
์ํ
Originality
- ๋ก๋ด ์กฐ์ ์ง์์ MLLM์ ์ฃผ์
ํ๊ธฐ ์ํด unified VQA format์ ํ์ฉํ ํ์ ์ ์ ๊ทผ
- ์ฌ๋ฌ ๋ก๋ด ๊ด๋ จ ๋ฐ์ดํฐ์
(HANDAL, PhysObjects, RGB-D Part Affordance)์ ํตํฉํ์ฌ ํฌ๊ด์ ์ธ robotic manipulation-centric dataset ๊ตฌ์ฑ
- affordance grounding๋ฟ ์๋๋ผ ๋ฌผ๋ฆฌ์ ์ฑ์ง ์ดํด(transparency, liquid storage capacity, seal-ability)๋ฅผ ๋ช
์์ ์ผ๋ก ํฌํจํ ์ฒซ ์๋
- ์๋์ MLLM ๋ฅ๋ ฅ์ ๋ณด์กดํ๋ฉด์ robotic knowledge๋ฅผ ์ฃผ์
ํ๋ targeted fine-tuning strategy ์ ์
- tool detection (REC), affordance grounding (REC-Grounding-Affordance), affordance localization (REG), ๋ฌผ๋ฆฌ์ ์ฑ์ง ์์ธก (REG-Physical) ๋ฑ ๋ค์ํ ๋ก๋ด ๊ด๋ จ ์์
์ ๋จ์ผ VQA ํ์์ผ๋ก ํตํฉ
Limitation & Further Study
- ๋ฐ์ดํฐ์
์ด ์ฃผ๋ก kitchen tools, workshop tools, garden tools์ ์ง์ค๋์ด ์์ด ๋ค๋ฅธ ๋๋ฉ์ธ์ affordance์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ์ ํ
- ๋ฌผ๋ฆฌ์ ๊ฐ๋
์ด transparency, liquid storage, seal-ability 3๊ฐ์ง๋ก ์ ํ๋์ด ์์ผ๋ฉฐ ๋ ๊ด๋ฒ์ํ ๋ฌผ๋ฆฌ์ ์ฑ์ง ์ดํด ๋ฏธํก
- bounding box ๊ธฐ๋ฐ affordance grounding์ ๋ณต์กํ ํํ์ ๋ฌผ์ฒด๋ multiple contact points๋ฅผ ๊ฐ์ง affordance ํํ์ ์ ํ
- ๋ก๋ด ์๋ฎฌ๋ ์ดํฐ์์์ ํ๊ฐ๊ฐ ์ฃผ์ด๋ฉฐ ์ค์ physical robot์์์ ์ฑ๋ฅ ๊ฒ์ฆ ๋ถ์กฑ
- affordance ๋ค์์ฑ(grasp, push, place ๋ฑ)์ด ๊ตฌ์ฒด์ ์ผ๋ก ์ด๋ป๊ฒ ์ฒ๋ฆฌ๋๋์ง ๋ช
ํํ์ง ์์
- ํ์ ์ฐ๊ตฌ๋ก ๋ ๋ค์ํ ๋๋ฉ์ธ์ ๊ฐ์ฒด์ affordance๋ฅผ ํฌํจํ ๋ฐ์ดํฐ์
ํ์ฅ, 3D affordance representation ๊ฐ๋ฐ, ์ค์ ๋ก๋ด ํ๋ซํผ์์์ ๊ฒ์ฆ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ManipVQA๋ MLLM์ ๋ก๋ด ์กฐ์ ์์
์ ์ ์์ํค๊ธฐ ์ํ ํฌ๊ด์ ์ด๊ณ ์ฐฝ์์ ์ธ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ฉฐ, unified VQA format๊ณผ ํตํฉ๋ robotic dataset์ ํตํด affordance ์ดํด์ ๋ฌผ๋ฆฌ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํจ๊ณผ์ ์ผ๋ก ์ฃผ์
ํ๋ค. ์ฝ๋์ ๋ฐ์ดํฐ์
๊ณต๊ฐ๋ฅผ ํตํด ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ์ง๋ง, ์ค์ ๋ก๋ด์์์ ๊ฒ์ฆ๊ณผ ๋ ๊ด๋ฒ์ํ ๋๋ฉ์ธ์ผ๋ก์ ํ์ฅ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์