UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models
์ ์: Qiaojun Yu, Siyuan Huang, Xibin Yuan, Zhengkai Jiang, Ce Hao, Xin Li, Haonan Chang, Junbo Wang, Liu Liu, Hongsheng Li, Peng Gao, Cewu Lu | ๋ ์ง: 2024-09-30 | URL: https://arxiv.org/abs/2409.20551 📄 PDF
Essence
Fig. 1.
UniAff๋ ๋๊ตฌ ์ฌ์ฉ๊ณผ ๊ด์ ํ ๊ฐ์ฒด ์กฐ์์ ํตํฉํ๋ MLLM ๊ธฐ๋ฐ ํ๋ ์์ํฌ๋ก, 3D motion constraints์ affordances์ ํต์ผ๋ ํํ์ ์ ์ํ๋ค.
Motivation
- Known: ๊ธฐ์กด ์ฐ๊ตฌ๋ ๊ด์ ํ ๊ฐ์ฒด ๋๋ ๋๊ตฌ ์ค ํ๋์๋ง ์ง์คํ๊ฑฐ๋ case-by-case ๋ฌธ์ ํด๊ฒฐ๋ง ๊ฐ๋ฅํ์ผ๋ฉฐ, LLM์ ํ์ฉํ ์ด๋จ๊ณ ์ ๊ทผ๋ฒ์ด ์ ์๋์ด ์๋ค.
- Gap: ๋๊ตฌ ์ฌ์ฉ๊ณผ ๊ด์ ํ ๊ฐ์ฒด ์กฐ์์ ํตํฉํ๋ ํต์ผ๋ ํํ์ด ๋ถ์ฌํ๋ฉฐ, ๋ณต์กํ 3D motion constraints์ affordances๋ฅผ ๋์์ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ด ํ์ ์ ์ด๋ค.
- Why: ๋ก๋ด์ด ๋ค์ํ ๋๊ตฌ์ ๊ด์ ํ ๊ฐ์ฒด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์กฐ์ํ๋ ค๋ฉด 3D ๊ณต๊ฐ์์์ ๋ฌผ๋ฆฌ์ ์ ์ฝ๊ณผ ์ํธ์์ฉ ์์ญ์ ์ดํดํด์ผ ํ๋ฉฐ, ์ด๋ฌํ ํตํฉ์ ์ดํด๋ ๋ก๋ด์ ์ ์์ฑ๊ณผ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.
- Approach: 900๊ฐ์ ๊ด์ ํ ๊ฐ์ฒด(19๊ฐ ์นดํ
๊ณ ๋ฆฌ)์ 600๊ฐ์ ๋๊ตฌ(12๊ฐ ์นดํ
๊ณ ๋ฆฌ)๋ฅผ ํฌํจํ ๋๊ท๋ชจ ํฉ์ฑ ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๊ณ , SPHINX MLLM์ fine-tuningํ์ฌ ๋ถํ ์์ค์ 6D pose, grasp affordance, functional affordance, manipulation type์ ์์ธกํ๋ค.
Achievement
Fig. 1.
- ํตํฉ ํ๋ ์์ํฌ: ๋๊ตฌ์ ๊ด์ ํ ๊ฐ์ฒด์ ์กฐ์์ ํ๋์ ํต์ผ๋ ๋ถํ ํํ ๊ณต์์ผ๋ก ํตํฉํ ์ต์ด์ MLLM ๋ชจ๋ธ ์ ์
- ํฌ๊ด์ ๋ฐ์ดํฐ์
: 1,500๊ฐ ๊ฐ์ฒด์ ๋ํ ๋ถํ ์์ค 6D pose, manipulation type, affordance ๋ผ๋ฒจ์ด ํฌํจ๋ ๋๊ท๋ชจ synthetic dataset ๊ฐ๋ฐ
- ๊ฐ๋ ฅํ ์ฑ๋ฅ ํฅ์: HANDAL ๋ฐ์ดํฐ์
์์ LISA ๋๋น 11.5% ํฅ์, A3VLM ๋๋น unseen instance์์ 7.07%, unseen category์์ 9.60% ์ฑ๊ณต๋ฅ ๊ฐ์
- ํ์ค ํ๊ฒฝ ์ ์์ฑ: ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ํ๊ฒฝ ๋ชจ๋์์ ๊ฒ์ฆ๋์ด cross-task ์ผ๋ฐํ ๋ฅ๋ ฅ ์
์ฆ
How
Fig. 2.
- Structured 3D spatial formulation ์ ์: ๊ฐ ๋ถํ ฯi์ ๋ํด 6D pose Ai, bounding box Bi, grasp affordance Gi, functional affordance Fi, joint type Ji, part state Li๋ก ๊ตฌ์ฑ๋ ํต์ผ๋ ํํ ๋์
- Synthetic data generation: ์ฌ์ ์ค์บ๋ ๋ฉ์ ๋๋ URDF ๋ชจ๋ธ์ ํ์ฉํ์ฌ near-realistic ์๋ฎฌ๋ ์ด์
์์ ์๋ ๋ผ๋ฒจ๋ง์ผ๋ก ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์์ฑ
- MLLM fine-tuning: SPHINX ๋ชจ๋ธ์ VQA ํ์์ผ๋ก dataset์ fine-tuningํ์ฌ ๋ถํ BBOX, affordance BBOX, manipulation type ์์ธก
- ํผํฉ ์๊ฐ ์ธ์ฝ๋: DinoV2์ CLIP์ ๊ฒฐํฉํ mixed visual encoder๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ ์๊ฐ ์ ๋ณด ์บก์ฒ
- Manipulation type ๋ถ๋ฅ: bottle caps, revolute parts, sliding lids, prismatic parts, freedom object 5๊ฐ์ง manipulation type ์ ์
Originality
- ๋๊ตฌ์ ๊ด์ ํ ๊ฐ์ฒด๋ฅผ ๋จ์ผ ๋ถํ ํํ ๊ณต์์ผ๋ก ํตํฉํ๋ novelํ ์ ๊ทผ๋ฒ
- ๋ถํ ์์ค์ 6D pose, grasp affordance, functional affordance, joint type์ ๋์์ ์์ธกํ๋ ํตํฉ VQA ๊ธฐ๋ฐ framework
- ์๋ ๋ผ๋ฒจ๋ง์ ํตํ 1,500๊ฐ ๊ฐ์ฒด ๊ท๋ชจ์ ํฌ๊ด์ synthetic dataset ๊ฐ๋ฐ
- MLLM์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ์ฉํ affordance ์ดํด์ ์๋ก์ด ํจ๋ฌ๋ค์
Limitation & Further Study
- ํฉ์ฑ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ์ต์ผ๋ก ์ธํ domain gap์ด ์กด์ฌํ ์ ์์ผ๋ฉฐ, ์ค์ ํ๊ฒฝ์ ๋ณต์กํ ์ํฉ์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ ์ถ๊ฐ ๊ฒ์ฆ ํ์
- ํ์ฌ model์ ํ๋์ ๊ฐ์ฒด์ ๋ํ ์ดํด์ ์ค์ ์ ๋๊ณ ์์ผ๋ฉฐ, ๋ค์ค ๊ฐ์ฒด ์ํธ์์ฉ ์๋๋ฆฌ์ค๋ก ํ์ฅ ํ์
- manipulation type ๋ถ๋ฅ๊ฐ ์ฃผ๋ก 1-DOF ๊ด์ ์ ์ด์ ์ ๋ง์ถ๊ณ ์์ด, ๋ ๋ณต์กํ kinematic chain์ ๊ฐ์ง ๊ฐ์ฒด ์ฒ๋ฆฌ ๊ฐ์ ํ์
- VQA ํ์์ด ํน์ ์ฟผ๋ฆฌ ๊ตฌ์กฐ์ ์์กดํ๋ฏ๋ก, ๋ ์์ฐ์ค๋ฌ์ด ์ธ์ด ์ํธ์์ฉ์ผ๋ก์ ํ์ฅ ๊ณ ๋ ค
- ์ค์ ๋ก๋ด ๋ฐฐํฌ ์ prediction accuracy์ ์คํ ์ฑ๊ณต๋ฅ ์ gap ๋ถ์ ๋ฐ ๊ฐ์ ๋ฐฉํฅ ์ ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: UniAff๋ ๋๊ตฌ์ ๊ด์ ํ ๊ฐ์ฒด ์กฐ์์ ์ต์ด๋ก ํตํฉํ๋ MLLM ๊ธฐ๋ฐ ํ๋ ์์ํฌ๋ก, ๊ตฌ์กฐํ๋ ๋ถํ ํํ๊ณผ ๋๊ท๋ชจ synthetic dataset์ ํตํด ๋ก๋ด ์กฐ์์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํจ ์๋ฏธ ์๋ ์ฐ๊ตฌ ์ฑ๊ณผ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์