A3VLM: Actionable Articulation-Aware Vision Language Model
์ ์: Siyuan Huang, Haonan Chang, Yuhan Liu, Yimeng Zhu, Hao Dong, Peng Gao, Abdeslam Boularias, Hongsheng Li | ๋ ์ง: 2024-06-11 | URL: https://arxiv.org/abs/2406.07549 📄 PDF
Essence
Figure 2. Articulation Representation in A3VLM
A3VLM์ ๋ก๋ด ์ค์ฌ์ ํ๋ ํ์ต ๋์ ๋ฌผ์ฒด ์ค์ฌ์ ๊ด์ ๊ตฌ์กฐ(articulation)์ ํ๋ ๊ฐ๋ฅ์ฑ(affordance)์ ์ธ์ํ๋ Vision Language Model๋ก, ๋น์ฉ์ด ๋ง์ด ๋๋ ๋ก๋ด ์ํธ์์ฉ ๋ฐ์ดํฐ ์์ง์ ์ต์ํํ๋ฉด์๋ ๋ค์ํ ๋ก๋ด์ ์ ์ฉ ๊ฐ๋ฅํ ํํ์ ํ์ตํ๋ค.
Motivation
- Known: RT-1, RT-2, ManipLLM ๋ฑ ๊ธฐ์กด VLM ๊ธฐ๋ฐ ๋ก๋ด ์กฐ์ ๋ชจ๋ธ๋ค์ ๋ก๋ด ์ค์ฌ์ ํ๋์ ์ง์ ํ์ตํ์ฌ ๋์ ์ฑ๋ฅ์ ๋ณด์์ผ๋, ๋๋์ ๋น์ฉ์ด ๋ง์ด ๋๋ ๋ก๋ด ์ํธ์์ฉ ๋ฐ์ดํฐ ์์ง์ด ํ์ํ๋ค. GaPartNet์ ๋ฌผ์ฒด์ ๊ด์ ๊ตฌ์กฐ๋ฅผ 9๊ฐ์ง ํ์
์ผ๋ก ๋ถ๋ฅํ์ฌ ๊ฐ์งํ์ผ๋ ์ ๊ตฐ(point cloud) ๊ธฐ๋ฐ์ผ๋ก ์๋ํ์ฌ ์ค์ ํ๊ฒฝ์์ ๋
ธ์ด์ฆ์ ์ทจ์ฝํ๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ก๋ด๋ณ ๋ง์ถคํ ๋ฐ์ดํฐ๋ฅผ ์๊ตฌํ๊ณ , ๋ฌผ์ฒด ๊ธฐ๋ฐ ํํ๊ณผ ๋ก๋ด ๋
๋ฆฝ์ ํํ์ ๋ถ์กฑ์ผ๋ก ์ธํด ์ฌ์ฌ์ฉ์ฑ์ด ๋ฎ๊ณ ์ค์ ํ๊ฒฝ์์์ ์ ์ฉ์ฑ์ด ์ ํ๋๋ค. ๋ํ ๊ด์ ๊ตฌ์กฐ ์ธ์๊ณผ ํ๋ ๊ฐ๋ฅ์ฑ์ ๋์์ ์์ธกํ ์ ์๋ VLM ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: ๋ฌผ์ฒด ์ค์ฌ์ ๋ก๋ด ๋
๋ฆฝ์ ํํ์ ๋ค์ํ ๋ก๋ด์ ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ์กฐ์ ๋ชจ๋ธ์ ํ์ตํ ์ ์๊ฒ ํ๊ณ , ๋จ์ผ RGB ์ด๋ฏธ์ง๋ง์ผ๋ก 3D ๊ด์ ๊ตฌ์กฐ๋ฅผ ํ์
ํ ์ ์๋ ๋ฅ๋ ฅ์ ์ค์ ํ๊ฒฝ์ ๋
ธ์ด์ฆ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ฉฐ ๋น์ฉ ํจ์จ์ ์ธ ๋ก๋ด ์กฐ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: A3VLM์ (Bounding box B, Axis A, Semantic label S) ์ผ์คํญ์ผ๋ก ๋ฌผ์ฒด์ ๊ด์ ๊ตฌ์กฐ์ ํ๋ ๊ฐ๋ฅ์ฑ์ ํํํ๋ฉฐ, ์์ฐจ์ ํ๋กฌํํธ๋ฅผ ํตํด 4๊ฐ์ง ํ์ ์์
์ผ๋ก ๋ถ๋ฆฌํ์ฌ VLM ๋ฏธ์ธ์กฐ์ (fine-tuning)์ ์ํํ๋ค. PartNet-Mobility ๋ฐ์ดํฐ์
์์ ์์ฑํ ์ด๋ฏธ์ง์ ControlNet ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ํ์ฉํ์ฌ instruction-following ๋ฐ์ดํฐ์
์ ๊ตฌ์ฑํ๋ค.
Achievement
Figure 1. Sequential inference with prompts. To answer the first question, A3VLM identifies the corresponding action typ
- PartNet-Mobility ๋ฒค์น๋งํฌ ์ฐ์ ์ฑ๋ฅ: ๊ธฐ์กด ๊ด๋ จ ๋ชจ๋ธ๋ค์ ํฐ ํญ์ผ๋ก ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑ
- ๋ฌผ์ฒด ์ค์ฌ ๋ก๋ด ๋
๋ฆฝ์ ํํ: ํน์ ๋ก๋ด์ ์ข
์๋์ง ์๋ ํํ์ผ๋ก ๋ค์ํ ๋ก๋ด์ ์ ์ฉ ๊ฐ๋ฅ
- RGB๋ง์ผ๋ก 3D ๊ด์ ๊ตฌ์กฐ ์์ธก: ๊น์ด ๋ฐ์ดํฐ ์์ด ๋จ์ผ RGB ์ด๋ฏธ์ง๋ก ์ ํํ articulation ์ ๋ณด ์ถ์ถ
- ์ค์ ํ๊ฒฝ ๊ฐ๊ฑด์ฑ: ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํ๊ฒฝ ๋ชจ๋์์ ์ฐ์ํ ์์ ์ฑ๊ณผ ๊ฒฌ๊ณ ์ฑ ์
์ฆ
- ์ฝ๋ ๋ฐ ์๋ฃ ๊ณต๊ฐ: ์ฌํ์ฑ์ ์ํด GitHub์์ ์ฝ๋์ ํ์ต ์๋ฃ ์ ๊ณต
How
Figure 3. Annotations used for training A3VLM on the PartNet-Mobility dataset.
- PartNet-Mobility์ 2,000๊ฐ ์ด์์ ๊ด์ ๋ฌผ์ฒด๋ฅผ PyRender๋ก ๋ ๋๋งํ์ฌ ๊ฐ์ฒด๋น 40๊ฐ์ ๋ค์ํ ๋ทฐ ์ด๋ฏธ์ง ์์ฑ
- ControlNet์ ํ์ฉํ ์ด๋ฏธ์ง ์ฆ๊ฐ์ผ๋ก ํ์ต ๋ฐ์ดํฐ ๋ค์์ฑ ์ฆ๋
- URDF ํ์์ ํ์ ์ถ(revolute)๊ณผ ๋ณ์ง์ถ(prismatic) ์ ๋ณด๋ฅผ ํ์ฉํ ์๋ annotation ์์ฑ
- 4๊ฐ์ง ํ์ ์์
(action type localization, bounding box prediction, axis prediction, semantic label prediction)์ผ๋ก ์์ฐจ์ ํ์ต ๊ตฌ์กฐ ์ค๊ณ
- ์์ธก๋ ๊ด์ ๊ตฌ์กฐ์ ํ๋ ์ ๋ณด๋ฅผ simple action primitives(sliding, rotating, scrolling)์ผ๋ก ๋ณํํ์ฌ ๋ก๋ด ํ๋ ์์ฑ
Originality
- object-centric representation: ๋ก๋ด ์ค์ฌ์์ ๋ฌผ์ฒด ์ค์ฌ์ผ๋ก์ ํจ๋ฌ๋ค์ ์ ํ์ผ๋ก ๋ก๋ด ๋
๋ฆฝ์ฑ ํ๋ณด
- articulation + affordance ํตํฉ: ๊ด์ ๊ตฌ์กฐ ์ธ์๊ณผ ํ๋ ๊ฐ๋ฅ์ฑ์ VLM์ผ๋ก ๋์์ ์์ธกํ๋ ์ฒซ ์๋
- RGB ๊ธฐ๋ฐ 3D ๊ตฌ์กฐ ์์ธก: ๊ธฐ์กด point cloud ๊ธฐ๋ฐ ๋ฐฉ์์ ๋
ธ์ด์ฆ ๋ฌธ์ ๋ฅผ VLM ๊ธฐ๋ฐ์ผ๋ก ํด๊ฒฐ
- ๋จ์ํ๋ articulation ๋ถ๋ฅ: 9๊ฐ์ง ํ์
์ prismatic/revolute 2๊ฐ์ง๋ก ๋จ์ํํ์ฌ ํ์ต ํจ์จ์ฑ ์ฆ๋
- instruction-following ๋ฐ์ดํฐ์
์๋ ๊ตฌ์ฑ: URDF ์ ๋ณด๋ก๋ถํฐ ์ฒด๊ณ์ ์ธ annotation ์๋ ์์ฑ ํ์ดํ๋ผ์ธ
Limitation & Further Study
- ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ ์์กด์ฑ: ํ์ต์ PartNet-Mobility ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ๋ฅผ ์ฃผ๋ก ํ์ฉํ์ฌ sim-to-real gap ์กด์ฌ ๊ฐ๋ฅ์ฑ
- ๋ณต์กํ ๊ด์ ๊ตฌ์กฐ ์ ์ฝ: prismatic๊ณผ revolute 2๊ฐ์ง๋ก ๋จ์ํ๋์ด ๋์ ํ ์กฐ์ธํธ ๋ฑ ๋ณต์กํ ๊ด์ ๊ตฌ์กฐ ๋ฏธ์ง์
- ํ์(occlusion) ์ฒ๋ฆฌ ๋ฏธ์ถฉ๋ถ: ์ผ๋ถ ๋ถํ์ด ๊ฐ๋ ค์ง ์ํฉ์์์ ์ฑ๋ฅ ํ๊ณ ๋ฏธํ๊ฐ
- ์ค์๊ฐ ์ฑ๋ฅ ๋ฏธํ๊ฐ: VLM ๊ธฐ๋ฐ ์์ฐจ ์ถ๋ก ์ ๊ณ์ฐ๋๊ณผ ์ค์๊ฐ ์กฐ์ ์ ์ฉ ๊ฐ๋ฅ์ฑ ๋ฏธํ์ธ
- ํ์์ฐ๊ตฌ ๋ฐฉํฅ: ๋ค์ํ ์ค์ ํ๊ฒฝ์ ๋ฌผ์ฒด์ ๋ํ ํ์ต ๋ฐ์ดํฐ ํ์ถฉ, ๋ ๋ณต์กํ ๊ด์ ๊ตฌ์กฐ ์ง์, ๋์ ํ๊ฒฝ์์์ ์์ ์ฑ ๊ฒ์ฆ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: A3VLM์ ๋ก๋ด ์กฐ์ ๋ฌธ์ ์ ๋ํ object-centric ํจ๋ฌ๋ค์์ ์ ์ํ๋ฉฐ, VLM์ ํ์ฉํ์ฌ ๋ฌผ์ฒด์ ๊ด์ ๊ตฌ์กฐ์ ํ๋ ๊ฐ๋ฅ์ฑ์ ํจ๊ณผ์ ์ผ๋ก ์ธ์ํ๋ ํ์ ์ ์ธ ์ ๊ทผ๋ฒ์ด๋ค. ๋น์ฉ ํจ์จ์ฑ, ๋ก๋ด ๋
๋ฆฝ์ฑ, ์ค์ ํ๊ฒฝ์์์ ๊ฐ๊ฑด์ฑ์ ๋์์ ๋ฌ์ฑํ์ฌ ์ค์ฉ์ ๊ฐ์น๊ฐ ๋๊ณ ํ์ ์ฐ๊ตฌ์ ํฐ ์๊ฐ์ ์ค ์ ์๋ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์