Context-Aware Entity Grounding with Open-Vocabulary 3D Scene Graphs
์ ์: Haonan Chang, Kowndinya Boyalakuntla, Shiyang Lu, Siwei Cai, Eric Jing, Shreesh Keskar, Shijie Geng, Adeeb Abbas, Lifeng Zhou, Kostas Bekris, Abdeslam Boularias | ๋ ์ง: 2023-09-27 | URL: https://arxiv.org/abs/2309.15940 📄 PDF
Essence
Figure 1: This is an illustration of the proposed pipeline. The system inputs are the positional input Pu, user input Lu
Open-Vocabulary 3D Scene Graph (OVSG)๋ ์์ ํ์ ํ
์คํธ ์ฟผ๋ฆฌ๋ฅผ ํตํด ๊ฐ์ฒด, ์์ด์ ํธ, ์์ญ ๋ฑ ๋ค์ํ ์ํฐํฐ๋ฅผ ๋ฌธ๋งฅ ์ธ์์ ์ผ๋ก localizeํ๋ ํ๋ ์์ํฌ์ด๋ค. ๊ธฐ์กด์ ๊ณ ์ ๋ ์๋งจํฑ ๋ ์ด๋ธ ๊ธฐ๋ฐ ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, ๋ฏธ๋ฆฌ ์ ์๋์ง ์์ ์นดํ
๊ณ ๋ฆฌ์ ๊ด๊ณ๋ ์ฒ๋ฆฌํ ์ ์๋ค.
Motivation
- Known: 3D scene graph๋ ๋
ธ๋์ ์ฃ์ง๋ก ๊ฐ์ฒด์ ๊ทธ๋ค์ ๊ด๊ณ๋ฅผ ํํํ๋ ํจ๊ณผ์ ์ธ ๋ฐฉ์์ด๊ณ , CLIP ๋ฑ์ vision-language ๋ชจ๋ธ์ ํตํ open-vocabulary ๊ฐ์ง ๊ธฐ์ ์ด ๋ฐ์ ํ๋ค.
- Gap: ๊ธฐ์กด 3D scene graph ์ฐ๊ตฌ๋ค์ ๋ฏธ๋ฆฌ ์ ์๋ ์นดํ
๊ณ ๋ฆฌ, ๊ด๊ณ, ์์ฑ์๋ง ์์กดํ๋ฏ๋ก ๋ฏธ์ง์ ์๋งจํฑ ๊ฐ๋
์ ์ฒ๋ฆฌํ ์ ์๊ณ , ์์ ํ์ ์์ฐ์ด ์ฟผ๋ฆฌ๋ฅผ ์ง์ํ์ง ์๋๋ค.
- Why: ๋ก๋ด์ ์ค์ ํ๊ฒฝ ๋ฐฐํฌ๋ฅผ ์ํด์๋ ์ฌ์ฉ์์ ์์ฐ์ค๋ฌ์ด ๋ฌธ๋งฅ ๊ธฐ๋ฐ ์ง์(์: '๋๊ตฐ๊ฐ ์์์๋ ์ํ')๋ฅผ ์ดํดํ๊ณ ์ ํํ ์ํฐํฐ๋ฅผ localizeํ ์ ์์ด์ผ ํ๋ค.
- Approach: OVIR-3D ๊ธฐ๋ฐ open-vocabulary ๊ฐ์ง, LLM์ ํตํ ์ฟผ๋ฆฌ ํ์ฑ, ๊ทธ๋ฆฌ๊ณ Spatial Relationship Encoder๋ฅผ ํฌํจํ graph matching ์๊ณ ๋ฆฌ์ฆ์ผ๋ก scene graph์ query graph๋ฅผ ๋น๊ตํ๋ค.
Achievement
Figure 5: Performance of OVSG w.r.t Grounding Success RateBB on ScanNet Scenes
- ์๋ก์ด ๋ฐ์ดํฐ์
: 8๊ฐ ์๋๋ฆฌ์ค์ 4,000๊ฐ ์ธ์ด ์ฟผ๋ฆฌ๋ฅผ ํฌํจํ DOVE-G ๋ฐ์ดํฐ์
๊ตฌ์ถ
- ์ฑ๋ฅ ์ฐ์์ฑ: ScanNet ๋ฐ ์์ฒด ์์ง ๋ฐ์ดํฐ์
์์ ๊ธฐ์กด semantic-based localization ๊ธฐ๋ฒ๋ณด๋ค ํ์ ํ ํฅ์๋ ์ฑ๋ฅ ๋ฌ์ฑ
- ์ค์ธ๊ณ ์ ์ฉ: ๋ก๋ด ๋ค๋น๊ฒ์ด์
๋ฐ ์กฐ์ ์์
์์ OVSG์ ์ค์ฉ์ฑ ์
์ฆ
- Open-vocabulary ์ญ๋: ๋ฏธ๋ฆฌ ์ ์๋์ง ์์ ๊ฐ์ฒด ์นดํ
๊ณ ๋ฆฌ์ ๊ด๊ณ๋ ์ฒ๋ฆฌ ๊ฐ๋ฅํจ์ ์คํ์ผ๋ก ์ฆ๋ช
How
Figure 1: This is an illustration of the proposed pipeline. The system inputs are the positional input Pu, user input Lu
- OVIR-3D๋ฅผ ์ฌ์ฉํ์ฌ RGB-D ์ค์บ์์ open-vocabulary ๊ฐ์ฒด ์ธ์คํด์ค ๊ฐ์ง ๋ฐ 3D fusion ์ํ
- ๋
ธ๋์ ํ์
(๊ฐ์ฒด, ์์ด์ ํธ, ์์ญ)์ ๋ฐ๋ผ ๋ค๋ฅธ ์ธ์ฝ๋(Detic, Sentence-BERT, ๊ณต๊ฐ ๊ด๊ณ ์ธ์ฝ๋) ์ ์ฉ
- LLM์ผ๋ก ์์ฐ์ด ์ฟผ๋ฆฌ๋ฅผ ํ์ฑํ์ฌ query graph Gq ๊ตฌ์ฑ
- Scene graph Gs์ query graph Gq ๊ฐ์ subgraph matching์ ๊ฑฐ๋ฆฌ ๋ฉํธ๋ฆญ๊ณผ ํ๋ณด ์ ์ ๋ฐ ๋ญํน ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ํ
- ๊ณต๊ฐ ๊ด๊ณ๋ Spatial Relationship Predictor (SRP)๋ก ํน๋ณ ์ฒ๋ฆฌํ์ฌ ๋น์ ํ ๊ณต๊ฐ ์ธ์ด ํ์ ๋ชจ๋ธ๋ง
Originality
- 3D scene graph์ open-vocabulary semantics์ ํตํฉํ ์ต์ด ์ ๊ทผ
- ์ด์ฐ ๋ ์ด๋ธ ๋์ continuous semantic feature๋ฅผ ์ฌ์ฉํ์ฌ ๋ฏธ์ง์ ๊ฐ๋
์ฒ๋ฆฌ ๊ฐ๋ฅ
- LLM ๊ธฐ๋ฐ ์ฟผ๋ฆฌ ํ์ฑ๊ณผ graph matching์ ๊ฒฐํฉํ novel architecture
- ๊ณต๊ฐ ์ธ์ด์ ๋น์ ํ ํน์ฑ์ ๋ชจ๋ธ๋งํ๋ Spatial Relationship Encoder ์ ์
Limitation & Further Study
- scene reconstruction ํ์ง์ ์์กดํ๋ฏ๋ก ๋ถ์ ํํ 3D geometry๊ฐ ์ฑ๋ฅ์ ์ ํํ ์ ์์
- LLM ํ์ฑ ๋จ๊ณ์์ ๋ณต์กํ ์ฟผ๋ฆฌ ํด์ ์ค๋ฅ ๊ฐ๋ฅ์ฑ
- ๊ณ์ฐ ๋ณต์ก๋: ํฐ scale scene์์ graph matching ๋น์ฉ ์ฆ๊ฐ ๊ฐ๋ฅ
- ํ์ ์ฐ๊ตฌ๋ก ๋์ ํ๊ฒฝ์์์ scene graph ์
๋ฐ์ดํธ, ๋ ๋ณต์กํ ๊ด๊ณ ํํ, ๋ค์ค ์ธ์ด ์ง์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: OVSG๋ open-vocabulary ๋ฅ๋ ฅ์ 3D scene graph์ ํตํฉํ์ฌ ๋ก๋ด์ด ์์ฐ์ค๋ฌ์ด ๋ฌธ๋งฅ ๊ธฐ๋ฐ ์ง์๋ฅผ ์ดํดํ ์ ์๋๋ก ํ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ด๋ค. ์ค์ ๋ก๋ด ์คํ๊ณผ ์๋ก์ด ๋ฐ์ดํฐ์
์ ํตํด ์ค์ฉ์ฑ์ ์
์ฆํ์ผ๋, scene reconstruction ์ ํ๋์ ํ์ฅ์ฑ ์ธก๋ฉด์์ ๊ฐ์ ์ ์ฌ์ง๊ฐ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์