DivScene: Towards Open-Vocabulary Object Navigation with Large Vision Language Models in Diverse Scenes
์ ์: Zhaowei Wang, Hongming Zhang, Tianqing Fang, Ye Tian, Yue Yang, Kaixin Ma, Xiaoman Pan, Yangqiu Song, Dong Yu | ๋ ์ง: 2024-10-03 | URL: https://arxiv.org/abs/2410.02730 📄 PDF
Essence
Figure 2: Data collection process. On the left, we show the process of collecting scenes. We prompt GPT-4o to
Large Vision-Language Models (LVLMs)์ embodied ํ๊ฒฝ ์ดํด์ ๋ค๋น๊ฒ์ด์
๋ฅ๋ ฅ์ ํ๊ตฌํ๊ธฐ ์ํด 81๊ฐ ์ฅ๋ฉด ์ ํ๊ณผ 5,707๊ฐ ๊ฐ์ฒด ๋ฒ์ฃผ๋ฅผ ํฌํจํ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
DivScene์ ์ ์ํ๊ณ , CoT ์ค๋ช
์ ํตํ fine-tuning์ผ๋ก GPT-4o๋ฅผ 20% ์ด์ ์ํํ๋ ์ฑ๋ฅ ๋ฌ์ฑ.
Motivation
- Known: LVLMs๋ VQA์ ๋ฌธ์ ์ดํด์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์์ผ๋, ๊ธฐ์กด object navigation ๋ฒค์น๋งํฌ(Matterport-3D์ 21๊ฐ ๊ฐ์ฒด, ProcTHOR์ 16๊ฐ ๊ฐ์ฒด)๋ ์ ํ๋ ๋ค์์ฑ์ ๊ฐ์ง๊ณ ์์ด closed-vocab ์์
์๋ง ์ง์ค๋์ด ์์.
- Gap: open-vocabulary object navigation ์์
์์ LVLM์ ์ฑ๋ฅ์ด ๋ฏธํกํ๋ฉฐ, ์ค์ ํ๊ฒฝ์ ๋ค์์ฑ์ ๋ฐ์ํ ์ ์๋ ์ถฉ๋ถํ ํฐ ๊ท๋ชจ์ ๋ค์ํ ์ฅ๋ฉด๊ณผ ๊ฐ์ฒด๋ฅผ ํฌํจํ๋ ๋ฒค์น๋งํฌ๊ฐ ๋ถ์ฌ.
- Why: Open-vocabulary navigation์ ํ์ค์ ์ธ ๋ก๋ด ๋ค๋น๊ฒ์ด์
์์ฉ์ ํ์์ ์ด๋ฉฐ, LVLM์ ์ค์ embodied ํ๊ฒฝ ์ดํด ๋ฅ๋ ฅ์ ์ข
ํฉ์ ์ผ๋ก ํ๊ฐํ ์ ์๋ ๊ธฐ์ด๋ฅผ ์ ๊ณตํจ.
- Approach: MIT Scenes Dataset์ 81๊ฐ ์ฅ๋ฉด ์ ํ์ ๊ธฐ๋ฐ์ผ๋ก GPT-4๋ฅผ ํ์ฉํด ์๋ ์์ฑ๋ ๋ค์ํ ์ง ์ค๋ช
์ผ๋ก Holodeck ํ๋ ์์ํฌ๋ฅผ ํตํด 4,614๊ฐ ๊ฐ์ ์ฃผํ์ ๊ตฌ์ถํ๊ณ , BFS๋ฅผ ์ด์ฉํ ์ต๋จ ๊ฒฝ๋ก ์ํผ์๋ ์ํ๋ง์ผ๋ก ํ์ต ๋ฐ์ดํฐ ์์ฑ ํ Idefics 2 ๋ชจ๋ธ์ CoT ์ค๋ช
๊ณผ ํจ๊ป fine-tuning.
Achievement
Figure 2: Data collection process. On the left, we show the process of collecting scenes. We prompt GPT-4o to
- DivScene ๋ฐ์ดํฐ์
๊ตฌ์ถ: 4,614๊ฐ ๊ฐ์ ์ฃผํ, 81๊ฐ ์ฅ๋ฉด ์ ํ, 5,707๊ฐ ๋์ ๊ฐ์ฒด ๋ฒ์ฃผ๋ฅผ ํฌํจํ๋ ๊ธฐ์กด ๋ฐ์ดํฐ์
๋ณด๋ค ํจ์ฌ ๋ ๋ค์ํ open-vocabulary navigation ๋ฒค์น๋งํฌ ์ ์
- NATVLM ๋ชจ๋ธ ๊ฐ๋ฐ: Idefics 2 ๊ธฐ๋ฐ fine-tuned ๋ชจ๋ธ์ด GPT-4o ๋๋น ์ฝ 20% ๋์ ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ํจ์จ์ ํ์ต ๋ฐฉ๋ฒ: ์ธ๊ฐ ์ฃผ์ ์์ด BFS๋ก ์์ฑ๋ ์ต๋จ ๊ฒฝ๋ก๋ง์ผ๋ก๋ LVLM์ ๋ค๋น๊ฒ์ด์
๋ฅ๋ ฅ์ด ํฌ๊ฒ ํฅ์๋ ์ ์์์ ์
์ฆ
- ๋ค์ค ๋ฐ์ดํฐ์
์ผ๋ฐํ: ProcTHOR, iTHOR, HM3D ๋ฑ 3๊ฐ ๋ฏธ๊ณต๊ฐ ๋ฐ์ดํฐ์
์์ ์ผ๋ฐํ ์ฑ๋ฅ ๊ฒ์ฆ
How
Figure 2: Data collection process. On the left, we show the process of collecting scenes. We prompt GPT-4o to
- MIT Scenes Dataset์ 81๊ฐ ์ฅ๋ฉด ์ ํ์ ๊ธฐ๋ฐ์ผ๋ก ์ ํ ๋ฐ ๋ถ๋ฅ
- GPT-4์ ํ๋กฌํํธ๋ฅผ ํตํด ์กฐ๋ช
, ๊ฐ์ฒด, ๊ธฐํ ์์ฑ์ ํฌํจํ ๋ค์ํ ์ง ์ค๋ช
์๋ ์์ฑ
- Holodeck ํ๋ ์์ํฌ๋ฅผ ํ์ฉํด ํ
์คํธ ์ค๋ช
์ผ๋ก๋ถํฐ AI2THOR ํ๋ซํผ ์์์ ๊ฐ์ ์ฃผํ ์๋ ๊ตฌ์ถ
- ๊ฐ ์ฃผํ์์ ์์์ ์์ ์์น์ ๋์ ๊ฐ์ฒด๋ฅผ ์ค์ ํ๊ณ 0.25m ๊ฒฉ์ ๋งต์ผ๋ก ์ด์ฐํํ ํ BFS๋ก ์ต๋จ ๊ฒฝ๋ก ํ์
- MOVEAHEAD, ROTATERIGHT, ROTATELEFT, DONE ์ก์
๊ณต๊ฐ ์ ์
- ์ด ์ฝ 23K๊ฐ์ ์ต๋จ ๊ฒฝ๋ก ์ํผ์๋ ์ํ๋ง
- Idefics 2 ๋ชจ๋ธ์ imitation learning์ผ๋ก fine-tuningํ๋ ๊ฐ ์ก์
์์ธก์ ๋ํ CoT ์ค๋ช
ํธ๋ ์ด์ค๋ฅผ ์๋ ์์งํ์ฌ ํ์ต ๋ฐ์ดํฐ์ ํฌํจ
- ๋ค์ํ LVLM ๋ฐ LLM ๊ธฐ๋ฐ ๋ฒ ์ด์ค๋ผ์ธ๊ณผ ๋น๊ต ํ๊ฐ
Originality
- Open-vocabulary object navigation ์์
์ ๊ณต์์ ์ผ๋ก ์ ์ํ๊ณ ๊ธฐ์กด dataset์ 100๋ฐฐ ์ด์ ๋ง์ ๊ฐ์ฒด ๋ฒ์ฃผ(5,707๊ฐ)๋ฅผ ํฌํจํ๋ ์๋ก์ด ๋๊ท๋ชจ ๋ฒค์น๋งํฌ ์ ์
- ์๋ํ๋ ์ง ์์ฑ ํ์ดํ๋ผ์ธ(GPT-4 + Holodeck)์ ํตํด ์ธ๊ฐ ์ฃผ์์ ๋ถ๋ด์ ํฌ๊ฒ ๊ฐ์์ํค๋ฉด์๋ ๋์ ๋ค์์ฑ ๋ฌ์ฑ
- CoT ์ค๋ช
์ navigation ์์
์ ํตํฉํ์ฌ LVLM์ ์ดํด๋๋ฅผ ํฅ์์ํค๋ novel ์ ๊ทผ๋ฒ
- BFS ์ต๋จ ๊ฒฝ๋ก๋ง์ผ๋ก ํจ๊ณผ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํจ์ ๋ณด์ฌ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ ๋๋น ํจ์ฌ ๊ฒฝ์ ์ ์ด๊ณ ํจ์จ์ ์ธ ๋์ ์ ์
Limitation & Further Study
- AI2THOR ํ๋ซํผ์๋ง ๊ตญํ๋์ด ํ์ค ์ธ๊ณ ํ๊ฒฝ์ผ๋ก์ ์ง์ ์ ์ฉ ๊ฐ๋ฅ์ฑ ์ ํ
- BFS ๊ธฐ๋ฐ ์ต๋จ ๊ฒฝ๋ก๊ฐ ์ค์ navigation์ ๋ค์์ฑ์ ์์ ํ ๋ํํ์ง ๋ชปํ ์ ์์ผ๋ฉฐ, ์์ธ์ ์ํฉ์ด๋ ๋น-์ต์ ๊ฒฝ๋ก ์ฒ๋ฆฌ ๋ฅ๋ ฅ ๋ฏธํก
- CoT ์ค๋ช
์ ์๋ ์์ง์ผ๋ก ์ธํ ํ์ฅ์ฑ ํ๊ณ ๋ฐ ์ฃผ๊ด์ ํธํฅ ๊ฐ๋ฅ์ฑ
- ํ์ฌ ๋ชจ๋ธ์ ์ ๋์ ์ฑ๊ณต๋ฅ ์ด ์ฌ์ ํ 50% ๋ฏธ๋ง(NATVLM ์ฝ 50%)์ผ๋ก ์ค์ ์์ฉ์ ์ถฉ๋ถํ์ง ์์ ์ ์์
- ํ์ ์ฐ๊ตฌ: (1) ํ์ค ํ๊ฒฝ์์์ ๊ฒ์ฆ, (2) ์๋ CoT ์์ฑ ๊ธฐ๋ฒ ๊ฐ๋ฐ, (3) ๋ ํฐ ๊ท๋ชจ์ LVLM ํ์ฉ ๋ฐ fine-tuning ์ ๋ต ๊ฐ์ , (4) ๋ณตํฉ ๊ฐ์ฒด ๊ด๊ณ๋ ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐํ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ open-vocabulary object navigation ์์
์ ์ฒ์ ์ฒด๊ณ์ ์ผ๋ก ์ ์ํ๊ณ ๊ธฐ์กด์ 100๋ฐฐ ์ด์ ๋ค์ํ ๊ฐ์ฒด๋ฅผ ํฌํจํ๋ ๋๊ท๋ชจ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ์ฌ ๋์ ํ์ ์ ๊ธฐ์ฌ๋๋ฅผ ๊ฐ์ง. LVLM์ embodied AI ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์ค์ํ ์์ฐ์ ์ ๊ณตํ๋ฉฐ, BFS ๊ธฐ๋ฐ ์ด๋ชจํ
์ด์
๋ฌ๋๊ณผ CoT ์ค๋ช
์ ์กฐํฉ์ผ๋ก ์ค์ฉ์ ์ด๊ณ ํจ์จ์ ์ธ ํ์ต ๋ฐฉ๋ฒ์ ์ ์ํ ์ ์ด ํ์ํจ.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์