TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation
์ ์: Linqing Zhong, Chen Gao, Zihan Ding, Yue Liao, Huimin Ma, Shifeng Zhang, Xu Zhou, Si Liu | ๋ ์ง: 2024-11-25 | URL: https://arxiv.org/abs/2411.16425 📄 PDF
Essence
Figure 2. Overall framework of TopV-Nav. During navigation, the agent receives egocentric RGB-D images It from the envir
TopV-Nav๋ MLLM์ ํ์ฉํ์ฌ top-view ์ง๋ ์์์ ์ง์ ๊ณต๊ฐ ์ถ๋ก ์ ์ํํจ์ผ๋ก์จ Zero-Shot Object Navigation ์์
์ ๊ฐ์ ํ๋ ๋ฐฉ๋ฒ๋ก ์ด๋ค. Adaptive Visual Prompt Generation, Dynamic Map Scaling, Potential Target Driven ๋ฉ์ปค๋์ฆ์ ํตํด ๊ณต๊ฐ ์ ๋ณด ์์ค์ ๋ฐฉ์งํ๊ณ ์๋ฏธ๋ก ์ ํ์ ๊ณต๊ฐ์ ํ๋ํ๋ค.
Motivation
- Known: ๊ธฐ์กด LLM ๊ธฐ๋ฐ ๋ค๋น๊ฒ์ด์
๋ฐฉ๋ฒ๋ค์ top-view ์ง๋๋ฅผ ์์ฐ์ด๋ก ๋ณํํ์ฌ ์ธ์ด ๊ณต๊ฐ์์ ์ถ๋ก ํ๋ฏ๋ก ๊ณต๊ฐ ์ ๋ณด ์์ค์ด ๋ฐ์ํ๋ค. Frontier-based์ waypoint-based ํ์ ๋ฐฉ์์ ์ ํ๋ ํ๋ ๊ณต๊ฐ๊ณผ ์๋ฏธ๋ก ์ ์ฝํจ์ ๋ณด์ธ๋ค.
- Gap: ํ์กด LLM ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ map-to-text ๋ณํ ๊ณผ์ ์์ ๋ฐฉ ๋ฐฐ์น, ๊ฐ์ฒด ๊ฐ ๊ณต๊ฐ ๊ด๊ณ ๋ฑ ์ค์ํ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ์์คํ๋ฉฐ, ํ์ ๊ณต๊ฐ์ด ํ์ฌ ๊ด์ฐฐ๋ ์์ญ์ผ๋ก ์ ํ๋์ด ์ธ๊ฐ์ฒ๋ผ ๋ฏธ๋ ๊ฐ๋ฅ์ฑ์ ์์ธกํ์ง ๋ชปํ๋ค.
- Why: ๊ณต๊ฐ ์ ๋ณด๋ ๋ค๋น๊ฒ์ด์
์์ ํ์์ ์ด๋ฉฐ, MLLM์ ์ด๋ฏธ์ง์์ ๊ณต๊ฐ ๊ด๊ณ๋ฅผ ํ์
ํ ์ ์์ผ๋ฏ๋ก top-view ์ง๋ ์ด๋ฏธ์ง์์ ์ง์ ์ถ๋ก ํ๋ฉด ZSON ์์
์ ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํ ์ ์๋ค.
- Approach: TopV-Nav๋ top-view ์ง๋ ์ด๋ฏธ์ง๋ฅผ MLLM์ ์
๋ ฅ์ผ๋ก ์ง์ ์ฌ์ฉํ์ฌ map-to-text ๊ณผ์ ์ ์ ๊ฑฐํ๊ณ , AVPG๋ก ์๋ฏธ๋ก ์ ์ผ๋ก ํ๋ถํ ์๊ฐ ํ๋กฌํํธ๋ฅผ ์์ฑํ๋ฉฐ, DMS์ PTD ๋ฉ์ปค๋์ฆ์ผ๋ก ์ธ๋ฐํ ์ถ๋ก ๊ณผ ์ธ๊ฐ์ฒ๋ผ์ ํ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Achievement
Figure 1. (a) Current LLM-based methods lie in two exploration
- Map-to-text ์ ๊ฑฐ: ๊ธฐ์กด ์ธ์ด ๋ณํ ๋ฐฉ์์ ๋ฒ๋ฆฌ๊ณ MLLM์ด top-view ์ง๋ ์ด๋ฏธ์ง์์ ์ง์ ๊ณต๊ฐ ์ถ๋ก ์ ์ํํ๋๋ก ๋ณ๊ฒฝํ์ฌ ๊ณต๊ฐ ์ ๋ณด ์์ค ํด๊ฒฐ
- Adaptive Visual Prompt Generation (AVPG): ์ง๋ ์์ ์ ์์ ์ผ๋ก ์๊ฐ ํ๋กฌํํธ๋ฅผ ์์ฑํ์ฌ MLLM์ ๊ฐ์ฒด ์์น์ ๊ณต๊ฐ ๊ด๊ณ ์ดํด ํฅ์
- Dynamic Map Scaling (DMS): ํน์ ์์ญ์ ๋์ ์ผ๋ก ํ๋ํ์ฌ ๋ณต์กํ ํ๊ฒฝ์์ ์ธ๋ฐํ ์ง์ญ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐํ
- Potential Target Driven (PTD): ๋ฏธํ์ ์์ญ๊น์ง ํฌํจํ ๋ชฉํ ๊ฐ์ฒด์ ๊ฐ๋ฅ์ฑ ์๋ ์์น๋ฅผ ์์ธกํ์ฌ ์ ์ญ์ ์ด๊ณ ์ธ๊ฐ ๊ฐ์ ํ์ ์ ๋
- ์๋ฏธ๋ก ์ ํ๋ ๊ณต๊ฐ: ๊ธฐ์กด์ frontier๋ ๋ฏธ๋ฆฌ ์ ์๋ waypoint๋ก ์ ํ๋์ง ์๊ณ ์ ์ญ์ ์ด๋ฉฐ ์๋ฏธ๋ก ์ ์ผ๋ก ํ๋ถํ ํ๋ ์ ํ ๊ฐ๋ฅ
How
Figure 2. Overall framework of TopV-Nav. During navigation, the agent receives egocentric RGB-D images It from the envir
- ํ๊ฒฝ์ผ๋ก๋ถํฐ egocentric RGB-D ์ด๋ฏธ์ง๋ฅผ ์์ ํ์ฌ top-view ์ง๋ Mt ๊ตฌ์ฑ
- AVPG๊ฐ ์ง๋ ์์ ๊ฐ์ฒด, ์ฅ์ ๋ฌผ, ํ์ ๊ฐ๋ฅ ์์ญ ๋ฑ์ ์๊ฐ์ ํ๋กฌํํธ๋ก ์ ์์ ์ผ๋ก ๋ฐฐ์น
- DMS์์ MLLM์ด ์ง๋๋ฅผ ํด์ํ๊ณ ๊ด์ฌ ์์ญ ์ ํ ํ ๋์ ์ค์ผ์ผ๋ง ์์๋ก ์ง๋ ํ๋
- PTD์์ ์ค์ผ์ผ๋ง๋ ์ง๋๋ฅผ ํด์ํ์ฌ ๋ชฉํ ๊ฐ์ฒด์ ์ ์ฌ์ ์์น ์ถ์ ๋ฐ ์ฃผ์ ์์ญ์ ํ๋ฅ ์ ์ ํ ๋น
- ๊ฐ์ฐ์์ ๊ธฐ๋ฐ ํจ์ ์ ๋ต์ผ๋ก ๊ฐ์น ๋งต ์์ฑ ํ ์ด๋ ์์น ๊ฒฐ์
- ๋ก์ปฌ ์ ์ฑ
(Local Policy)์ด ๊ฒฐ์ ๋ ์ด๋ ์์น์ ๋๋ฌํ๊ธฐ ์ํ ์ ์์ค ์ก์
์ํ์ค ์์ฑ
Originality
- LLM ๊ธฐ๋ฐ ๋ค๋น๊ฒ์ด์
์์ ์ต์ด๋ก map-to-text ๋ณํ ์ ๊ฑฐํ๊ณ MLLM์ด top-view ์ด๋ฏธ์ง๋ฅผ ์ง์ ์
๋ ฅ์ผ๋ก ๋ฐ๋ ํจ๋ฌ๋ค์ ์ ์
- AVPG๋ก ์ง๋ ์์ ์๊ฐ ์์๋ค์ ์๋ฏธ๋ก ์ ๊ด๊ณ๋ฅผ ๋ฐ์ํ๋๋ก ์ ์์ ์ผ๋ก ๋ฐฐ์นํ๋ ํ์ ์ ์ ๊ทผ
- DMS์ PTD ๋ฉ์ปค๋์ฆ์ ์กฐํฉํ์ฌ ์ธ๋ฐํ ์ง์ญ ์ถ๋ก ๊ณผ ์ ์ญ์ ๋ฏธ๋ ์์ธก์ ๋์์ ๊ตฌํ
- Gaussian ๊ธฐ๋ฐ ํจ์ ์ ๋ต์ผ๋ก ๋ชฉํ ์์น ์์ธก๊ณผ ํ์ฌ ๊ด์ฐฐ์ ํตํฉํ๋ ๋ฐฉ์
Limitation & Further Study
- top-view ์ง๋ ์์ฑ์ด ์ ํํ depth ์ ๋ณด์ ์์กดํ๋ฏ๋ก depth ์ผ์ ์ค๋ฅ ์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- MLLM์ ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ์ด ๋ณต์กํ๊ณ ํผ์กํ ํ๊ฒฝ์์ ์ ํ๋ ์ ์์
- DMS์ ๋์ ์ค์ผ์ผ๋ง ์ ํ์ด MLLM์ ํ๋จ์ ์์กดํ๋ฏ๋ก ๋ถ์ ํํ ์ง์ญ ์ ํ ์ ๋ฌธ์ ๋ฐ์ ๊ฐ๋ฅ
- PTD ๋ฉ์ปค๋์ฆ์ ๋ชฉํ ์์น ์์ธก ์ ํ๋๊ฐ ํ๊ฒฝ์ ์๋งจํฑ ๊ท์น์ฑ์ ํฌ๊ฒ ์์กด
- MP3D์ HM3D ๋ฐ์ดํฐ์
์ ํน์ฑ์ด ์ ํ์ ์ด๋ฏ๋ก ๋ค์ํ ์ค์ ํ๊ฒฝ์์์ ์ฑ๋ฅ ๊ฒ์ฆ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: TopV-Nav๋ MLLM์ ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ํ์ฉํ์ฌ ZSON ์์
์ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ฅผ ํด๊ฒฐํ๋ ์ฐฝ์์ ์ด๊ณ ์ค์ง์ ์ธ ๋ฐฉ๋ฒ๋ก ์ด๋ค. Map-to-text ์ ๊ฑฐ์ ์ ์์ ์๊ฐ ํ๋กฌํํธ ์์ฑ ๋ฑ ์ฌ๋ฌ ํ์ ๊ธฐ๋ฒ์ด ํจ๊ณผ์ ์ผ๋ก ํตํฉ๋์์ผ๋ฉฐ, MP3D์ HM3D์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์