ApexNav: An Adaptive Exploration Strategy for Zero-Shot Object Navigation with Target-centric Semantic Fusion
์ ์: Mingjie Zhang, Yuheng Du, Chengkai Wu, Jinni Zhou, Zhenchao Qi, Jun Ma, Boyu Zhou | ๋ ์ง: 2025-04-20 | URL: https://arxiv.org/abs/2504.14478 📄 PDF
Essence
Fig. 2: System Architecture of ApexNav. Before the episode, an LLM offline generates a similar object list. The agent bu
ApexNav๋ ์๋ฏธ๋ก ์ ์ ๋ณด์ ํ๊ฒฝ ๋ถํฌ๋ฅผ ๋ถ์ํ์ฌ ๊ฐํ ์๋ฏธ๋ก ์ ์ ํธ๊ฐ ์์ ๋๋ ์๋ฏธ ๊ธฐ๋ฐ ํ์์, ์ฝํ ๋๋ ๊ธฐํํ ๊ธฐ๋ฐ ํ์์ผ๋ก ์ ์์ ์ผ๋ก ์ ํํ๊ณ , target-centric semantic fusion์ ํตํด ๋
ธ์ด์ฆ๊ฐ ์๋ ํ์ง์๋ ๊ฐ๊ฑดํ zero-shot object navigation ํ๋ ์์ํฌ์ด๋ค.
Motivation
- Known: Object goal navigation์ ๋ฏธ์ง์ ํ๊ฒฝ์์ ๋ชฉํ ๊ฐ์ฒด๋ฅผ ์ฐพ์๊ฐ๋ ๋ฌธ์ ๋ก, LLM๊ณผ VLM์ ํ์ฉํ zero-shot ๋ฐฉ๋ฒ๋ค์ด ๋ฑ์ฅํ๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์๋ฏธ๋ก ์ ๋จ์์ ๊ณผ๋ํ๊ฒ ์์กดํ๊ฑฐ๋ ๋จ์ผ ํ๋ ์ ํ์ง์ ๊ธฐ๋ฐํ ์ ๋ขฐ๋ ๋ฎ์ ๋ชฉํ ์๋ณ์ ๋ฌธ์ ๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
- Gap: ์๋ฏธ๋ก ์ ์ ํธ๊ฐ ์ฝํ ํ๊ฒฝ์์ ์๋ฏธ ๊ธฐ๋ฐ ํ์์ ๋นํจ์จ์ ์ด๋ฉฐ, max-confidence fusion ๊ธฐ๋ฐ ์ ๊ทผ์ ๋์ ์ ๋ขฐ๋์ ์คํ์ง์ ์ทจ์ฝํ๋ค. ๋ํ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์๋ฏธ๋ก ์ ์ ํธ์ ๋ถํฌ๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ ๊ณ ์ ๋ ๋๋ ํ์์ ์ ๋ต์ ์ฌ์ฉํ๋ค.
- Why: Object navigation์ ํจ์จ์ฑ๊ณผ ์ ๋ขฐ๋๋ ๋ก๋ด ์๋ํ์ ๊ตฌ์กฐ ๋ฐ ์์ ๋ก๋ด ๋ถ์ผ์์ ์ค์ ์ ์ฉ์ ์ํด ๋งค์ฐ ์ค์ํ๋ฉฐ, ์คํ๊ฒฝ์์์ ๋
ธ์ด์ฆ์ occlusion์ ๊ฐ๊ฑดํ ๋ฐฉ๋ฒ์ด ํ์ํ๋ค.
- Approach: ํ๊ฒฝ์ ์๋ฏธ๋ก ์ ๋ถํฌ๋ฅผ ๋ถ์ํ์ฌ ํ์ ์ ๋ต์ ์ ์์ ์ผ๋ก ์ ํํ๋ ์ ์ํ ํ์ ์ ๋ต๊ณผ, ๋ค์ค ํ๋ ์ ๊ด์ธก์ ๋งฅ๋ฝ ์ธ์ ์ ๋ขฐ๋ ๊ฐ์ค์น๋ก ํตํฉํ๋ target-centric semantic fusion ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
Achievement
Fig. 1: Real-world Demonstration of ApexNav. We test ApexNav on various
- ์ ์ํ ํ์ ์ ๋ต: ์๋ฏธ๋ก ์ ์ ํธ๊ฐ ๊ฐํ ๋์ ์ฝํ ๋๋ฅผ ๊ตฌ๋ถํ์ฌ ์๋ฏธ ๊ธฐ๋ฐ ํ์๊ณผ ๊ธฐํํ ๊ธฐ๋ฐ ํ์์ ๋์ ์ผ๋ก ์ ํํ๊ณ , frontier ์ ํ์ Traveling Salesman Problem์ผ๋ก ๋ชจ๋ธ๋งํ์ฌ ํ์์ ์ ํ์ ํ๊ณ๋ฅผ ๊ทน๋ณต
- Target-centric semantic fusion: ๋ชฉํ ๊ฐ์ฒด์ ์ ์ฌ ๊ฐ์ฒด์ ์ฅ๊ธฐ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ ์งํ๋ฉด์ ๋ค์ค ํ๋ ์ ๊ด์ธก์ ๋งฅ๋ฝ ์ธ์ ์ ๋ขฐ๋ ๊ฐ์ค์น๋ก ํตํฉํ์ฌ ๋
ธ์ด์ฆ๊ฐ ์๋ ํ์ง์๋ ๊ฐ๊ฑดํ ๋ชฉํ ์๋ณ ๊ฐ๋ฅ
- ๋ฒค์น๋งํฌ ์ฑ๋ฅ: HM3Dv1์์ SR 5.5%, SPL 8.6% ์๋ ๊ฐ์ , HM3Dv2์์ SR 19.8%, SPL 16.9% ์๋ ๊ฐ์ ์ผ๋ก state-of-the-art ๋ฌ์ฑ
- ์คํ๊ฒฝ ๊ฒ์ฆ: ๋ค์ํ ์ค์ ํ๊ฒฝ์์์ ์คํ์ผ๋ก ์ค์ฉ์ฑ ์
์ฆ
How
Fig. 2: System Architecture of ApexNav. Before the episode, an LLM offline generates a similar object list. The agent bu
- Frontier map์ 2D probabilistic grid์์ raycasting์ผ๋ก ๊ตฌ์ฑํ๊ณ PCA ํด๋ฌ์คํฐ๋ง์ผ๋ก ๋จ์ํ
- Semantic score map์ BLIP-2 VLM์ image-text matching ์ ์ฌ๋๋ก ๊ตฌ์ฑ
- LLM์ ์ฌ์ฉํ์ฌ ์คํ๋ผ์ธ์์ target ๊ฐ์ฒด์ ์ ์ฌ ๊ฐ์ฒด ๋ฆฌ์คํธ ์์ฑ
- ์๋ฏธ๋ก ์ ์ ํธ ๋ถํฌ๋ฅผ ๋ถ์ํ์ฌ ์๋ฏธ ๊ธฐ๋ฐ๊ณผ ๊ธฐํํ ๊ธฐ๋ฐ ํ์ ๋ชจ๋ ์ ํ
- Target-centric fusion์์ ๋ค์ค ํ๋ ์ ํ์ง ๊ฒฐ๊ณผ๋ฅผ ๋งฅ๋ฝ ์ธ์ ์ ๋ขฐ๋๋ก ๊ฐ์คํฉ
- ์์ waypoint navigation ๋ชจ๋๋ก ์ ํ๋ waypoint์ ๋ํ action evaluation ๊ธฐ๋ฐ ์ด๋ ์ํ
Originality
- ํ๊ฒฝ์ ์๋ฏธ๋ก ์ ๋ถํฌ๋ฅผ ๋ถ์ํ์ฌ ํ์ ์ ๋ต์ ์ ์์ ์ผ๋ก ์ ํํ๋ ์์ด๋์ด๋ ์ธ๊ฐ์ ํ์ ํ๋์ ๋ชจ๋ธ๋งํ ์๋ก์ด ์ ๊ทผ
- Target-centric semantic fusion์ ์ ์ฌ ๊ฐ์ฒด๊น์ง ๊ณ ๋ คํ ๋ค์ค ํ๋ ์ ํตํฉ ๋ฐฉ์์ผ๋ก, ๊ธฐ์กด์ max-confidence fusion๋ณด๋ค ๋ ์ ๊ตํ ๋
ธ์ด์ฆ ์ฒ๋ฆฌ
- Frontier ์ ํ์ TSP๋ก ๋ชจ๋ธ๋งํ์ฌ ๊ธฐ์กด์ greedy ๊ธฐ๋ฐ frontier ์ ํ์ ํ๊ณ ๊ทน๋ณต
- Zero-shot ObjectNav์์ ์๋ฏธ๋ก ์ ์ ํธ์ ๊ธฐํํ์ ์ ๋ณด์ ํจ์จ์ ํธ๋ ์ด๋์คํ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฃฌ ์ฒซ ์๋
Limitation & Further Study
- ์ ์ํ ํ์์ ์๋ฏธ๋ก ์ ์ ํธ ๋ถํฌ ๋ถ์ ๊ธฐ์ค์ด ๋ช
ํํ์ง ์์ผ๋ฉฐ, ์ ํ ์๊ณ๊ฐ์ ์ค์ ์ด ํ๊ฒฝ์ ๋ฐ๋ผ ๋ฏผ๊ฐํ ์ ์์
- BLIP-2 VLM์ ์์กดํ๋ฏ๋ก VLM์ ์ฑ๋ฅ ํ๊ณ๊ฐ ์ง์ ์ ์ผ๋ก ์ํฅ์ ๋ฏธ์นจ
- TSP ๊ธฐ๋ฐ frontier ์์ ๊ฒฐ์ ์ ๊ณ์ฐ ๋ณต์ก๋๊ฐ frontier ์์ ๋ฐ๋ผ ์ฆ๊ฐํ ์ ์์
- ์คํ๊ฒฝ ์คํ์ด ์ ํ์ ์ด๋ฉฐ, ๊ทน๋๋ก ๋ณต์กํ ํ๊ฒฝ์ด๋ ๋งค์ฐ ์ ์ฌํ ์ธ๊ด์ ๊ฐ์ฒด๋ค์ด ๋ง์ ํ๊ฒฝ์์์ ์ฑ๋ฅ์ ๋ฏธํ๊ฐ
- ํ์ ์ฐ๊ตฌ์์๋ ์ ์ํ ์ ํ์ ์๋ ํ์ต, ๊ฒฝ๋ํ๋ fusion ์๊ณ ๋ฆฌ์ฆ, ๋ค์ํ ํ๊ฒฝ์์์ ์ค์ฆ์ ๊ฒ์ฆ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ApexNav๋ ์๋ฏธ๋ก ์ ์ ํธ์ ๊ธฐํํ์ ์ ๋ณด์ ํจ์จ์ ํธ๋ ์ด๋์คํ๋ฅผ ํตํด zero-shot object navigation์ ํจ์จ์ฑ๊ณผ ์ ๋ขฐ๋๋ฅผ ๋ชจ๋ ํฅ์์ํจ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค. ์คํ๊ฒฝ ๊ฒ์ฆ๊ณผ ๊ฐ๋ ฅํ ๋ฒค์น๋งํฌ ์ฑ๋ฅ, ์ฒด๊ณ์ ์ธ ablation study๋ฅผ ํตํด ๊ฐ ์ปดํฌ๋ํธ์ ํจ๊ณผ๋ฅผ ๋ช
ํํ ์
์ฆํ์ผ๋, ์ ์ํ ์ ํ ๊ธฐ์ค์ ๋ช
ํํ์ ๋ ๊ด๋ฒ์ํ ์คํ๊ฒฝ ์คํ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์