์ ์: Navid Rajabi, Jana Kosecka | ๋ ์ง: 2025-02-11 | URL: https://arxiv.org/abs/2502.07306 📄 PDF
Figure 2. Topological Map Construction
Vision-Language Navigation ๋ฌธ์ ๋ฅผ LLM๊ณผ VLM์ ํ์ฉํ ๋ชจ๋์ ์ ๊ทผ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ์์ฐ์ด ์ง์์์ landmark๋ฅผ ์ถ์ถํ๊ณ topological map์์ ๊ฒฝ๋ก๋ฅผ ๊ฒ์ํ์ฌ dynamic programming์ผ๋ก ์ ๋ ฌ ์ ์๋ฅผ ๊ณ์ฐํ๋ค.
Figure 3. SigLIP vs. VLMaps Query Result for Last Landmark Indexing
Figure 5. Sequence Alignment for Path Ranking (Pano2Land)
์ดํ: ์ด ๋ ผ๋ฌธ์ LLM๊ณผ VLM์ ์ฒด๊ณ์ ์ผ๋ก ๊ฒฐํฉํ modular VLN ์ ๊ทผ๋ฒ์ผ๋ก training-free ํ์ต์ด ๊ฐ๋ฅํจ์ ๋ณด์ด๋ฉฐ, ๋ณต์กํ R2R-Habitat ์ง์์ ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. ๋ค๋ง ์๋ ค์ง ๋งต์ ์กด์ฌ ๊ฐ์ ๊ณผ spatial constraint ์ฒ๋ฆฌ์ ํ๊ณ๋ ์ค์ ํ๊ฒฝ ์ ์ฉ์ ์์ด ๊ฐ์ ์ด ํ์ํ๋ค.