์ ์: Chenguang Huang, Oier Mees, Andy Zeng, Wolfram Burgard | ๋ ์ง: 2025-06-07 | URL: https://arxiv.org/abs/2506.06862 📄 PDF
Figure 1. AVLMaps provide an open-vocabulary 3D map
๋ก๋ด ๋ค๋น๊ฒ์ด์ ๊ณผ ์กฐ์์ ์ํด pretrained multimodal foundation model์ ํน์ง์ 3D ํ๊ฒฝ ์ฌ๊ตฌ์ฑ๊ณผ ์ตํฉํ spatial language map (VLMaps, AVLMaps)์ ์ ์ํ๋ค. ์ด๋ฅผ ํตํด ์์ฐ์ด, ์ด๋ฏธ์ง, ์ค๋์ค ๋ฑ ๋ค์ค๋ชจ๋ฌ ์ฟผ๋ฆฌ๋ฅผ ๊ณต๊ฐ์์ ๋ชฉํ ์์น๋ก ๊ทธ๋ผ์ด๋ฉํ ์ ์๋ค.
Figure 1. AVLMaps provide an open-vocabulary 3D map
Figure 2. The creation and language-conditioned indexing of a VLMap. A VLMap is created by fusing pretrained visual-lang
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ multimodal foundation models์ 3D spatial map์ ์ฐฝ์์ ์ผ๋ก ํตํฉํ์ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๊ณต๊ฐ ์ ๋ฐ๋์ ๋ฉํฐ๋ชจ๋ฌ ์ดํด ํ๊ณ๋ฅผ ๋์์ ํด๊ฒฐํ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ค. Audio modality์ ๋์ ๊ณผ ๋ค์ํ ๋ก๋ด ํ๋ซํผ ์ง์์ผ๋ก ์ค์ฉ์ ํ์ฅ์ฑ์ด ์ฐ์ํ๋ฉฐ, 50% ์ฑ๋ฅ ํฅ์ ๋ฑ ์ ๋์ ๊ฒฐ๊ณผ๋ ๊ฐ๋ ฅํ๋ค.