์ ์: Chenguang Huang, Oier Mees, Andy Zeng, Wolfram Burgard | ๋ ์ง: 2022-10-11 | URL: https://arxiv.org/abs/2210.05714 📄 PDF
Fig. 1: VLMaps is a spatial map representation in which pretrained visual-
์๊ฐ-์ธ์ด ๋ชจ๋ธ์ ํน์ง์ 3D ์ฌ๊ตฌ์ฑ๊ณผ ์ตํฉํ์ฌ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ๊ฐ์ถ ์๋ฏธ๋ก ์ ์ง๋(VLMaps)๋ฅผ ๊ตฌ์ถํ๊ณ , ์ด๋ฅผ ํตํด ๋ก๋ด์ด ์์ฐ์ด ๋ช ๋ น์ผ๋ก ๊ณต๊ฐ ๊ด๊ณ๋ฅผ ํฌํจํ ๋ณต์กํ ๋ค๋น๊ฒ์ด์ ์์ ์ ์ํํ ์ ์๊ฒ ํ๋ค.
Fig. 2: VLMaps enables a robot to perform complex zero-shot spatial goal navigation tasks given natural language command
Fig. 3: System overview. A VLMap is created by fusing pretrained visual-language features into the reconstruction of the
์ดํ: VLMaps๋ ์ฌ์ ํ๋ จ VLM๊ณผ 3D ์ฌ๊ตฌ์ฑ์ ์ฐฝ์์ ์ผ๋ก ํตํฉํ์ฌ ๊ณต๊ฐ-์๋ฏธ๋ก ์ ๋ค๋น๊ฒ์ด์ ์ด๋ผ๋ ์ค์ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ฉฐ, ๊ด๋ฒ์ํ ์คํ์ผ๋ก ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์ฐ์์ฑ์ ์ ์ฆํ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง ์ผ์ ์ ํ๋, ์ค์ธ ํ๊ฒฝ, ๋์ ์ฅ์ ๋ฌผ ๋ฑ์ ๋ํ ์ ์ฝ ๋ ผ์๊ฐ ์ถ๊ฐ๋๋ฉด ๋์ฑ ์์ฑ๋ ๋์ ๊ฒ์ด๋ค.