์ ์: Dujun Nie, Xianda Guo, Yiqun Duan, Ruijun Zhang, Long Chen | ๋ ์ง: 2025-03-04 | URL: https://arxiv.org/abs/2503.02247 📄 PDF
Fig. 2: The WMNav framework. After acquiring the RGB-D panoramic image and pose information at step t, the
Vision-Language Model์ ๊ธฐ๋ฐ์ผ๋ก ํ world model์ ์ค๊ณํ์ฌ Object Goal Navigation ์์ ์์ ๋ฏธ๋ ์ํ๋ฅผ ์์ธกํ๊ณ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํตํด ์ ์ฑ ์ ๊ฐ์ ํ๋ WMNav ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. Curiosity Value Map์ด๋ผ๋ ์จ๋ผ์ธ ์ ์ง ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์กฐ์ ๋ ๋จ๊ณ ํ๋ ์ ์ ์ ๋ต์ผ๋ก VLM์ hallucination์ ์ํํ๋ฉด์ ํ์ ํจ์จ์ฑ์ ํฅ์์ํจ๋ค.
Fig. 2: The WMNav framework. After acquiring the RGB-D panoramic image and pose information at step t, the
Fig. 2: The WMNav framework. After acquiring the RGB-D panoramic image and pose information at step t, the
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ VLM์ world model๋ก ํ์ฉํ๋ ํ์ ์ ์ธ ์ ๊ทผ์ผ๋ก zero-shot object navigation์์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํ๋ฉฐ, Curiosity Value Map ๋ฐ ๋ ๋จ๊ณ ํ๋ ์ ์ ์ ๋ต์ด ํจ๊ณผ์ ์ผ๋ก ํ์ ํจ์จ์ฑ์ ๋์ธ๋ค. ์ฒด๊ณ์ ์ธ ์ค๊ณ์ ๊ฐ๋ ฅํ ์คํ ๊ฒฐ๊ณผ๋ก embodied AI ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.