MapNav: A Novel Memory Representation via Annotated Semantic Maps for Vision-and-Language Navigation
์ ์: Lingfeng Zhang, Xiaoshuai Hao, Qinwen Xu, Qiang Zhang, Xinyao Zhang, Pengwei Wang, Jing Zhang, Zhongyuan Wang, Shanghang Zhang, Renjing Xu | ๋ ์ง: 2025-02-19 | URL: https://arxiv.org/abs/2502.13451 📄 PDF
Essence
Figure 1: Illustration of our Annotated Semantic
MapNav๋ Vision-and-Language Navigation์์ Annotated Semantic Map(ASM)์ ๋ฉ๋ชจ๋ฆฌ ํํ์ผ๋ก ์ฌ์ฉํ์ฌ ๊ธฐ์กด์ ๊ณผ๊ฑฐ ํ๋ ์ ์ ์ฅ์ ๋นํจ์จ์ฑ์ ํด๊ฒฐํ๋ end-to-end VLM ๊ธฐ๋ฐ ๋ชจ๋ธ์ด๋ค. ASM์ top-down ์๋ฉํฑ ๋งต์ ํ
์คํธ ๋ผ๋ฒจ์ ์ถ๊ฐํ์ฌ ๊ตฌ์กฐํ๋ ๋ด๋น๊ฒ์ด์
์ ๋ณด๋ฅผ ์ ๊ณตํ๋ค.
Motivation
- Known: Vision-and-Language Navigation์ ์์ฐ์ด ๋ช
๋ น์ ๋ฐ๋ฅด๋ฉฐ ๋ฏธ์ง์ ํ๊ฒฝ์ ๋ค๋น๊ฒ์ด์
ํ๋ embodied AI ํต์ฌ ๊ณผ์ ์ด๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ historical frames์ ๋ฉ๋ชจ๋ฆฌ๋ก ์ฌ์ฉํ์ฌ ๋์ ์ ์ฅ ์ฉ๋๊ณผ ๊ณ์ฐ ์ค๋ฒํค๋๋ฅผ ์ด๋ํ๋ค.
- Gap: ์ฐ์ ํ๊ฒฝ ๋ด๋น๊ฒ์ด์
(VLN-CE) ๋ฐฉ๋ฒ๋ค์ด ๊ณผ๊ฑฐ ๊ด์ฐฐ ๋ฐ์ดํฐ์ ์์กดํ๋ฉด์ ์ ์ฅ ์๊ตฌ์ฌํญ์ด ์ฆ๊ฐํ๊ณ ๊ณผ๊ฑฐ ๊ถค์ ์ ๋ํ ๊ตฌ์กฐํ๋ ์ดํด๊ฐ ๋ถ์กฑํ๋ค. semantic maps์ด ์กด์ฌํ์ง๋ง VLM์ด ์ง์ ํด์ํ ์ ์๋ ํํ๋ก ํํ๋์ง ๋ชปํ๊ณ ์๋ค.
- Why: ํจ์จ์ ์ธ ๋ฉ๋ชจ๋ฆฌ ํํ์ VLN ๋ชจ๋ธ์ ์ค์ ๋ฐฐํฌ ๊ฐ๋ฅ์ฑ์ ๋์ด๊ณ , ๊ตฌ์กฐํ๋ ๊ณต๊ฐ ์ดํด๋ ๋ค๋น๊ฒ์ด์
์ฑ๋ฅ๊ณผ ์ค์๊ฐ ์์ฌ๊ฒฐ์ ์ ๊ฐ์ ํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
- Approach: RGB-D์ pose ๋ฐ์ดํฐ๋ฅผ ํฌ์ธํธ ํด๋ผ์ฐ๋๋ก ๋ณํํ์ฌ top-down ์๋ฉํฑ ๋งต์ ์์ฑํ๊ณ , ์๋งจํฑ ์ธ๊ทธ๋ฉํ
์ด์
์ ์ ๋ ฌํ์ฌ ๊ธฐ๋ณธ ๋งต์ ๊ตฌ์ฑํ ๋ค, ์ฃผ์ ์์ญ์ ๋ํ ๋ช
์์ ํ
์คํธ ์ฃผ์์ ์ถ๊ฐํ์ฌ ASM์ ์์ฑํ๋ค. ์ด ASM์ ์
๋ ฅ์ผ๋ก ํ๋ end-to-end VLM ๊ธฐ๋ฐ agent๋ฅผ ์ค๊ณํ๋ค.
Achievement
Figure 2: An overview of MapNav framework. We present a top-down Annotated Semantic Map (ASM), updated
- ASM ๋ฉ๋ชจ๋ฆฌ ํํ: ๋ฌผ๋ฆฌ์ ์ฅ์ ๋ฌผ, ํ์ ์์ญ, ์์ด์ ํธ ์์น, ๊ถค์ , ์๋ฉํฑ ๊ฐ์ฒด ์ ๋ณด๋ฅผ ํฌํจํ๋ ๊ตฌ์กฐํ๋ top-down ๋งต์ ๋์ ์ผ๋ก ์
๋ฐ์ดํธ
- SOTA ์ฑ๋ฅ: ์๋ฎฌ๋ ์ด์
(Habitat) ๋ฐ ์ค์ ํ๊ฒฝ(ํ์ค ์ธ๊ณ) ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ด๊ณผํ๋ ์ฑ๋ฅ ๋ฌ์ฑ
- ํจ์จ์ฑ ๊ฐ์ : ๊ณผ๊ฑฐ ํ๋ ์ ์ ์ฅ ๋์ ASM์ ์ฌ์ฉํ์ฌ ์ ์ฅ ์ฉ๋ ๋ฐ ๊ณ์ฐ ์ค๋ฒํค๋ ๊ฐ์
- ์ฌํ์ฑ ๊ธฐ์ฌ: 1 Million step-wise ์ํ, ASM ์์ฑ ์ฝ๋, ๋ฐ์ดํฐ์
๊ณต๊ฐ ์ฝ์
How
Figure 3: ASM Generation Process. Semantic map generation starts with episode initialization. At each timestep,
- RGB-D ์ด๋ฏธ์ง์ depth ์ ๋ณด๋ฅผ 3D point cloud๋ก ๋ณํ
- Semantic segmentation์ point cloud์ ์ ๋ ฌํ์ฌ ๊ฐ์ฒด ๋ง์คํน ์ํ
- ๋ง์คํน๋ ๊ฐ์ฒด ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก top-down semantic map ์์ฑ ๋ฐ ๊ฐ timestep์์ ์
๋ฐ์ดํธ
- ํต์ฌ ์์ญ๊ณผ ์ถ์์ ์๋ฉํฑ ๊ฐ๋
์ ๋ช
์์ ํ
์คํธ ๋ผ๋ฒจ ์ถ๊ฐํ์ฌ ASM ์์ฑ
- ํ์ฌ RGB observation, ASM, ์ฌ์ฉ์ instruction์ frozen VLM์ multi-modal projector๋ฅผ ํตํด ์
๋ ฅ
- VLM์ end-to-end ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ move forward, turn left, turn right, stop ๋ฑ์ navigation actions ์์ฑ
Originality
- ๊ธฐ์กด semantic maps๊ณผ ๋ฌ๋ฆฌ VLM์ด ์ง์ ํด์ ๊ฐ๋ฅํ๋๋ก ๋ช
์์ ํ
์คํธ ์ฃผ์์ ํตํฉํ ASM ๊ฐ๋
์ ์ฐฝ์
- VLN์์ historical frames์ ์์ ํ ๋์ฒดํ๋ ์๋ก์ด ๋ฉ๋ชจ๋ฆฌ ํํ ํจ๋ฌ๋ค์ ์ ์
- ASM ์์ฑ ํ์ดํ๋ผ์ธ๊ณผ 1 Million step-wise ๋ฐ์ดํฐ์
์ ๊ณต๊ฐ๋ฅผ ํตํด ํ๋์ ๋ํ ์ฒด๊ณ์ ๊ธฐ์ฌ
- top-down ์๊ฐ๊ณผ ํ
์คํธ ๋ผ๋ฒจ์ ์กฐํฉ์ผ๋ก VLM์ ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ๋ฉํฐ๋ชจ๋ฌ ํตํฉ ๋ฐฉ์
Limitation & Further Study
- ASM ์์ฑ ๊ณผ์ ์์ semantic segmentation ๋ชจ๋ธ์ ์ ํ๋์ ์์กดํ๋ฏ๋ก, ์ธ๊ทธ๋ฉํ
์ด์
์ค๋ฅ๊ฐ ๋์ ๋ ์ ์์
- ํ
์คํธ ๋ผ๋ฒจ ์์ฑ ๊ณผ์ ์ ์๋ํ ์ ๋์ ๋ผ๋ฒจ ํ์ง์ด ๋ช
ํํ ์ค๋ช
๋์ง ์์
- ์ค์ ํ๊ฒฝ ํ
์คํธ์์์ ๊ตฌ์ฒด์ ๊ฒฐ๊ณผ๊ฐ๊ณผ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ๊ณผ์ ์ฑ๋ฅ ๊ฒฉ์ฐจ ๋น๊ต ๋ถ์กฑ
- ๋ค์ํ VLM ๋ฐฑ๋ณธ(GPT-4V, LLaVA ๋ฑ)์ ๋ํ ํ๊ฐ ๋ฐ ๋น๊ต ๊ฒฐ๊ณผ๊ฐ ์ ํ์
- ํ์ ์ฐ๊ตฌ: ASM ์์ฑ์ ์๋ํ ๋ฐ ์ค๋ฅ ๋ณต์๋ ฅ ๊ฐ์ , ๋์ ํ๊ฒฝ์ ๋ํ ์ค์๊ฐ ์
๋ฐ์ดํธ ๋ฉ์ปค๋์ฆ ๊ฐํ, cross-domain ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฒ์ฆ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: MapNav๋ Annotated Semantic Map์ด๋ผ๋ ํ์ ์ ๋ฉ๋ชจ๋ฆฌ ํํ์ ํตํด VLN์ ํจ์จ์ฑ๊ณผ ๊ตฌ์กฐํ๋ ๊ณต๊ฐ ์ดํด๋ฅผ ๋์์ ๋ฌ์ฑํ ๊ฒฌ๊ณ ํ ์ฐ๊ตฌ์ด๋ค. SOTA ์ฑ๋ฅ ๋ฌ์ฑ๊ณผ ๋ฐ์ดํฐ์
๊ณต๊ฐ ์ฝ์์ผ๋ก ์์ฒดAI ์ปค๋ฎค๋ํฐ์ ์ค์ง์ ์ธ ๊ธฐ์ฌ๋ฅผ ์ ์ํ๋ฉฐ, VLN ๋ถ์ผ์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์