SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation
์ ์: Xiangyu Shi, Zerui Li, Wenqi Lyu, Jiatong Xia, Feras Dayoub, Yanyuan Qiao, Qi Wu | ๋ ์ง: 2025-03-13 | URL: https://arxiv.org/abs/2503.10069 📄 PDF
Essence
Fig. 1. Role of our proposed waypoint predictor and backtrack mechanism.
SmartWay๋ ํฅ์๋ waypoint predictor์ MLLM ๊ธฐ๋ฐ navigator๋ฅผ ํตํฉํ zero-shot VLN-CE ํ๋ ์์ํฌ๋ก, occupancy-aware loss์ history-aware reasoning, backtracking ๋ฉ์ปค๋์ฆ์ ํตํด ์ฐ์ ํ๊ฒฝ์์์ ๋ค๋น๊ฒ์ด์
์ฑ๋ฅ์ ๊ฐ์ ํ๋ค.
Motivation
- Known: VLN-CE๋ waypoint predictor์ navigator์ two-stage ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ๋ฉฐ, ๊ธฐ์กด waypoint predictor๋ ResNet-50 ์ธ์ฝ๋์ ๋จ์ RGB-D ์ตํฉ์ผ๋ก ์ ํ๋ ๊ณต๊ฐ ์ธ์ ๋ฅ๋ ฅ์ ๋ณด์ธ๋ค. LLM ๊ธฐ๋ฐ ๋ค๋น๊ฒ์ด์
์ ์ด์ฐ ํ๊ฒฝ์์๋ ์ง์ ์ด ์์ผ๋ ์ฐ์ ํ๊ฒฝ์ ์ด๋ ์ ์ด์๋ ์ ํ์ ์ด๋ค.
- Gap: ๊ธฐ์กด waypoint predictor๋ ์ฝํ vision encoder์ ๋ช
์์ ํ๊ฒฝ ์ ์ฝ์ด ๋ถ์กฑํ๊ณ , ๊ธฐ์กด LLM ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ textual abstraction์ผ๋ก ์ธํด ์๊ฐ ์ ๋ณด๋ฅผ ๊ฐ์ ์ ์ผ๋ก๋ง ์ดํดํ๋ฉฐ ์ญ์ฌ ์ ๋ณด์ backtracking์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ์ง ๋ชปํ๋ค.
- Why: ์ค์ ๋ก๋ด ๋ฐฐํฌ๋ฅผ ์ํด์๋ ๋ฐ์ดํฐ ๋ถ์กฑ ํ๊ฒฝ์์๋ generalizeํ ์ ์๋ zero-shot ๋ฐฉ๋ฒ์ด ํ์ํ๋ฉฐ, backtracking ๋ฅ๋ ฅ์ ๋์ ์ค๋ฅ๋ฅผ ์ํํ์ฌ ๋ค๋น๊ฒ์ด์
์์ ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: DINOv2 vision encoder์ masked cross-attention ์ตํฉ, occupancy-aware loss๋ฅผ ํตํด waypoint predictor๋ฅผ ๊ฐํํ๊ณ , MLLM์ ๊ธฐ๋ฐ์ผ๋ก history-aware ํ๋กฌํํ
๊ณผ adaptive path planning with backtracking์ ๋์
ํ์ฌ zero-shot VLN-CE๋ฅผ ๊ตฌํํ๋ค.
Achievement
Fig. 1. Role of our proposed waypoint predictor and backtrack mechanism.
- Enhanced Waypoint Predictor: DINOv2 ์ธ์ฝ๋, masked cross-attention ๋ฉ์ปค๋์ฆ, occupancy-aware loss๋ฅผ ํตํด ๊ณต๊ฐ ์ธ์ ๋ฅ๋ ฅ๊ณผ waypoint ํ์ง์ ๊ฐ์
- MLLM ๊ธฐ๋ฐ Zero-shot ๋ค๋น๊ฒ์ด์
: History-aware Single-expert Prompt System์ผ๋ก trajectory ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ์ฌ ๋ค์ค ๋ชจ๋ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐํ
- Backtracking ๋ฉ์ปค๋์ฆ: ์๋ก์ด backtracking ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ค๋น๊ฒ์ด์
์คํจ ๊ฐ์ง ๋ฐ ๊ฒฝ๋ก ์ฌํ์์ผ๋ก ์ค๋ฅ ์ ํ ์ํ
- SOTA ์ฑ๋ฅ: R2R-CE val-unseen์์ SR 29%, SPL 22.46%๋ก ๋ชจ๋ zero-shot ๋ฐฉ๋ฒ ์ด๊ณผ, supervised ๋ฐฉ๋ฒ๊ณผ ๊ฒฝ์ ๊ฐ๋ฅํ ์ฑ๋ฅ ๋ฌ์ฑ
- Real-world Validation: Turtlebot 4์์ 25๊ฐ ๋ค์ํ instruction์ ๋ํด learning-based baseline ์ด๊ณผ ์ฑ๋ฅ ์
์ฆ
How
- Vision encoder๋ฅผ ResNet-50์์ DINOv2๋ก ๊ต์ฒดํ์ฌ ๋ ํ๋ถํ ์ฅ๋ฉด ํํ ์บก์ฒ
- RGB์ depth ํน์ฑ ๊ฐ ์ํธ์์ฉ์ ๊ฐํํ๊ธฐ ์ํด masked cross-attention ์ตํฉ ๋ฉ์ปค๋์ฆ ์ ์ฉ
- Occupancy-aware loss ํจ์๋ก ์์ธก๋ waypoint์ด ํ์ ๊ฐ๋ฅ ์์ญ๊ณผ ์ ๋ ฌ๋๋๋ก ์ ์ฝ
- MLLM (์: Claude, GPT-4V)์ multimodal ์ดํด ๋ฅ๋ ฅ ํ์ฉํ์ฌ RGB-D ์ด๋ฏธ์ง ์ง์ ์ฒ๋ฆฌ
- History-aware Single-expert Prompt System์ผ๋ก ๊ณผ๊ฑฐ trajectory, ํ์ฌ ์ด๋ฏธ์ง, instruction์ ํตํฉํ ํ๋กฌํํธ ๊ตฌ์ฑ
- Adaptive Path Planning์ผ๋ก ๋ค๋น๊ฒ์ด์
์คํจ ๊ฐ์ง ์ ์ด์ waypoint๋ก ๋์๊ฐ๋ backtracking ์คํ
- Habitat ์๋ฎฌ๋ ์ดํฐ์ R2R-CE์ MP3D ๋ฒค์น๋งํฌ์์ ํ๊ฐ
Originality
- Continuous VLN์์ MLLM์ zero-shot ๋ค๋น๊ฒ์ดํฐ๋ก ํ์ฉํ ์ต์ด ํ์
- RGB-D fusion์ ์ํ masked cross-attention ๋ฉ์ปค๋์ฆ์ novel ์ค๊ณ๋ก ๊ณต๊ฐ ์ธ์ ๊ฐ์
- Occupancy-aware loss๋ฅผ ํตํ ๋ช
์์ ํ๊ฒฝ ์ ์ฝ ๋ชจ๋ธ๋ง์ผ๋ก waypoint ํ์ง ๋ณด์ฅ
- MLLM ๊ธฐ๋ฐ VLN-CE ์์ด์ ํธ๋ฅผ ์ํ ์ฒซ ๋ฒ์งธ backtracking ๋ฉ์ปค๋์ฆ ์๊ฐ
- History-aware Single-expert Prompt System์ผ๋ก trajectory ์ ๋ณด๋ฅผ multimodal ์ปจํ
์คํธ์ ํจ๊ณผ์ ์ผ๋ก ํตํฉ
Limitation & Further Study
- Real-world ํ๊ฐ๊ฐ ์ ํ์ (Turtlebot 4์ 25๊ฐ instruction๋ง ์ํ) - ๋ ๋ค์ํ ์ค์ ํ๊ฒฝ๊ณผ ๋ก๋ด ํ๋ซํผ์์์ ๊ฒ์ฆ ํ์
- MLLM ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ inference latency์ computational cost์ ๋ํ ๋ถ์ ๋ถ์ฌ - ์ค์๊ฐ ๋ก๋ด ์ ์ด๋ฅผ ์ํ ํจ์จ์ฑ ๊ฒํ ํ์
- Backtracking ๋ฉ์ปค๋์ฆ์ iteration ํ์ ์ ํ์ด๋ ์ต๋ ํ์ ๊น์ด ์ค์ ์ ๋ํ ์์ธ ์ค๋ช
๋ถ์กฑ
- Zero-shot ์ฑ๋ฅ์ด supervised ๋ฐฉ๋ฒ์๋ ์์ง ๋ฏธ๋ฌ - ๋ ๊ฐ๋ ฅํ MLLM์ด๋ adaptation ๊ธฐ๋ฒ ํ์ ํ์
- Occupancy-aware loss์ ์ค๊ณ ์๋ฆฌ์ hyperparameter sensitivity ๋ถ์ ๋ฏธํก
- ๋ค์ํ MLLM ๋ชจ๋ธ ๊ฐ ์ฑ๋ฅ ๋น๊ต ๋ฐ ๋ชจ๋ธ ํฌ๊ธฐ์ ์ํฅ ๋ถ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: SmartWay๋ enhanced waypoint predictor์ MLLM ๊ธฐ๋ฐ ๋ค๋น๊ฒ์ดํฐ, backtracking ๋ฉ์ปค๋์ฆ์ ์ ๊ธฐ์ ๊ฒฐํฉ์ผ๋ก zero-shot VLN-CE์์ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ, ์ค์ ๋ก๋ด ๋ฐฐํฌ ๊ฐ๋ฅ์ฑ์ ์
์ฆํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง real-world ํ๊ฐ ํ๋์ computational cost ๋ถ์์ด ๋ณด์๋๋ฉด ๋์ฑ ๊ฒฌ๊ณ ํ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์