CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory
์ ์: Weichen Zhang, Chen Gao, Shiquan Yu, Ruiying Peng, Baining Zhao, Qian Zhang, Jinqiang Cui, Xinlei Chen, Yong Li | ๋ ์ง: 2025-05-08 | URL: https://arxiv.org/abs/2505.05622 📄 PDF
Essence
Figure 1: The overall workflow of CityNavAgent.
CityNavAgent๋ ๊ณ์ธต์ ์๋ฏธ ๊ณํ(HSPM)๊ณผ ์ ์ญ ๋ฉ๋ชจ๋ฆฌ ๋ชจ๋์ ํตํฉํ์ฌ ๋์ ํ๊ฒฝ์์ ๋๋ก ์ด ์์ฐ์ด ์ง์๋ฅผ ๋ฐ๋ผ ๋ค๋น๊ฒ์ด์
ํ๋ aerial VLN ์์
์ ์ํํ๋ LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ด๋ค.
Motivation
- Known: ๊ธฐ์กด ground VLN ์์ด์ ํธ๋ค์ ์ค๋ดยท์ค์ธ ํ๊ฒฝ์์ ์ข์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ผ๋, aerial VLN์ ๋ฏธ๋ฆฌ ์ ์๋ ๋ค๋น๊ฒ์ด์
๊ทธ๋ํ๊ฐ ์๊ณ ์ฅ์๊ฐ ํ์ ์ action space๊ฐ ์ง์์ ์ผ๋ก ํ์ฅ๋์ด ์ด๋ ค์์ ๊ฒช๊ณ ์๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ aerial VLN์ ๋ณต์กํ ๋์ ์ฅ๋ฉด ์ดํด(๊ณ ๋๋ณ ์๋ฏธ ๋ฐ๋ ๋ณํ)์ ์ฅ์๊ฐ motion planning์ ์ง์์ ๋ณต์ก์ฑ(m^n)์ ์ถฉ๋ถํ ํด๊ฒฐํ์ง ๋ชปํ๊ณ ์์ผ๋ฉฐ, STMR ๊ฐ์ ์ด์ ๋ฐฉ๋ฒ๋ค์ ๋์ด ์ ๋ณด๋ฅผ ํ์ฉํ์ง ์๋๋ค.
- Why: Aerial VLN์ ๋๋ก ๊ธฐ๋ฐ ๊ตฌ์กฐ ์ฌ๋ ๋์, ์ด์ก, ๋์ ๊ฒ์ฌ ๋ฑ ์ค์ ์์ฉ ๋ถ์ผ์์ ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ ๋น์ฉ์ ์ค์ด๊ณ 3D ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ์๊ตฌํ๋ ์ค์ํ embodied AI ๋ฌธ์ ์ด๋ค.
- Approach: Open-vocabulary perception module๋ก ๋์ ์ฅ๋ฉด์ ๋ณต์กํ ์๋ฏธ๋ฅผ ์ถ์ถํ๊ณ , HSPM์ผ๋ก navigation task๋ฅผ landmark-level, object-level, motion-level์ ๊ณ์ธต์ sub-goals๋ก ๋ถํดํ์ฌ action space๋ฅผ ์ถ์ํ๋ค. ์ถ๊ฐ๋ก global memory module์ด ์ญ์ฌ์ ๊ถค์ ์ topological graph์ ์ ์ฅํ์ฌ ์ฌ๋ฐฉ๋ฌธ ๋์์ ๋ค๋น๊ฒ์ด์
์ ๋จ์ํํ๋ค.
Achievement
Figure 2: CityNavAgent consists of three key modules. The open-vocabulary module extracts open-vocabulary
- Aerial VLN ๋ฒค์น๋งํฌ์์ ์ต๊ณ ์ฑ๋ฅ ๋ฌ์ฑ: ๋ ๊ฐ์ aerial VLN ๋ฒค์น๋งํฌ์์ state-of-the-art ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ณ success rate์ path following์์ ์ ์๋ฏธํ ๊ฐ์ ์ ๋ณด์๋ค.
- ์ฅ์๊ฐ ๋ค๋น๊ฒ์ด์
๋ณต์ก๋ ๊ฐ์: ๊ณ์ธต์ ์๋ฏธ ๊ณํ์ ํตํด ์ง์์ action space ๋ณต์ก๋(m^n)๋ฅผ ์ ํ์ ์ผ๋ก ์ถ์ํ๋ค.
- ๋์ด ์ ๋ณด ํตํฉ: ์ด์ STMR๊ณผ ๋ฌ๋ฆฌ 3D ๊ณต๊ฐ์ ๋์ด ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ๋ค๋น๊ฒ์ด์
์ค๋ฅ๋ฅผ ๊ฐ์์์ผฐ๋ค.
- Zero-shot ๋ค๋น๊ฒ์ด์
๊ฐ๋ฅ: LLM์ reasoning ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ๋ฏธ๋ฆฌ ์ ์๋ ๊ทธ๋ํ ์์ด zero-shot ํ๊ฒฝ์์ ๋์ํ๋ค.
How
Figure 2: CityNavAgent consists of three key modules. The open-vocabulary module extracts open-vocabulary
- Open-vocabulary perception: LLM์ ํตํ scene captioning๊ณผ prompt engineering์ผ๋ก instruction ๊ด๋ จ ๊ฐ์ฒด ์ถ์ถ, vision foundation model์ ์ด์ฉํ open-vocabulary image grounding
- Hierarchical semantic planning: Landmark-level planning์์ ์ ์ฒด ๊ฒฝ๋ก์ ์ฃผ์ landmark ์ํ์ค ๊ฒฐ์ โ Object-level planning์์ landmark ๋๋ฌ์ ์ํ ๊ฐ์ฒด ์ถ๋ก โ Motion-level planning์์ ์ต์ข
waypoint์ action sequence ์์ธก
- Global memory module: Historical trajectory๋ฅผ topological graph ํํ๋ก ์ ์ฅํ์ฌ ์ฌ๋ฐฉ๋ฌธ ๋์์ ๋ค๋น๊ฒ์ด์
์ฑ๋ฅ ํฅ์
- Planning frequency control: ์์ ๊ณํ(landmark-level)์ ๋ฎ์ ๋น๋๋ก, ํ์ ๊ณํ(motion-level)์ ๋์ ๋น๋๋ก ์ํํ์ฌ ํจ์จ์ฑ ๊ทน๋ํ
Originality
- Aerial VLN์ ํนํ๋ ๊ณ์ธต์ ์๋ฏธ ๊ณํ ํ๋ ์์ํฌ ์ ์ - ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ discrete graph ๊ธฐ๋ฐ ์ ๊ทผ๊ณผ ๋ฌ๋ฆฌ continuous 3D space์์ ๊ณ์ธต์ abstraction ๋์
- Urban environment์ ์๋ฏธ ๋ฐ๋ ๋์ ๋ณํ๋ฅผ ๋ช
์์ ์ผ๋ก ๊ณ ๋ คํ ์ค๊ณ
- Global memory๋ฅผ topological graph๋ก ํํํ์ฌ long-term navigation์์ ์ฌ์ฌ์ฉ์ฑ ์ ๊ณต
- Zero-shot LLM ๊ธฐ๋ฐ ์ ๊ทผ์ผ๋ก ์ฌ์ ํ์ต ๋ฐ์ดํฐ๋ pre-defined graph ๋ถํ์
Limitation & Further Study
- Open-vocabulary perception์ LLM captioning์ด ๋ณต์กํ ๋์ ์ฅ๋ฉด์์ ๋ชจ๋ ์๋ฏธ์๋ ๊ฐ์ฒด๋ฅผ ์ ํํ ์ถ์ถํ์ง ๋ชปํ ์ ์์
- Hierarchical planning์ ๊ฐ level ๊ฐ ์ค๋ฅ ์ ํ(error propagation) ๋ฌธ์ ๋ฏธ๋ถ์
- Global memory์ topological graph ๊ตฌ์ฑ ๋ฐฉ์๊ณผ ๋ฉ๋ชจ๋ฆฌ ์ฉ๋ ์ ํ์ ๋ํ ์์ธํ ๋
ผ์ ๋ถ์กฑ
- ์ค์ ๋๋ก ํ๋ซํผ์์์ ๊ฒ์ฆ์ด ๋ถ์ฌํ๋ฉฐ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์๋ง ํ๊ฐ๋จ
- ํ์์ฐ๊ตฌ๋ก ์๊ฐ์ ์ค๋ฅ์ ๋ํ ๊ฐ๊ฑด์ฑ ๊ฐ์ , ๋์ ๋์ ํ๊ฒฝ(๊ฑด์ค ์ค์ธ ์ง์ญ, ์ด๋ํ๋ ๊ฐ์ฒด) ์ฒ๋ฆฌ, ์ค์ ๋๋ก ๋ฐฐํฌ ์คํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: CityNavAgent๋ aerial VLN์ ๋ฏธํด๊ฒฐ ๊ณผ์ ๋ค(๋ณต์กํ ๋์ ์ฅ๋ฉด ์ดํด, ์ง์์ action space)์ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๋ ์ฐฝ์์ ์ธ ๊ณ์ธต์ ๊ณํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ๋ฒค์น๋งํฌ์์ state-of-the-art ์ฑ๋ฅ์ ๋ฌ์ฑํ ์๋ฏธ์๋ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง ์ค์ ๋๋ก ๊ฒ์ฆ๊ณผ ์ค๋ฅ ์ ํ ๋ถ์์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์