VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation
๐ง Audio Overview ์์ฑ
์ ์ : Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Qiwei Du, Zhuoqun Chen, Bowen Li, Chen Wang | ๋ ์ง : 2025-02-02 | URL : https://arxiv.org/abs/2502.00931 📄 PDF
Essence
Fig. 2: System pipeline overview.Complex tasks are de-
VL-Nav๋ ์ ๊ฒฝ-๊ธฐํธ ์ ๊ทผ๋ฒ(NeSy)์ ํตํด ๋ณต์กํ ์ธ๊ฐ ์ง์์ ๋ฐ๋ผ ๋ฏธ์ง์ ๋๊ท๋ชจ ํ๊ฒฝ์ ํ์ํ๋ ๋ก๋ด ๋ค๋น๊ฒ์ด์
์์คํ
์ผ๋ก, VLM์ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ๊ธฐํธ์ ์๋ด๋ฅผ ๊ฒฐํฉํ๋ค.
Motivation
Known : ๊ธฐ์กด end-to-end ํ์ต์ ๋ฐ์ดํฐ ๋ถ์กฑ๊ณผ sim2real ์ ์ด ๋ฌธ์ ๊ฐ ์์ผ๋ฉฐ, foundation model ๊ธฐ๋ฐ ๋ชจ๋ํ ๋ฐฉ๋ฒ๋ค์ ๋ช
์์ ๋จ์ผ ๋ชฉํ ํ์์๋ ํจ๊ณผ์ ์ด์ง๋ง ์ถ์์ ๋ค์ค ๋ชฉํ ์ถ๋ก ์ด ๋ถ์กฑํ๋ค.
Gap : ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ณต์กํ ๋ค์ค ๋ชฉํ ์์
์ ๋ถํดํ์ง ๋ชปํ๊ณ ํจ์จ์ ์ธ ํ์ ์ ๋ต์ด ๋ถ์กฑํ์ฌ, ๋ก๋ด์ด ๋ชฉํ ์์ด ๋ฐฉํฉํ๊ฑฐ๋ ์๋ชป๋ ๊ฐ์ฒด๋ฅผ ์ธ์ํ๋ ๋ฌธ์ ๊ฐ ์๋ค.
Why : ์์จ ์ด๋ ๋ก๋ด์ด ๋ณต์กํ ์ถ์์ ์ง์(์: ๋น๊ฐ ๋ด๋ฆฌ๋ฏ๋ก ๋ฐฉ์ ์๋ฅ ์ฐพ๊ธฐ)๋ฅผ ์ดํดํ๊ณ ๋๊ท๋ชจ ํ๊ฒฝ์์ ํจ์จ์ ์ผ๋ก ํ์ํ ์ ์์ด์ผ ์ค์ ์์ฉ์ด ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ด๋ค.
Approach : VL-Nav๋ NeSy Task Planner๋ก VLM์ ์ถ๋ก ์ 3D scene graph์ image memory์ ๊ธฐํธ์ ๋ฉ๋ชจ๋ฆฌ์ ๊ธฐ๋ฐํ๊ฒ ํ๊ณ , NeSy Exploration System์ผ๋ก ์ ๊ฒฝ ๊ธฐ๋ฐ ์๋ฏธ ์ ๋ณด์ ๊ธฐํธ์ ํด๋ฆฌ์คํฑ ํจ์๋ฅผ ๊ฒฐํฉํ์ฌ ํจ์จ์ ํ์์ ์ํํ๋ค.
Achievement
Fig. 1: Given the complex instruction, VL-Nav autonomously
DARPA TIAMAT Challenge ์ฑ๊ณผ : ์ค๋ด ํ๊ฒฝ 83.4%, ์ค์ธ ํ๊ฒฝ 75% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
์ค์ ๋ก๋ด ๋ฐฐํฌ : 4๊ฐ ๋ค์ํ ํ๊ฒฝ์์ 86.3% ์ฑ๊ณต๋ฅ , 483๋ฏธํฐ ์ฅ๊ฑฐ๋ฆฌ ์ฃผํ ํฌํจ
๋ค์ธต ๊ฑด๋ฌผ ๋ณต์ก ์์
: 3D ๋ค์ธต ์๋๋ฆฌ์ค์์ ๋ณต์กํ ์ง์ ์ฒ๋ฆฌ ๊ฒ์ฆ
์ผ๋ฐํ ๋ฅ๋ ฅ : ์ค๋ด ํ์ ํ๊ฒฝ์์ ๋น์ ํ ์ค์ธ ํ๊ฒฝ๊น์ง ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ์
์ฆ
How
Fig. 2: System pipeline overview.Complex tasks are de-
NeSy Task Planner: ์ถ์์ ๋ค์ค ๋ชฉํ ์ง์๋ฅผ ์์์ ๋ถ์์
์ผ๋ก ๋ถํดํ๊ณ , ํ์ ๋ถ์์
๋๋ ๋ชฉํ ์ง์ ์ด๋ ๋ถ์์
์ ๋์ ์ผ๋ก ๋ฐํ
3D Scene Graph: ํ๊ฒฝ์ ๊ธฐํํ์ ๋ฐ ์๋ฏธ๋ก ์ ์ ๋ณด๋ฅผ ์ ์ฅํ์ฌ VLM ์ถ๋ก ์ ์ ํ์ฑ ํฅ์
Image Memory System: ๊ณผ๊ฑฐ ํ์ ๊ธฐ๋ก์ ์ ์งํ์ฌ VLM์ด ๋ฐฉ๋ฌธ ์ด๋ ฅ์ ๊ธฐ๋ฐ์ผ๋ก ์์ฌ๊ฒฐ์
NeSy Exploration System: lightweight VLM์ ์๋ฏธ๋ก ์ ๋จ์์ frontier-based ํด๋ฆฌ์คํฑ์ ๊ฒฐํฉ
VL Scoring: pixel-wise ์ ์๋ก ์์
๊ด๋ จ ์์ญ์ ์ฐ์ ์์ํํ์ฌ ๋ถํ์ํ ๋ฐ๋ณต ์ด๋ ์ต์ํ
Path Planner: ์ฅ์ ๋ฌผ ํํผ ๋ฐ ๋ชฉํ ์ง์ ๋๋ฌ์ ์ํ ๊ฒฝ๋ก ๊ณํ
Originality
์ ๊ฒฝ-๊ธฐํธ ํตํฉ์ ์๋ก์ด ๊ตฌํ: VLM์ ์ ๊ฒฝ ์ถ๋ก ๋ฅ๋ ฅ์ 3D scene graph์ image memory์ ๊ธฐํธ์ ๋ฉ๋ชจ๋ฆฌ์ ๋ช
์์ ์ผ๋ก ๊ธฐ๋ฐํ๊ฒ ํจ์ผ๋ก์จ ์ถ๋ก ์ ์ ๋ขฐ์ฑ ํฅ์
์ถ์์ ๋ค์ค ๋ชฉํ ์ถ๋ก : ๋จ์ ๊ฐ์ฒด ๊ฒ์์ ๋์ด ์๋ฏธ๋ก ์ ์ถ๋ก (์: ๋ ์จ โ ์๋ฅ ํ์
)์ ํตํ ๋ณต์กํ ์์
ํด์
ํจ์จ์ ํ์ ์ ๋ต์ ์ ๊ฒฝ-๊ธฐํธ ๊ฒฐํฉ: semantic cue์ geometric frontier๋ฅผ ํตํฉํ VL Scoring์ผ๋ก ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์ฐ์ํ ํ์ ํจ์จ์ฑ
์ค์ ๋ก๋ด ๊ฒ์ฆ: ์๋ฎฌ๋ ์ด์
๋ฟ ์๋๋ผ ๋ค์ํ ์ค์ ํ๊ฒฝ์์์ ๊ด๋ฒ์ํ ๋ฐฐํฌ ๋ฐ ํ๊ฐ
Limitation & Further Study
๊ณ์ฐ ๋ณต์ก๋: NeSy Task Planner์ VL Module์ ์ง์์ ๋์์ด ์ ํ๋ ์์ ํ๊ฒฝ์์ ๋ณ๋ชฉ์ด ๋ ์ ์์ผ๋ฉฐ, ๊ฒฝ๋ํ ๋ฐฉ์ ์ถ๊ฐ ์ฐ๊ตฌ ํ์
Scene Graph ๊ตฌ์ฑ: ์ด๊ธฐ scene graph ๊ตฌ์ถ๊ณผ ์ ์ง ๋ณด์์ ์ ๋ขฐ์ฑ์ ๋ฐ๋ผ ์์คํ
์ฑ๋ฅ์ด ํฌ๊ฒ ์ํฅ์ ๋ฐ์ผ๋ฏ๋ก, ๋ ๊ฐ๊ฑดํ ๊ทธ๋ํ ์์ฑ ๋ฐฉ๋ฒ ํ์
์ค์ธ ํ๊ฒฝ ์ฑ๋ฅ: ์ค์ธ ํ๊ฒฝ์์ 75% ์ฑ๊ณต๋ฅ ๋ก ์ค๋ด 83.4%๋ณด๋ค ๋ฎ์ผ๋ฏ๋ก, ์ผ์ธ ๋ค์ํ ์กฐ๊ฑด(๋ ์จ, ์กฐ๋ช
๋ณํ)์ ๋ํ ๊ฐ๊ฑด์ฑ ๊ฐ์ ํ์
์ผ๋ฐํ ํ๊ณ: DARPA TIAMAT ๊ณผ์ ํนํ๋ ์์คํ
์ผ๋ก, ๋ค๋ฅธ ๋๋ฉ์ธ์ ๋ณต์กํ ์ง์์ ๋ํ ์ ์์ฑ ๊ฒ์ฆ ํ์
์ฅ๊ฑฐ๋ฆฌ ๋์ ์ค์ฐจ: SLAM ๊ธฐ๋ฐ์ ๋์ ์์น ์ค์ฐจ๊ฐ ๋งค์ฐ ์ฅ๊ฑฐ๋ฆฌ ํ์์์ ๋ฌธ์ ๊ฐ ๋ ์ ์์ผ๋ฏ๋ก, Loop Closure ๋๋ Global Relocalization ๊ฐํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : VL-Nav๋ ์ ๊ฒฝ-๊ธฐํธ ํตํฉ์ ํตํด ๋ณต์กํ ์ถ์์ ์ง์ ๊ธฐ๋ฐ ๋ก๋ด ๋ค๋น๊ฒ์ด์
์ ์ค์ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ฉฐ, DARPA TIAMAT์์์ ์ฐ์ํ ์ฑ๊ณผ์ ์ค์ ๋ก๋ด ๋ฐฐํฌ๋ฅผ ํตํด ์ค์ฉ์ฑ์ ์
์ฆํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com