Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation
์ ์: Meng Wei, Chenyang Wan, Jiaqi Peng, Xiqian Yu, Yuqiang Yang, Delin Feng, Wenzhe Cai, Chenming Zhu, Tai Wang, Jiangmiao Pang, Xihui Liu | ๋ ์ง: 2025-12-09 | URL: https://arxiv.org/abs/2512.08186 📄 PDF
Essence
Figure 1: The proposed dual-system framework decouples high-level reasoning from low-level con-
DualVLN์ Vision-Language Navigation์ ์ํด ๊ณ ์์ค ์ถ๋ก (System 2)๊ณผ ์ ์์ค ์ ์ด(System 1)๋ฅผ ๋ถ๋ฆฌํ ์ต์ด์ dual-system foundation model์ผ๋ก, VLM ๊ธฐ๋ฐ global planner์ Diffusion Transformer ๊ธฐ๋ฐ policy์ ๋น๋๊ธฐ ํ๋ ฅ์ ํตํด ์ค์๊ฐ ์ ์ด์ ๋์ ์ฅ์ ๋ฌผ ํํผ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Motivation
- Known: ์ต๊ทผ VLM๋ค์ด VLN ๋ถ์ผ์ generalization์ ๊ฐ์ ํ์ผ๋, ๊ธฐ์กด end-to-end ๋ฐฉ์์ vision-language ์
๋ ฅ์ ์ง์ ๋จ๊ธฐ ์ด์ฐ ํ๋์ผ๋ก ๋งคํํ์ฌ ๋จํธ์ ์์ง์, ๋์ ์ง์ฐ์๊ฐ, ๋์ ์ฅ์ ๋ฌผ ํํผ ์ด๋ ค์ ๋ฑ์ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ๋ค.
- Gap: ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ vision-language ์ถ๋ก , global planning, local control์ ๋จ์ผ ํ์ดํ๋ผ์ธ์ ๊ฒฐํฉํ์ฌ ๊ณ์ธต์ ์์ฌ๊ฒฐ์ ์ ๋ช
์์ ์กฐ์จ์ด ๋ถ์กฑํ๊ณ , ์ค์๊ฐ ์ ์ด์ agile control์ด ์ ํ๋๋ค.
- Why: ์ค์ธ๊ณ ๋ก๋ด ๋ฐฐํฌ์์๋ ๋ถ๋๋ฌ์ด ๊ถค์ ์์ฑ, ๋์ ์ฃผํ์ ์ ์ด, ๋์ ํ๊ฒฝ ์ ์์ด ํ์์ ์ด๋ฏ๋ก, ์ถ๋ก ๊ณผ ์ ์ด์ explicit decoupling์ ํตํด ๊ฐ ๋ชจ๋์ด specializationํ ์ ์๋ ๊ตฌ์กฐ๊ฐ ์ค์ํ๋ค.
- Approach: System 2๋ VLM(Qwen-VL-2.5)์ ํตํด image-grounded pixel goal์ ์์ธกํ๊ณ , System 1์ lightweight Diffusion Transformer policy๋ก pixel goal๊ณผ latent goal features๋ฅผ ํ์ฉํ์ฌ smooth trajectory๋ฅผ ์์ฑํ๋ ๋น๋๊ธฐ ๊ตฌ์กฐ๋ฅผ ์ฑํํ๋ค.
Achievement
Figure 1: The proposed dual-system framework decouples high-level reasoning from low-level con-
- State-of-the-art ๋ฒค์น๋งํฌ ์ฑ๋ฅ: VLN-CE์ VLN-PE ๋ฒค์น๋งํฌ์์ ๋ชจ๋ ๊ธฐ์กด ๋ฐฉ๋ฒ์ ์ํํ๋ ์ฑ๋ฅ ๋ฌ์ฑ (VLN-CE์์ 64.3%)
- ์ค์๊ฐ ์ ์ด ๋ฐ ๋์ ํํผ: 30Hz๋ก ์๋ํ๋ System 1์ด 200Hz low-level controller์ ํ๋ ฅํ์ฌ ์ค์๊ฐ ์ฅ์ ๋ฌผ ํํผ ๊ฐ๋ฅ
- Long-horizon planning๊ณผ generalization: ์ค์ธ๊ณ ๋ก๋ด ์คํ์์ robust long-horizon instruction following๊ณผ unseen ํ๊ฒฝ์ ๋ํ strong generalization ์
์ฆ
- ์ฌํ์ ์ธ์ ๋ค๋น๊ฒ์ด์
: ์ฒซ Social-VLN ๋ฒค์น๋งํฌ ๋์
์ผ๋ก humanoid agent์์ ์ํธ์์ฉ ์ task recovery ๋ฅ๋ ฅ ํ๊ฐ
- ํจ์จ์ decoupled training: System 2์ generalization์ ๋ณด์กดํ๋ฉด์ System 1์ ์ ์์ค goal reaching ๋ฐ์ดํฐ๋ง์ผ๋ก ํ์ต ๊ฐ๋ฅ
How
Figure 2: Overview of DualVLN. System 2 takes as input a sequence of egocentric images and the
- System 2: Qwen-VL-2.5 ๊ธฐ๋ฐ farthest pixel goal grounding์ผ๋ก mid-term waypoint ์์ธก, view adjustment action์ ํตํด occlusion ์ฒ๋ฆฌ
- System 1: Multi-modal conditioning Diffusion Transformer์ผ๋ก ํ์ฌ RGB ๊ด์ฐฐ๊ณผ latent goal embedding์ ์
๋ ฅ๋ฐ์ noised trajectory์์ ๊นจ๋ํ ๊ถค์ ์์ฑ
- Dual-goal conditioning: ๋ช
์์ pixel goal๋ก interpretability ํ๋ณดํ๊ณ , ํ์ต ๊ฐ๋ฅํ latent queries๋ฅผ ํตํด VLM์ hidden states์์ implicit goal feature ์ถ์ถ
- ๋น๋๊ธฐ inference: System 2๋ 2Hz, System 1์ 30Hz๋ก ์๋ํ์ฌ high-frequency local decision making ๊ฐ๋ฅ
- Decoupled training: System 2๋ฅผ pixel goal task๋ก ์ฌ์ ํ๋ จ ํ freezeํ๊ณ , learnable latent queries๋ฅผ prompt tuning์ผ๋ก ์ต์ ํํ์ฌ System 1 ํ์ต
Originality
- Vision-Language Navigation ๋ถ์ผ์์ ์ฒ์์ผ๋ก ๋ช
์์ dual-system architecture ๋์
์ผ๋ก, slow reasoning๊ณผ fast control์ hierarchical decoupling ์คํ
- Pixel goal๊ณผ latent goal์ ๋์์ ํ์ฉํ๋ hybrid conditioning ๋ฐฉ์์ผ๋ก, ๋ช
์์ interpretability์ ์์์ feature richness์ ์์น์์ฉ ๋ฌ์ฑ
- Asynchronous dual-frequency ์ถ๋ก (2Hz vs 30Hz) ๊ตฌ์กฐ๋ก ์ค์๊ฐ ๋์ ํ๊ฒฝ ์ ์ ๊ฐ๋ฅํ๊ฒ ํจ
- Social-VLN ๋ฒค์น๋งํฌ ์ ๊ท ๋์
์ผ๋ก humanoid agent์์ ์ํธ์์ฉ ์๋๋ฆฌ์ค์์ social awareness ํ๊ฐ
- Multiple robot platforms์์์ real-world deployment๋ฅผ ํตํด sim-to-real transfer ๊ฒ์ฆ
Limitation & Further Study
- System 2์ 2Hz ์ฃผ๊ธฐ๋ก ์ธํ planning latency๊ฐ ์กด์ฌํ๋ฏ๋ก, ๋งค์ฐ ๋น ๋ฅธ dynamic obstacle์ ๋ํ ์ฆ๊ฐ์ ๋์์ System 1์ ์์กดํ๋ trade-off ๊ตฌ์กฐ
- Latent query ํ์ต์ ์ํด ์ถ๊ฐ prompt tuning์ด ํ์ํ๋ฏ๋ก, fine-tuning ๋ฐ์ดํฐ ๋ฐ ๊ณ์ฐ ๋น์ฉ์ด ์ถ๊ฐ๋ก ๋ฐ์
- Pixel goal grounding์ ์ ํ๋๊ฐ System 1์ ์ฑ๋ฅ์ ํฌ๊ฒ ์ํฅ์ ๋ฏธ์น๋, occlusion์ด๋ ๋ณต์กํ ์ค๋ด ํ๊ฒฝ์์์ robust pixel coordinate ์์ธก ๋ฐฉ์์ด ์ ํ์
- Social-VLN ๋ฒค์น๋งํฌ๊ฐ humanoid ์์ด์ ํธ ๊ธฐ๋ฐ์ด๋ฏ๋ก, ์ค์ ์ธ๊ฐ๊ณผ์ ์ํธ์์ฉ ํ๊ฒฝ์์์ generalization ์ฌ๋ถ ๋ฏธ๊ฒ์ฆ
- ํ์ ์ฐ๊ตฌ๋ end-to-end ํ์ต์ผ๋ก System 1๊ณผ System 2์ ๋ ๊ธด๋ฐํ ์ํธ์์ฉ, semantic scene understanding์ ํตํ long-horizon planning ๊ฐ์ , ๋ฐ multiple agent ํ๊ฒฝ์์์ ํ์ฅ์ฑ ํ๊ตฌ๊ฐ ํ์ํจ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: DualVLN์ Vision-Language Navigation ๋ถ์ผ์์ VLM์ reasoning ๋ฅ๋ ฅ๊ณผ diffusion policy์ real-time control ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ๊ฒฐํฉํ ํ์ ์ ์ ๊ทผ๋ฒ์ผ๋ก, ๋ฒค์น๋งํฌ์ ์ค์ธ๊ณ ์คํ ๋ชจ๋์์ ๋ฐ์ด๋ ์ฑ๊ณผ๋ฅผ ์
์ฆํ๋ฉฐ ๋ก๋ด ๋ค๋น๊ฒ์ด์
์ ์ค์ฉ์ ๋ฐฐํฌ์ ํฐ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์