JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation
์ ์: Shuang Zeng, Dekang Qi, Xinyuan Chang, Feng Xiong, Shichao Xie, Xiaolong Wu, Shiyi Liang, Mu Xu, Xing Wei, Ning Guo | ๋ ์ง: 2025-09-26 | URL: https://arxiv.org/abs/2509.22548 📄 PDF
Essence
Figure 1: JanusVLN, using RGB-only video, decouples visual semantics and spatial geometry to
JanusVLN์ ์๊ฐ-์ธ์ด ๋ค๋น๊ฒ์ด์
์์ spatial-geometric๊ณผ visual-semantic ์ ๋ณด๋ฅผ ๋ถ๋ฆฌํ์ฌ dual implicit neural memory๋ก ๋ชจ๋ธ๋งํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. 3D ๊ธฐํํ์ ์ ํ ์ง์๊ณผ MLLM์ ์๋ฏธ๋ก ์ ์ดํด๋ฅผ ๊ฒฐํฉํ์ฌ ํจ์จ์ ์ด๊ณ ๊ณต๊ฐ ์ธ์์ ์ธ ์์ด์ ํธ ๋ค๋น๊ฒ์ด์
์ ์คํํ๋ค.
Motivation
- Known: ์ต๊ทผ VLN ๋ฐฉ๋ฒ๋ค์ MLLM์ ๊ฐ๋ ฅํ ์๋ฏธ๋ก ์ ์ดํด๋ฅผ ํ์ฉํ๊ณ ์์ผ๋ฉฐ, explicit semantic memory(ํ
์คํธ ์ธ์ง ๋งต, ๊ณผ๊ฑฐ ํ๋ ์ ์ ์ฅ)๋ฅผ ๊ตฌ์ถํด์๋ค. ๊ทธ๋ฌ๋ 2D image-text ์์ผ๋ก ์ฌ์ ํ์ต๋ CLIP ๊ธฐ๋ฐ ์ธ์ฝ๋๋ 3D ๊ธฐํํ์ ๊ตฌ์กฐ์ ๊ณต๊ฐ ์ ๋ณด ์ดํด์ ๋ถ์กฑํ๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๊ณต๊ฐ ์ ๋ณด ์์ค, ๊ณ์ฐ ์ค๋ณต, ๋ฉ๋ชจ๋ฆฌ ํฝ์ฐฝ ๋ฌธ์ ๋ก ์ธํด ํจ์จ์ ๋ค๋น๊ฒ์ด์
์ด ์ด๋ ต๊ณ , ๋ช
์์ ๋ฉ๋ชจ๋ฆฌ๋ ๊ถค์ ๊ธธ์ด์ ๋ฐ๋ผ ์ง์์ ์ผ๋ก ์ฆ๊ฐํ์ฌ ์ค์ ์ ๋ณด ์ถ์ถ์ ๋ฐฉํดํ๋ค. ๋ํ 2D ์๊ฐ ์ธ์ฝ๋๋ก๋ 3D ๊ธฐํํ์ ๊ตฌ์กฐ์ ๊ณต๊ฐ ๊ด๊ณ๋ฅผ ์ ์ ํ ํฌ์ฐฉํ ์ ์๋ค.
- Why: ํจ์จ์ ์ด๊ณ ๊ณต๊ฐ ์ธ์์ ์ธ ๋ค๋น๊ฒ์ด์
์ ์ํด์๋ ์๋ฏธ๋ก ์ ์ดํด์ ๊ธฐํํ์ ๊ณต๊ฐ ์ธ์์ ๋์์ ์ฒ๋ฆฌํ๋ ๊ฒ์ด ํ์์ ์ด๋ค. RGB-only ์
๋ ฅ๋ง์ผ๋ก๋ 3D ๊ณต๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํ๋ฉด ์ค์ ๋ก๋ด ๋ฐฐํฌ ์ ํ๋์จ์ด ์์กด์ฑ์ ์ค์ผ ์ ์๋ค.
- Approach: ์ธ๊ฐ ๋์ ๋ฐ๊ตฌ ํนํ(์ข๋ ์๋ฏธ๋ก , ์ฐ๋ ๊ณต๊ฐ ์ธ์)์ ์๊ฐ๋ฐ์, 3D visual geometry foundation model(VGGT)๋ก๋ถํฐ spatial-geometric ์ ๋ณด๋ฅผ ์ถ์ถํ๊ณ , MLLM์ visual encoder๋ก๋ถํฐ visual-semantic ์ ๋ณด๋ฅผ ์ถ์ถํ๋ค. ๋ ์ธ์ฝ๋์ key-value ์บ์๋ฅผ fixed-size dual implicit memory๋ก ๊ตฌ์ฑํ๊ณ , initial window์ sliding window ๋ฐฉ์์ผ๋ก ํจ์จ์ ์ผ๋ก ์
๋ฐ์ดํธํ๋ค.
Achievement
Figure 1: JanusVLN, using RGB-only video, decouples visual semantics and spatial geometry to
- SOTA ์ฑ๋ฅ ๋ฌ์ฑ: VLN-CE ๋ฒค์น๋งํฌ์์ 20๊ฐ ์ด์์ ์ต๊ทผ ๋ฐฉ๋ฒ์ ๋ฅ๊ฐํ๋ฉฐ, ๋ค์ค ๋ฐ์ดํฐํ์
์ฌ์ฉ ๋ฐฉ๋ฒ ๋๋น 10.5-35.5%, RGB๋ง ์ฌ์ฉํ๋ฉด์๋ ๋ ๋ง์ ํ๋ จ ๋ฐ์ดํฐ ์ฌ์ฉ ๋ฐฉ๋ฒ ๋๋น 3.6-10.8% ์ฑ๊ณต๋ฅ ํฅ์
- ๊ณ์ฐ ํจ์จ์ฑ: ์ด๊ธฐ ๋ฐ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ๋ฐฉ์์ผ๋ก ์ค๋ณต ๊ณ์ฐ์ ์ ๊ฑฐํ๊ณ ํจ์จ์ ์ธ incremental update ์คํ
- ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ: fixed-size neural representation์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ํฌ๊ธฐ๊ฐ ๊ถค์ ๊ธธ์ด์ ๋ฐ๋ผ ์ฆ๊ฐํ์ง ์์
- 3D ๊ณต๊ฐ ์ดํด ํฅ์: RGB-only ์
๋ ฅ์์ 3D spatial cues(์๊ทผ, occlusion, ๊ธฐํํ์ ๊ตฌ์กฐ)๋ฅผ ํ์ฉํ์ฌ ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐํ
- ๋ณด์กฐ ๋ฐ์ดํฐ ๋ถํ์: depth๋ point cloud ๊ฐ์ ๋ณ๋์ 3D ๋ฐ์ดํฐ ์์ด๋ 3D ๊ธฐํํ์ ์ ๋ณด ์ถ์ถ ๊ฐ๋ฅ
How
Figure 2: The framework of JanusVLN. Given an RGB-only video stream and navigation instruc-
- 3D visual geometry foundation model(VGGT)์ ํตํด RGB๋ก๋ถํฐ depth์ point cloud ์ ๋ณด ์ถ์ถ
- MLLM์ visual semantic encoder์ VGGT์ spatial geometric encoder๋ก๋ถํฐ ๊ฐ๊ฐ key-value ์บ์ ์ถ์ถ
- dual implicit memory๋ฅผ initial window์ sliding window๋ก ๊ตฌ์ฑํ์ฌ historical information์ compactํ๊ฒ ์ ์ง
- attention fusion mechanism์ผ๋ก spatial-geometric๊ณผ visual-semantic ์ ๋ณด๋ฅผ ํตํฉ
- ๋งค ์๋ก์ด ํ๋ ์์์ ๊ณผ๊ฑฐ ํ๋ ์ ์ฌ๊ณ์ฐ ์์ด incremental update ์ํ
- fixed-size neural representation์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ํฌ๊ธฐ ์ ์ด
Originality
- VLN ์ฐ๊ตฌ์์ ์ฒ์์ผ๋ก dual implicit memory ํจ๋ฌ๋ค์ ์ ์ โ ๊ธฐ์กด์ single explicit memory์์ ๊ทผ๋ณธ์ ์ ํ
- ์ธ๊ฐ ๋์ ๋ฐ๊ตฌ ํนํ ๊ฐ๋
์ VLN์ ์ ์ฉํ ์๋ฌผํ์ ์ผ๋ก ์๊ฐ๋ฐ์ ์ํคํ
์ฒ
- streaming VLN์์ spatial geometric foundation model(VGGT)์ potential์ ํ์ฉํ๊ธฐ ์ํด dual-window์ attention fusion ๋ฉ์ปค๋์ฆ ๊ตฌํ
- RGB-only ์
๋ ฅ์์ auxiliary 3D ๋ฐ์ดํฐ ์์ด๋ 3D ๊ธฐํํ์ ์ ๋ณด๋ฅผ implicitํ๊ฒ ํ์ฉํ๋ ๋ฐฉ๋ฒ๋ก
- KV ์บ์ ๊ธฐ๋ฐ implicit memory๋ฅผ ํตํด ๊ณ์ฐ ์ค๋ณต ์ ๊ฑฐ์ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ ๋์์ ๋ฌ์ฑ
Limitation & Further Study
- VGGT์ 3D ์ถ์ ์ ํ๋์ ์์กดํ๋ฏ๋ก, ๋ณต์กํ ๊ธฐํํ์ ๊ตฌ์กฐ๋ ๊ทน๋จ์ ์กฐ๋ช
์กฐ๊ฑด์์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- sliding window ํฌ๊ธฐ ์ค์ ์ด ๋ฉ๋ชจ๋ฆฌ-์ฑ๋ฅ ํธ๋ ์ด๋์คํ์ ์ํฅ์ ๋ฏธ์น๋๋ฐ, ์ต์ ์ค์ ์ ๋ํ ์์ธ ๋ถ์ ๋ถ์กฑ
- ํ์ฌ single front RGB camera์๋ง ์ด์ ์ ๋ง์ถ๊ณ ์์ด, ๋ค์ค ์นด๋ฉ๋ผ ์ค์ ์ ๋ํ ํ์ฅ์ฑ ๊ฒํ ํ์
- real-world ๋ก๋ด ํ๊ฒฝ์์์ ์ค์ ๋ฐฐํฌ ์คํ ์ ํ์ (์๋ฎฌ๋ ์ดํฐ ์ค์ฌ ํ๊ฐ)
- ํ์ ์ฐ๊ตฌ๋ก visual-semantic๊ณผ spatial-geometric ์ ๋ณด์ ๋ ๊น์ ํตํฉ ๋ฉ์ปค๋์ฆ ํ์ ๊ฐ๋ฅ
- ์ถ๊ฐ์ ์ธ embodied AI ์์
(manipulation, interaction)์ผ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ ๊ฒํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: JanusVLN์ VLN ๋ถ์ผ์์ implicit dual memory ํจ๋ฌ๋ค์์ ๋์
ํ์ฌ ์๋ฏธ๋ก ์ ์ดํด์ 3D ๊ณต๊ฐ ์ธ์์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ ํ์ ์ ์ธ ์ฐ๊ตฌ์ด๋ค. RGB-only ์
๋ ฅ์ผ๋ก SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉด์๋ ๊ณ์ฐ ํจ์จ์ฑ๊ณผ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ ๋ชจ๋ ํ๋ณดํ์ฌ ํฅํ embodied AI ์ฐ๊ตฌ์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์