RoboTron-Nav: A Unified Framework for Embodied Navigation Integrating Perception, Planning, and Prediction
์ ์: Yufeng Zhong, Chengjian Feng, Feng Yan, Fanfan Liu, Liming Zheng, Lin Ma | ๋ ์ง: 2025-03-24 | URL: https://arxiv.org/abs/2503.18525 📄 PDF
Essence
Figure 3. Overview of RoboTron-Nav architecture. The current frame It is initially processed through 2D and 3D feature e
RoboTron-Nav๋ perception, planning, prediction์ ํตํฉํ๋ embodied navigation ํ๋ ์์ํฌ๋ก, multitask collaboration (navigation + EQA)๊ณผ adaptive 3D-aware history sampling์ ํตํด ์ธ์ด ๊ธฐ๋ฐ ์๊ฐ ๋ค๋น๊ฒ์ด์
์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
Motivation
- Known: ๊ธฐ์กด ObjectNav ๋ชจ๋ธ๋ค์ VLM์ ํ์ฉํ์ฌ ๊ฐ์ฒด ์์น ํ์
์๋ ์ฐ์ํ์ง๋ง, ๊ฒฝ๋ก ๊ณํ ์ค๋ช
๊ณผ ์ฅ๊ธฐ ๋ค๋น๊ฒ์ด์
ํจ์จ์ฑ์ด ๋จ์ด์ง๋ฉฐ, ์ฌ๋ฐฉ๋ฌธ ์์ญ์์ ๊ด์ฐฐ ์ค๋ณต์ฑ์ด ๋ฐ์ํ๋ค.
- Gap: ํ์ฌ ๋ค๋น๊ฒ์ด์
๋ชจ๋ธ์ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ๋ช
ํํ ํ์ง ๋ชปํ๊ณ , ์ฅ๊ธฐ ๋ค๋น๊ฒ์ด์
์ค ์ค๋ณต๋ historical perception์ ํจ๊ณผ์ ์ผ๋ก ๊ด๋ฆฌํ์ง ๋ชปํ๋ค.
- Why: embodied AI์ ์ ๋ขฐ์ฑ ์๋ ๋ค๋น๊ฒ์ด์
์ ์ํด์๋ ๊ฐ๋ ฅํ perception, planning, prediction ๋ฅ๋ ฅ์ด ํ์์ด๋ฉฐ, ์ฅ๊ธฐ ๋ค๋น๊ฒ์ด์
ํจ์จ์ฑ ํฅ์์ด ์ค์ ๋ก๋ด ์์ฉ์ ์ค์ํ๋ค.
- Approach: Multitask collaboration์ ํตํด navigation๊ณผ EQA ๊ณผ์ ๋ฅผ ๊ณต๋ ํ์ตํ์ฌ perception๊ณผ planning์ ๊ฐํํ๊ณ , adaptive 3D-aware history sampling์ผ๋ก spatial๊ณผ semantic ์ฐจ์์ ๊ด์ฐฐ ์ค๋ณต์ ์ต์ํํ๋ค.
Achievement
Figure 2. Top: During long-term navigation, agents may revisit
- CHORES-S ๋ฒค์น๋งํฌ SOTA: ObjectNav์์ 81.1% success rate ๋ฌ์ฑ, ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น 9% ์ ๋ ๊ฐ์
- Multitask collaboration ์ ๋ต: Navigation๊ณผ EQA ๊ณผ์ ์ ๊ณต๋ ํ์ต์ผ๋ก ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ํด์๊ฐ๋ฅ์ฑ ํฅ์
- Adaptive 3D-aware history sampling: Spatial ๋ฐ semantic ์ฐจ์์์ ๊ด์ฐฐ ์ค๋ณต์ฑ์ ์ ์ดํ์ฌ ์ฅ๊ธฐ ๋ค๋น๊ฒ์ด์
ํจ์จ์ฑ ๊ทน๋ํ
How
Figure 3. Overview of RoboTron-Nav architecture. The current frame It is initially processed through 2D and 3D feature e
- Visual encoder (UVFormer + ViT)๋ฅผ ํตํ ํ์ฌ ํ๋ ์์ 2D/3D ํน์ฑ ์ถ์ถ
- Adaptive 3D-aware history sampling: RGB ํ๋ ์์ ๊ณต๊ฐ์ ์ผ๋ก ์ธ์ ํ์ง ์๊ฑฐ๋ ๋ค๋ฅธ ์์ ์์ ์บก์ฒํ ๊ฒฝ์ฐ๋ง ์ ํจํ ๊ด์ฐฐ๋ก ์ ํ
- Position-enhanced historical features: ์์ด์ ํธ ์์น ์ ๋ณด๋ก historical semantic features๋ฅผ ๊ฐํํ์ฌ ์ค๋ณต ํ์ ๋ฐฉ์ง
- EQA ๋ฐ์ดํฐ์
ํ์ฅ: Navigation ๋ฐ์ดํฐ์
์ ๋ช
์์ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ๋ชจ๋ธ๋งํ๋ QA ์ ์ถ๊ฐ
- LLM ๊ธฐ๋ฐ multimodal fusion: ์ง์์ฌํญ๊ณผ ์๊ฐ ํน์ฑ์ LLM์ผ๋ก ์ฒ๋ฆฌํ์ฌ action๊ณผ answer ๋์ ์์ฑ
Originality
- Navigation๊ณผ EQA์ multitask collaboration์ ํตํด perception๊ณผ planning์ ๋ช
์์ ์ผ๋ก ํตํฉํ๋ novelํ ์ ๊ทผ
- 3D ๊ณต๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํ adaptive history sampling์ผ๋ก spatial-semantic ์ฐจ์์ ์ค๋ณต์ฑ์ ๋์์ ์ฒ๋ฆฌ
- Navigation ๋ฐ์ดํฐ์
์ผ๋ก๋ถํฐ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ๋ชจ๋ธ๋งํ๋ EQA ๋ฐ์ดํฐ์
์ ์๋์ผ๋ก ๊ตฌ์ถํ๋ ๋ฐฉ๋ฒ๋ก
- Position-enhanced features๋ฅผ ํตํด trajectory ์ ๋ณด๋ฅผ historical perception์ ์ง์ ํตํฉํ๋ ์ค๊ณ
Limitation & Further Study
- EQA ๋ฐ์ดํฐ์
๊ตฌ์ถ ๋ฐฉ๋ฒ์ ์์ธํ ๊ฒ์ฆ์ด ๋ถ์กฑํ๋ฉฐ, ์์ฑ๋ QA ์์ ํ์ง ํ๊ฐ ์งํ ๋ถ์ฌ
- Adaptive sampling ์ ๋ต์ด ๋ชจ๋ ํ๊ฒฝ ํน์ฑ์ ์ต์ ์ผ์ง ๋ถ๋ช
ํํ๋ฉฐ, ์๋ก ๋ค๋ฅธ ๋ฒค์น๋งํฌ์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ ๋ถ์ ํ์
- LLM์ ๊ณ์ฐ ๋น์ฉ ๋ฐ ์ถ๋ก ์๊ฐ์ ๋ํ ๋ถ์์ด ์ ์๋์ง ์์ ์ค์๊ฐ ๋ก๋ด ์์ฉ ๊ฐ๋ฅ์ฑ ํ๊ฐ ๊ณค๋
- 3D reconstruction ์ ํ๋ ์ ํ ์ํฉ์์์ ์์คํ
๊ฐ๊ฑด์ฑ ํ
์คํธ ํ์
- ํ์ ์ฐ๊ตฌ: ๋ค์ํ ํ๊ฒฝ ํน์ฑ์ ๋ง๋ ์ ์ํ history sampling ํ๋ผ๋ฏธํฐ ์ต์ ํ, lightweight LLM ํ์ฉ ๋ฐฉ์ ํ์, ์ค์ ๋ก๋ด ํ๋ซํผ์์์ ๊ฒ์ฆ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: RoboTron-Nav๋ multitask collaboration๊ณผ adaptive history sampling์ด๋ผ๋ ๋ ๊ฐ์ง ํ์ ์ ๊ตฌ์ฑ์์๋ฅผ ํตํด embodied navigation์ ํด์๊ฐ๋ฅ์ฑ๊ณผ ํจ์จ์ฑ์ ๋์์ ๊ฐ์ ํ๋ฉฐ, SOTA ์ฑ๋ฅ ๋ฌ์ฑ์ผ๋ก ์ค์ฉ์ ๊ฐ์น๊ฐ ๋๋ค. ๋ค๋ง ๋ฐ์ดํฐ์
๊ตฌ์ถ ๋ฐฉ๋ฒ๋ก ๊ณผ ์ค์๊ฐ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์