UniGoal: Towards Universal Zero-shot Goal-oriented Navigation
์ ์: Hang Yin, Xiuwei Xu, Lingqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu | ๋ ์ง: 2025-03-13 | URL: https://arxiv.org/abs/2503.10630 📄 PDF
Essence
Figure 2. Framework of UniGoal. We convert different types of goals into a uniform graph representation and maintain an
UniGoal์ object category, instance image, text description ๋ฑ ๋ค์ํ ๋ชฉํ ์ ํ์ ํต์ผ๋ graph ํํ์ผ๋ก ๋ณํํ์ฌ LLM ๊ธฐ๋ฐ์ ๋จ์ผ ๋ชจ๋ธ๋ก ์ธ ๊ฐ์ง navigation ์์
์ zero-shot์ผ๋ก ์ํํ๋ ๋ฒ์ฉ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Motivation
- Known: ๊ธฐ์กด zero-shot navigation ๋ฐฉ๋ฒ๋ค์ LLM์ ํ์ฉํ์ง๋ง ํน์ ์์
์ ํนํ๋์ด ์์ผ๋ฉฐ, ํต์ผ๋ goal ํํ์ ํ์ตํ๋ supervised universal ๋ฐฉ๋ฒ๋ค์ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ๊ณผ์ ํฉ๋์ด ์ค์ ํ๊ฒฝ์์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๋จ์ด์ง๋ค.
- Gap: vision ๊ด๋ จ ์์
(instance image goal navigation)์ ํฌํจํ๋ฉด์ ๋์์ zero-shot ์ฑ๋ฅ์ ์ ์งํ๋ ๋ฒ์ฉ navigation ํ๋ ์์ํฌ๊ฐ ๋ถ์ฌํ๋ค.
- Why: ์ค์ ๋ก๋ณดํฑ ์์ฉ์์ agent๋ ๋ค์ํ ํํ์ ์ธ๊ฐ ์ง์๋ฅผ ์ฒ๋ฆฌํด์ผ ํ๋ฏ๋ก, ๋์ versatility๋ฅผ ๊ฐ์ถ ๋จ์ผ ๋ชจ๋ธ์ ๋ฒ์ฉ navigation ๋ฐฉ๋ฒ์ด ํ์์ ์ด๋ค.
- Approach: scene๊ณผ goal์ ๋ชจ๋ graph ๊ตฌ์กฐ๋ก ํํํ๊ณ graph matching์ ํตํด matching ์ ๋๋ฅผ ํ์
ํ ํ, zero-matched/partial-matched/perfect-matched ์ธ ๋จ๊ณ์ ๋ฐ๋ผ ๋ค๋ฅธ exploration ์ ๋ต์ ์ ์ฉํ๋ multi-stage ์ ์ฑ
์ LLM์ผ๋ก ๊ตฌํํ๋ค.
Achievement
Figure 1. State-of-the-art zero-shot goal-oriented navigation meth-
- ๋ฒ์ฉ์ฑ: Object-goal Navigation, Instance-image-goal Navigation, Text-goal Navigation ์ธ ๊ฐ์ง ์๋ก ๋ค๋ฅธ navigation ์์
์ single model๋ก ์ฒ๋ฆฌ
- ์ฑ๋ฅ: MatterPort3D, HM3D, RoboTHOR ๋ฒค์น๋งํฌ์์ state-of-the-art zero-shot ์ฑ๋ฅ ๋ฌ์ฑ, task-specific zero-shot ๋ฐฉ๋ฒ๊ณผ supervised universal ๋ฐฉ๋ฒ์ ๋ฅ๊ฐ
- ๊ตฌ์กฐ์ ์ ๋ณด ๋ณด์กด: ์์ text ๋๋น graph ํํ์ ํตํด 3D scene์ ๊ตฌ์กฐ์ ์ ๋ณด๋ฅผ ์ต๋ํ ๋ณด์กดํ๋ฉด์ LLM ํ์ฉ
How
Figure 2. Framework of UniGoal. We convert different types of goals into a uniform graph representation and maintain an
- RGB-D observation์ online 3D scene graph๋ก ๋ณํ (node: ๊ฐ์ฒด, edge: ๊ณต๊ฐ ๊ด๊ณ)
- ๋ค์ํ goal ์ ํ(category, image, text)์ ํต์ผ๋ graph ํํ์ธ goal graph๋ก ๋ณํ
- ๊ฐ ์๊ฐ ๋จ๊ณ์์ scene graph์ goal graph ๊ฐ graph matching ์ํ
- Matching score์ ๋ฐ๋ผ ์ธ ๋จ๊ณ์ exploration ์ ์ฑ
์ ์ฉ: (1) Zero-matching ๋จ๊ณ์์ goal subgraph ๋ฐ๋ณต ํ์, (2) Partial-matching ๋จ๊ณ์์ coordinate projection๊ณผ anchor pair alignment๋ก goal ์์น ์ถ๋ก , (3) Perfect-matching ๋จ๊ณ์์ scene graph correction๊ณผ goal verification ์ ์ฉ
- Blacklist mechanism ๋์
์ผ๋ก ๋งค์นญ๋์ง ์์ ๋ถ๋ถ์ freezeํ๊ณ ์๋ก์ด ์์ญ ํ์ ์ ๋
- LLM์ prompt engineering์ผ๋ก ๊ฐ ๋จ๊ณ์ decision ์ํ
Originality
- Goal์ graph๋ก ํํํ๋ ๊ฒ์ด ํต์ฌ ํ์ ์ผ๋ก, ๊ธฐ์กด์ text-only ํํ ๋๋น visual goal(instance image)์ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํตํฉ
- Scene graph์ goal graph ๊ฐ์ graph matching์ ๊ธฐ๋ฐ์ผ๋ก ํ multi-stage exploration policy๋ matching ์ํ๋ฅผ ๋ช
์์ ์ผ๋ก ํ์ฉํ๋ ์๋ก์ด ์ ๊ทผ
- Blacklist mechanism์ navigation ๊ณผ์ ์์ exploration ํจ์จ์ฑ์ ๋์ด๋ ์ค์ง์ ์ธ ๊ธฐ์ ๊ธฐ์ฌ
Limitation & Further Study
- Scene graph ๊ตฌ์ฑ ๊ณผ์ ์์ object detection ์ค๋ฅ๊ฐ ๋์ ๋ ์ ์์ผ๋ฉฐ, ์ด๊ฒ์ด ์ต์ข
navigation ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ ๋ถ์ ๋ถ์ฌ
- Graph matching์ ์ ํ๋๊ฐ ์ ์ฒด ์ฑ๋ฅ์ ๋ณ๋ชฉ์ด ๋ ์ ์์ผ๋, ๋ค์ํ matching ์๊ณ ๋ฆฌ์ฆ์ ๋น๊ต ์คํ ๋ถ์กฑ
- Real-world ํ๊ฒฝ์์์ ์ฑ๋ฅ ํ๊ฐ ๋ถ์ฌ (์๋ฎฌ๋ ์ด์
ํ๊ฒฝ๋ง ํ๊ฐ)
- ํ์ ์ฐ๊ตฌ๋ก๋ graph construction์ robustness ํฅ์, sim-to-real gap ๊ฐ์, ๋ ๋ณต์กํ scene composition ์ฒ๋ฆฌ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: UniGoal์ graph ํํ์ ํตํด vision๊ณผ language ๊ธฐ๋ฐ navigation ์์
์ ์ฐ์ํ๊ฒ ํตํฉํ๊ณ , ์คํ์ ์ผ๋ก๋ ๋ฒ์ฉ์ฑ๊ณผ zero-shot ์ฑ๋ฅ์ ๋์์ ๋ฌ์ฑํ๋ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง ์ค์ ํ๊ฒฝ ํ๊ฐ์ graph ๊ตฌ์ฑ robustness์ ๋ํ ๋ ๊น์ ๋ถ์์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์