Advances in Embodied Navigation Using Large Language Models: A Survey
์ ์: Jinzhou Lin, Han Gao, Xuxiang Feng, Rongtao Xu, Changwei Wang, Man Zhang, Li Guo, Shibiao Xu | ๋ ์ง: 2023-11-01 | URL: https://arxiv.org/abs/2311.00530 📄 PDF
Essence
Fig. 1: This presentation exhibit a temporal map depicting the works of embodied navigation from 2022 to 2024, and we
์ด ๋
ผ๋ฌธ์ Large Language Models (LLMs)๊ณผ embodied intelligence์ ์ตํฉ์ ์ด์ ์ ๋ง์ถฐ LLM ๊ธฐ๋ฐ navigation ๋ชจ๋ธ๋ค์ ์ต์ ๋ํฅ์ ์ข
ํฉ์ ์ผ๋ก ์กฐ์ฌํ๊ณ , ๊ธฐ์กด ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ์
์ ์ฅ๋จ์ ์ ๋ถ์ํ ์๋ฒ ์ด์ด๋ค.
Motivation
- Known: LLM์ GPT ๊ฐ์ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ก ์์ฐ์ด ์ฒ๋ฆฌ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๊ณ , embodied intelligence๋ ์ผ์ ๋ฐ์ดํฐ๋ฅผ ํตํด ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ ์ง๋ฅํ ์์ด์ ํธ๋ฅผ ์ฐ๊ตฌํด์๋ค.
- Gap: ๊ธฐ์กด Vision-and-Language Navigation (VLN) ์ฐ๊ตฌ๋ค์ด ์ฃผ๋ก ์๊ฐ-์ธ์ด ํตํฉ์ ์ง์คํ ๋ฐ๋ฉด, LLM์ ํ์ฉํ embodied navigation์ ์ฒด๊ณ์ ์ธ ๋ถ๋ฅ์ ๋น๊ต ๋ถ์์ด ๋ถ์กฑํ๋ฉฐ, multimodal ๋ฐ์ดํฐ ์ตํฉ๊ณผ ์ค์๊ฐ ์๋ต์ฑ ํฅ์์ ๋ํ ์ฐ๊ตฌ๊ฐ ์ ํ์ ์ด๋ค.
- Why: ์์จ์ฃผํ๊ณผ ๋ก๋ด ์์
๊ณํ ๋ถ์ผ์์ LLM ๊ธฐ๋ฐ navigation์ด ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๊ณ ์์ผ๋ฉฐ, ํ๊ฒฝ ์ดํด์ ์์ฌ๊ฒฐ์ ์ง์์์ LLM์ ์ ์ฌ๋ ฅ์ด ํฌ๊ธฐ ๋๋ฌธ์ ํํฉ ํ์
๊ณผ ํฅํ ๋ฐฉํฅ ์ ์๊ฐ ์ค์ํ๋ค.
- Approach: LLM์ด embodied navigation์์ ์ํํ๋ ๋ ๊ฐ์ง ์ญํ - 'Grounded Language Understanding'์ ํตํ ์ ๋ณด ์ถ์ถ๊ณผ 'Few-Shot Planning'์ ํตํ ์ง์ ํ๋ ์์ฑ - ์ ๊ตฌ๋ถํ์ฌ ๋ถ์ํ๊ณ , ์ฃผ์ ๋ชจ๋ธ, ๋ฐฉ๋ฒ๋ก , ๋ฐ์ดํฐ์
์ ๋น๊ตํ์๋ค.
Achievement
Fig. 2: The first type utilizes LLMs to analyze incoming visual or textual data to extract goal-relevant information, up
- ์ข
ํฉ์ ๋ฆฌ๋ทฐ: LLM ๊ธฐ๋ฐ navigation ๋ชจ๋ธ๋ค์ ์ฒด๊ณ์ ๋ถ๋ฅ์ ๋น๊ต๋ถ์์ ํตํด ํ์ฌ ์ฐ๊ตฌ ์์ค์ ์ ์ฒด์์ ์ ์
- ๋ฐ์ดํฐ์
๋ถ์: ์ฃผ์ navigation ๋ฐ์ดํฐ์
์ ์ ์ฉ์ฑ, ๋ฌธ์ ์ , ํ๊ณ๋ฅผ ์์ธํ ๋ถ์ํ์ฌ ์ฐ๊ตฌ์๋ค์ ๋ฐ์ดํฐ์
์ ํ์ ์ค์ง์ ์กฐ์ธ ์ ๊ณต
- ๊ณผ์ ๋ฐ ๋ฐฉํฅ ๋์ถ: ์ค์ ์์ฉ์์ ์ง๋ฉดํ ๋์ ๊ณผ์ (latency, multimodal fusion, spatial reasoning)๋ฅผ ์๋ณํ๊ณ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ๊ณผ ํ์ ์ ์์ฉ ์๋๋ฆฌ์ค ์ ์
How
Fig. 2: The first type utilizes LLMs to analyze incoming visual or textual data to extract goal-relevant information, up
- LLM์ ์ญํ ์ ๋ ๊ฐ์ง๋ก ๋ถ๋ฅ: semantic understanding (์
๋ ฅ ๋ฐ์ดํฐ ๋ถ์์ผ๋ก ๋ชฉํ ๊ด๋ จ ์ ๋ณด ์ถ์ถ)๊ณผ planning (์ง์ ํ๋ ์์ฑ)
- Transformer ์ํคํ
์ฒ์ self-attention mechanism์ ํ์ฉํ long-range dependency ์ฒ๋ฆฌ
- Vision Transformers (ViT), CLIP, DALL-E ๋ฑ multimodal ๋ชจ๋ธ์ ํ์ฉํ visual-linguistic ํตํฉ
- Reinforcement learning์ ํ์ฉํ ๊ณ ์์ค ์ ์ด์ ์ ์์ค ์ ์ด ๋ถ๋ฆฌ
- Point clouds, voice prompts ๋ฑ ๋ค์ํ ์ผ์ ๋ฐ์ดํฐ์ multimodal ํตํฉ
- Zero-shot learning๊ณผ few-shot planning ๊ธฐ๋ฒ์ ํตํ ์ต์ ์ํ ๋ฐ์ดํฐ๋ก์ ํ์ต
Originality
- LLM-based embodied navigation์ ํนํ๋ ์ฒซ ๋ฒ์งธ ์ข
ํฉ ์๋ฒ ์ด๋ก, ๊ธฐ์กด ์ผ๋ฐ์ ์ธ vision-language navigation ๋ฆฌ๋ทฐ์ ์ฐจ๋ณํ
- LLM์ ์ญํ ์ 'information-providing'๊ณผ 'planning'์ผ๋ก ๋ช
ํํ ๋ถ๋ฅํ์ฌ ๊ฐ๋
์ ํ ์ ์", '์๊ฐ ๋ณํ์ ๋ฐ๋ฅธ embodied navigation ๋ฐ์ ๊ณผ์ ์ temporal map์ผ๋ก ์๊ฐํํ๊ณ 5๊ฐ ๋ํ ๋ชจ๋ธ์ ํ๋ ์์ํฌ ๋น๊ต
Limitation & Further Study
- ๋
ผ๋ฌธ์ด 2024๋
๊น์ง์ ์ฐ๊ตฌ๋ง ํฌํจํ์ฌ ๊ทธ ์ดํ ๋น ๋ฅด๊ฒ ์งํํ๋ LLM ๊ธฐ์ (GPT-4V, GPT-4o ๋ฑ)์ ์ต์ ์ ์ฉ ์ฌ๋ก ๋๋ฝ ๊ฐ๋ฅ์ฑ
- ์ค์ ๋ก๋ด ์์คํ
๊ตฌํ์์์ computational resource ์ ์ฝ๊ณผ latency ๊ฐ์์ ๋ํ ๊ตฌ์ฒด์ ์๋ฃจ์
์ ์ ๋ถ์กฑ
- Spatial reasoning๊ณผ ๋ฐ์ดํฐ ๋ค์์ฑ ๋ฌธ์ ์ ๋ํ ์ ๋์ ๋ถ์ ๋ฐ ๋ฒค์น๋งํน ๊ฒฐ๊ณผ ๋ถ์ฌ
- Multimodal integration์ ์ต์ ํ ์ ๋ต์ ๋ํ ์ด๋ก ์ ๋๋ ๊ฒฝํ์ ๊ฐ์ด๋๋ผ์ธ ๋ฏธํก
- ํ์ ์ฐ๊ตฌ๋ก๋ domain-specific LLM fine-tuning, edge computing ํ๊ฒฝ์์์ ๊ฒฝ๋ ๋ชจ๋ธ ๊ฐ๋ฐ, ์ค์๊ฐ navigation์ ์ํ latency ์ต์ ํ ๊ธฐ๋ฒ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ๋น ๋ฅด๊ฒ ์ฑ์ฅํ๋ LLM ๊ธฐ๋ฐ embodied navigation ๋ถ์ผ์ ๋ํ ์ฒซ ๋ฒ์งธ ์ฒด๊ณ์ ์๋ฒ ์ด๋ก์, ํ์ฌ๊น์ง์ ์ฐ๊ตฌ ์ฑ๊ณผ๋ฅผ ๋ช
ํํ ๋ถ๋ฅํ๊ณ ๋ฏธ๋ ๋ฐฉํฅ์ ์ ์ํ๋ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ๋ค๋ง, ๊ธฐ์ ์ ๊น์ด์ ์ค์ ๊ตฌํ์์ ๋์ ๊ณผ์ ์ ๋ํ ๋์ฑ ๊ตฌ์ฒด์ ์ธ ๋ถ์์ด ๋ณด๊ฐ๋๋ค๋ฉด ์ค๋ฌด์๋ค์๊ฒ ๋์ฑ ์ ์ฉํ ์๋ฃ๊ฐ ๋ ๊ฒ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์