NaVILA: Legged Robot Vision-Language-Action Model for Navigation
์ ์: An-Chieh Cheng, Yandong Ji, Zhaojing Yang, Zaitian Gongye, Xueyan Zou, Jan Kautz, Erdem Bฤฑyฤฑk, Hongxu Yin, Sifei Liu, Xiaolong Wang | ๋ ์ง: 2024-12-05 | URL: https://arxiv.org/abs/2412.04453 📄 PDF
Essence
Fig. 2: NaVILA is a two-level framework combining high-level visual language understanding with low-level locomotion con
NaVILA๋ Vision-Language-Action ๋ชจ๋ธ๊ณผ locomotion RL policy๋ฅผ ํตํฉํ 2-๋จ๊ณ ํ๋ ์์ํฌ๋ก, ์ธ๊ฐ ์ธ์ด ๋ช
๋ น์ legged ๋ก๋ด์ ์ ์์ค ๊ด์ ์ ์ด๋ก ๋ฒ์ญํ์ฌ ๋ณต์กํ ํ๊ฒฝ์์์ ์๊ฐ-์ธ์ด ๋ค๋น๊ฒ์ด์
์ ์คํํ๋ค.
Motivation
- Known: Vision-and-Language Navigation (VLN) ๊ธฐ์ ์ ์ง๋ ์์ด ์ธ์ด ๋ช
๋ น์ ๋ฐ๋ผ ๋ฏธ์ง์ ํ๊ฒฝ์ ํญ๋ฒํ๋ ๋ก๋ด์ ๊ธฐ๋ณธ ๋ฅ๋ ฅ์ด ๋์์ผ๋ฉฐ, ์ต๊ทผ LLM๊ณผ VLM์ ๋ฐ์ ์ผ๋ก end-to-end VLA ์์คํ
๋ค์ด ๊ฐ๋ฐ๋๊ณ ์๋ค.
- Gap: ๊ธฐ์กด VLA ์์คํ
๋ค์ ์ธ์ด ์ง์๋ฅผ ์ง์ ์ ์์ค ๋ก๋ด ์ก์
์ผ๋ก ๋ณํํ๋ ค ํ๋๋ฐ, ์ด๋ ์ธ์ด ๊ธฐ๋ฐ ํ์ต์ด ์ฃผ์ธ VLM๊ณผ ์ ํํ ๋น์ธ์ด์ ์ ์ด์ ํ์์ฑ ๊ฐ ๋ถ์ผ์น๋ฅผ ์ผ๊ธฐํ๋ค. Legged ๋ก๋ด์ ๋ณต์กํ ๊ด์ ์ ์ด์ ๋ค์ํ ํ๊ฒฝ์์์ ์ผ๋ฐํ ๋ฅ๋ ฅ๋ ๋ฏธํกํ๋ค.
- Why: Legged ๋ก๋ด์ ํ ๊ธฐ๋ฐ ๋ก๋ด๋ณด๋ค ๋ ๋์ ์ ์ด๊ณ ๋ณต์กํ ํ๊ฒฝ(์ข์ ํต๋ก, ๋ถ๊ท์นํ ์งํ, ์ฅ์ ๋ฌผ)์ ํญ๋ฒํ ์ ์์ผ๋ฏ๋ก ์ค์ ํ๊ฒฝ์์์ ์ ์ฉ์ฑ์ด ๋์ผ๋ฉฐ, ์์ฐ์ค๋ฌ์ด ์ธ์ด ์ธํฐํ์ด์ค๋ฅผ ํตํ ๋ก๋ด ์ ์ด๋ ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ์ ํฌ๊ฒ ๊ฐ์ ํ๋ค.
- Approach: NaVILA๋ VLM์ด ์ค์์ค ์ธ์ด ์ก์
(์: 'moving forward 75cm')์ ์์ฑํ๋๋ก fine-tuningํ๊ณ , ์ด๋ฅผ low-level visual locomotion RL policy๊ฐ ์คํํ๋ ๊ณ์ธต ๋ถ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ์ฑํํ๋ค. VILA ๊ธฐ๋ฐ VLA ๋ชจ๋ธ์๋ ๋ด๋น๊ฒ์ด์
ํนํ ํ๋กฌํํธ, ์ญ์ฌ ์ปจํ
์คํธ ํตํฉ, YouTube ์ธ๊ฐ ์์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ํ์ต ์ ๋ต์ ์ ์ฉํ๋ค.
Achievement
Fig. 1: Real-world demonstration of NaVILA: Upon receiving human instructions, NaVILA uses a vision-language model to pr
- ๋ฒค์น๋งํฌ ์ฑ๋ฅ ํฅ์: ๊ธฐ์กด VLN ๋ฒค์น๋งํฌ์์ 17% ์ด์ ์ฑ๊ณต๋ฅ ๊ฐ์ ๋ฌ์ฑ
- ์๋ก์ด ํ๊ฐ ๊ธฐ์ค ์ ์: IsaacLab ๊ธฐ๋ฐ VLN-CE-Isaac ๋ฒค์น๋งํฌ ๊ฐ๋ฐ์ผ๋ก ์ ์์ค ์ ์ด์ ํ์ค์ ํ๊ฒฝ ๋ฐ์
- ์ค์ธ๊ณ ๊ฒ์ฆ: 25๊ฐ ๋ช
๋ น์์ 88% ์ฑ๊ณต๋ฅ , ๋ณต์กํ ๋ช
๋ น์์ 75% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ๋ก๋ด ๊ฐ ์ผ๋ฐํ: Unitree Go2, Unitree H1, Booster T1 ๋ฑ ์๋ก ๋ค๋ฅธ ๋ก๋ด์ ๊ฐ์ VLA ์ ์ฉ ๊ฐ๋ฅ
- ๋จ๊ณ ์ ์ฑ
์ ์ฐ์์ฑ: Vision ๊ธฐ๋ฐ locomotion policy๊ฐ blind policy ๋๋น 14% ์ฑ๊ณต๋ฅ ํฅ์
- ์ธ๊ฐ ์์ ํ์ต: YouTube ์ธ๊ฐ ํฌ์ด ์์์ผ๋ก ์ง์ ํ์ตํ์ฌ ์ฐ์ ํ๊ฒฝ ํญ๋ฒ ๊ฐ์ ์ ์ต์ด๋ก ์
์ฆ
How
Fig. 2: NaVILA is a two-level framework combining high-level visual language understanding with low-level locomotion con
- VILA ๊ธฐ๋ฐ VLM ์ ํ: ์ด๋ฏธ์ง ๊ธฐ๋ฐ VLM์ผ๋ก ๊ฐ๋ ฅํ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ๊ด๋ฒ์ํ ์ง์ ํ์ฉ
- ๊ณ์ธต์ ํ๋กฌํํธ ์ค๊ณ: ํ์ฌ ๊ด์ฐฐ๊ณผ ์ญ์ฌ ํ๋ ์์ ๊ตฌ๋ถํ์ฌ ์ฒ๋ฆฌํ๋ ๋ด๋น๊ฒ์ด์
ํนํ ํ๋กฌํํธ ๊ฐ๋ฐ
- ๋ค์ค ๋ฐ์ดํฐ ์์ค ํตํฉ: ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ, ์ธ๊ฐ ์์, QA ํ์คํฌ ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ ํผํฉ์ผ๋ก ํ์ต
- ๋์ด๋งต ๊ธฐ๋ฐ locomotion policy: LiDAR ํฌ์ธํธ ํด๋ผ์ฐ๋๋ก๋ถํฐ ๋์ด๋งต ๊ตฌ์ฑ ๋ฐ ์๋ฎฌ๋ ์ด์
๋๋๋ง์ด์ ์ด์
์ผ๋ก sim-to-real ๊ฐญ ํด์
- ๋จ์ผ ๋จ๊ณ ํ์ต: ์ ์ฑ
์ฆ๋ฅ ์์ด end-to-end vision ๊ธฐ๋ฐ locomotion ์ ์ฑ
ํ์ต
- ์ด์ค ์ฃผํ์ ์ด์: ๊ณ ๊ณ์ฐ VLA๋ ์ ์ฃผํ๋ก, locomotion policy๋ ์ค์๊ฐ์ผ๋ก ์ด์ํ์ฌ ํจ์จ์ฑ๊ณผ ๊ฒฌ๊ณ ์ฑ ํ๋ณด
Originality
- ๊ณ์ธต์ ์ก์
ํํ: ์ค์์ค ์ธ์ด ์ก์
์ ํตํ ์๋ก์ด ํํ ๋ฐฉ์์ผ๋ก VLM์ ๊ฐ์ (์ธ์ด ๊ธฐ๋ฐ ์ถ๋ก )๊ณผ ๋ก๋ด ์คํ์ ์๊ตฌ(์ ํํ ์ ์ด)๋ฅผ ์กฐํ
- ์ธ๊ฐ ์์ ์ง์ ํ์ต: YouTube ํฌ์ด ์์์ ๋ด๋น๊ฒ์ด์
ํ์ต์ ํ์ฉํ๋ ์ต์ด ์๋๋ก ๋๊ท๋ชจ ์ค์ธ๊ณ ๋ฐ์ดํฐ ํ์ฉ
- ๋ก๋ด ๊ฐ ์ด์ ์ฑ: ๊ฐ์ VLA๋ก ์๋ก ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ ์ง์ ๊ฐ๋ฅํ ๋ชจ๋์ ๊ตฌ์กฐ ์ ์
- IsaacLab ๋ฒค์น๋งํฌ: ์ ์์ค ์ ์ด์ ํ์ค์ ํ๊ฒฝ์ ๋ฐ์ํ ์๋ก์ด ํ๊ฐ ๊ธฐ์ค ๋์
Limitation & Further Study
- ๊ณ์ฐ ๋ณต์ก๋: ๋๊ท๋ชจ VLM์ ๋์ ๊ณ์ฐ ๋น์ฉ์ผ๋ก ์ค์๊ฐ์ฑ ์ ์ฝ ๊ฐ๋ฅ์ฑ
- ๋จ์ผ ๋ทฐ ๊ด์ฐฐ: ์ด๋ฏธ์ง ๊ธฐ๋ฐ VLM์ ์ ์ฝ์ผ๋ก ์ธํ ๊ณต๊ฐ ์ธ์์ ํ๊ณ
- ๋ฐ์ดํฐ ์์กด์ฑ: ๋ด๋น๊ฒ์ด์
ํนํ ํ์ต ๋ฐ์ดํฐ์ ํ์ง๊ณผ ๊ท๋ชจ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ํธ์ฐจ ๊ฐ๋ฅ์ฑ
- ์ค์ธ ํ๊ฒฝ ์ ์ฝ: ๊ฐํ ํ๋น ๋ฑ ๊ทน๋จ์ ํ๊ฒฝ์์์ ๊ฒฌ๊ณ ์ฑ ๊ฒ์ฆ ํ์
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: ๋ฉํฐ ๋ทฐ ๋๋ 3D ํ๊ฒฝ ํํ ํตํฉ, ๋์ ์ฅ์ ๋ฌผ ์ฒ๋ฆฌ ๊ฐ์ , ๋ ๋ณต์กํ ๋ค์ค ํ๋ ๊ณํ ๋ฅ๋ ฅ ๊ฐํ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: NaVILA๋ ์ธ์ด ๊ธฐ๋ฐ ๊ณ ์์ค ์ถ๋ก ๊ณผ ์ ์์ค ๋ก๋ด ์ ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ถ๋ฆฌํ๋ ํ์ ์ ํ๋ ์์ํฌ๋ก, ๊ด๋ฒ์ํ ๋ฒค์น๋งํฌ ๊ฐ์ , ์ค์ธ๊ณ ๊ฒ์ฆ, ๋ก๋ด ๊ฐ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํตํด legged ๋ก๋ด ๋ด๋น๊ฒ์ด์
์ ์ค์ง์ ์ง์ ์ ์ด๋ฃฌ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์