NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation
์ ์: Jiazhao Zhang, Kunyu Wang, Rongtao Xu, Gengze Zhou, Yicong Hong, Xiaomeng Fang, Qi Wu, Zhizheng Zhang, He Wang | ๋ ์ง: 2024-02-24 | URL: https://arxiv.org/abs/2402.15852 📄 PDF
Essence
Fig. 2: The overview of NaVid. The inputs of NaVid consist of the RGB frames from the online video observation {x0, ยท ยท
NaVid๋ ๋น๋์ค ๊ธฐ๋ฐ ๋๊ท๋ชจ VLM์ ํ์ฉํ์ฌ ์๊ฐ-์ธ์ด ๋ค๋น๊ฒ์ด์
์์ RGB ์นด๋ฉ๋ผ ์
๋ ฅ๋ง์ผ๋ก ๋ก๋ด์ ๋ค์ ํ๋์ ๊ณํํ๋ ์ฒซ ์๋์ด๋ฉฐ, ์ง๋๋ ๊น์ด ์ ๋ณด ์์ด ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํ๊ฒฝ ๋ชจ๋์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: VLN์ ์์จ ๊ตฌํ AI์ ํต์ฌ ๊ณผ์ ๋ก, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ด์ฐ ํ๊ฒฝ์์ ์ฃผ๋ก ์ฐ๊ตฌ๋์๊ฑฐ๋ RGBD, ์ค๋๋ฉํฐ, ์ง๋ ๋ฑ ๋ค์ํ ์
๋ ฅ์ ํ์๋ก ํ๋ค. ์ต๊ทผ ๋๊ท๋ชจ VLM์ ๋ฐ์ ์ผ๋ก ๋ค์ํ AI ๋ถ์ผ์์ ๋ฐ์ด๋ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ณด์๋ค.
- Gap: ๊ธฐ์กด VLN ๋ฐฉ๋ฒ๋ค์ ์ค๋๋ฉํฐ ๋
ธ์ด์ฆ, ๊น์ด ์ธ์์ ๋๋ฉ์ธ ๊ฐญ, Sim-to-Real ์ ์ด์์์ ๋ฌธ์ ๊ฐ ์์ผ๋ฉฐ, ์ด์ฐ ํ๊ฒฝ ๋๋ ํ
์คํธ ๊ธฐ๋ฐ ๊ด์ฐฐ ์ธ์ฝ๋ฉ์ผ๋ก ์ ํ๋๋ค. ์ฐ์ ํ๊ฒฝ์์ RGB๋ง์ผ๋ก end-to-end ๋ค๋น๊ฒ์ด์
์ ์ํํ๋ ์ค์ฉ์ ์ธ VLA ๋ชจ๋ธ์ด ๋ถ์ฌํ๋ค.
- Why: ๋๊ท๋ชจ VLM์ ์น ๊ท๋ชจ ์ฌ์ ํ์ต์ ํตํด ๊ฐ๋ ฅํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์
์ฆํ์ผ๋ฉฐ, VLN์ Sim-to-Real ์ ์ด์ ๋๋ฉ์ธ ์ผ๋ฐํ๋ ์ค์ ๋ก๋ด ๋ฐฐํฌ์ ํ์์ ์ธ ๋ฌธ์ ์ด๋ค.
- Approach: NaVida๋ ์ฌ์ ํ์ต๋ vision encoder์ LLM์ ๊ฒฐํฉํ์ฌ ๋น๋์ค ํํ์ ๋ก๋ด ๊ด์ฐฐ์ instruction-queried token๊ณผ instruction-agnostic token์ผ๋ก ์ธ์ฝ๋ฉํ๋ค. 510k ๋ค๋น๊ฒ์ด์
์ํ๊ณผ 763k ์น ๋ฐ์ดํฐ๋ก ํ์ตํ์ฌ ์ฐ์ ํ๊ฒฝ์์ low-level executable action์ ์ง์ ์ถ๋ก ํ๋ค.
Achievement
Fig. 4: (a) Success Rate of NaVid on different steps during
- VLN-CE ๋ฒค์น๋งํฌ ์ฑ๋ฅ: R2R-CE ๋ฐ์ดํฐ์
์์ ์ต๊ณ ์์ค์ ์ฑ๋ฅ ๋ฌ์ฑ
- ํฌ๋ก์ค ๋ฐ์ดํฐ์
์ผ๋ฐํ: R2R-RxR ํ๊ฐ์์ ํฐ ์ฑ๋ฅ ํฅ์ ์์ฐ
- Sim-to-Real ๊ฐ๊ฑด์ฑ: RGB ์
๋ ฅ๋ง์ผ๋ก 4๊ฐ ๋ค์ํ ์ค๋ด ์ฅ๋ฉด์์ 200๊ฐ ๋ช
๋ น์ด์ ๋ํด ์ฝ 66% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ๋จ์ํ๋ ์
๋ ฅ: ์ง๋, ์ค๋๋ฉํฐ, ๊น์ด ์ ๋ณด ์์ด ๋ชจ๋
ธํ๋ฌ RGB ๋น๋์ค๋ง ํ์
- ์๊ณต๊ฐ ์ปจํ
์คํธ ์ธ์ฝ๋ฉ: ๋น๋์ค ๊ธฐ๋ฐ ๋ชจ๋ธ๋ง์ผ๋ก ๋ก๋ด์ ์ญ์ฌ์ ๊ถค์ ์ ํจ๊ณผ์ ์ผ๋ก ์ธ์ฝ๋ฉ
How
Fig. 2: The overview of NaVid. The inputs of NaVid consist of the RGB frames from the online video observation {x0, ยท ยท
- Vision encoder๋ฅผ ์ฌ์ฉํ์ฌ RGB ํ๋ ์์์ instruction-queried token(์ง์๋ฌธ ๊ด๋ จ)๊ณผ instruction-agnostic token(์ ์ญ ์ ๋ณด)์ ๋ ์ข
๋ฅ ํ ํฐ ์ถ์ถ
- Cross-Modality Projector๋ก ์๊ฐ ํ ํฐ์ ์ธ์ด ๊ณต๊ฐ์ผ๋ก ๋งคํ
- BERT ๊ธฐ๋ฐ instruction identifier๋ก ์ธ์คํธ๋ญ์
์ฒ๋ฆฌ
- Vicuna-7B LLM์ ์ฌ์ ํ์ต๋ ์ํ์์ ํ์ฉํ์ฌ ๋ค๋น๊ฒ์ด์
์ถ๋ก
- Action ๊ณต๊ฐ์ ์ ๋์ ์ธ์(์ด๋ ๊ฑฐ๋ฆฌ cm, ํ์ ๊ฐ๋)๋ฅผ ํฌํจํ ์ธ์ด ํํ๋ก ์ ์
- ์ญ์ฌ ๊ด์ฐฐ๊ณผ ํ์ฌ ๊ด์ฐฐ์ ํ ํฐ ์๋ฅผ ๋ค๋ฅด๊ฒ ์ค์ ํ์ฌ ์ ์์ ์ปจํ
์คํธ ์ ๊ณต
Originality
- ์ฐ์ ํ๊ฒฝ์์ VLN์ ์ํ ์ฒซ ๋ฒ์งธ ๋น๋์ค ๊ธฐ๋ฐ VLM ์ ์์ผ๋ก, RGB๋ง ์ฌ์ฉํ end-to-end ๋ค๋น๊ฒ์ด์
์ ์ธ๊ฐ์ ๋ค๋น๊ฒ์ด์
๋ฐฉ์์ ๋ชจ๋ฐฉ
- instruction-queried์ instruction-agnostic ํ ํฐ์ ์ด์ค ์ธ์ฝ๋ฉ ๋ฉ์ปค๋์ฆ์ผ๋ก ์ ํ์ ์๊ฐ ํน์ง ์ถ์ถ
- LLM ๊ธฐ๋ฐ VLN ๋ฐฉ๋ฒ ๋๋น ๋ ํ์ค์ ์ธ ๋ชจ๋ธ๋ง์ผ๋ก ์ด์ฐ ๊ณต๊ฐ์ด ์๋ ์ฐ์ ํ๊ฒฝ์์ ์ ์์ค ์คํ ๊ฐ๋ฅํ ๋์ ์ง์ ์ถ๋ก
- ์ค๋๋ฉํฐ, ๊น์ด, ์ง๋์ ๋ํ ์์กด์ฑ ์ ๊ฑฐ๋ก Sim-to-Real ๊ฐญ ์์ฐ์ค๋ฝ๊ฒ ํด๊ฒฐ
Limitation & Further Study
- ์ค์ ํ๊ฒฝ ํ๊ฐ๊ฐ 4๊ฐ ์ฅ๋ฉด์ผ๋ก ์ ํ๋์ด ๋ ๊ด๋ฒ์ํ ๋ค์์ฑ ๊ฒ์ฆ ํ์
- 66% ์ฑ๊ณต๋ฅ ์ ์์ง ์ค์ฉ์ ๋ฐฐํฌ์ ์์ ํ ์ถฉ๋ถํ์ง ์์ผ๋ฉฐ, ์คํจ ์ฌ๋ก ๋ถ์ ๋ถ์ฌ
- ๋น๋์ค ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๊ณ์ฐ ๋ณต์ก๋์ ์ถ๋ก ์๋์ ๋ํ ๋
ผ์ ๋ฏธํก
- ๊ธด ์ง์๋ฌธ์ด๋ ๋ณต์กํ ํ๊ฒฝ์์์ ์ฑ๋ฅ ํ๊ณ ๋ฏธ๋ถ์
- ํ์ ์ฐ๊ตฌ๋ก ๋ ๋ง์ ์ค์ ํ๊ฒฝ ๋ฐ์ดํฐ, ๋ค์ค ๋ชจ๋ ์
๋ ฅ ์กฐํฉ, ๋์ ์ฅ์ ๋ฌผ ์ฒ๋ฆฌ ๋ฑ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: NaVid๋ VLM์ ๊ฐ๋ ฅํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ VLN์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉํ ํ์ ์ ์ฐ๊ตฌ๋ก, RGB๋ง์ผ๋ก ์ฐ์ ํ๊ฒฝ์์ ์ค์ ๋ก๋ด ๋ค๋น๊ฒ์ด์
์ ์ํํ๋ ์ฒซ ์ค์ฉ์ VLA ๋ชจ๋ธ์ด๋ค. Sim-to-Real ์ ์ด์ ์ค๋ ๋ฌธ์ ๋ฅผ ์ฐ์ํ๊ฒ ํด๊ฒฐํ๊ณ ์ฐ์ํ ํฌ๋ก์ค ๋ฐ์ดํฐ์
์ผ๋ฐํ๋ฅผ ๋ณด์ฌ์ค๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์