์ ์: Arjun Majumdar, Ayush Shrivastava, Stefan Lee, Peter Anderson, Devi Parikh, Dhruv Batra | ๋ ์ง: 2020-04-30 | URL: https://arxiv.org/abs/2004.14973 📄 PDF
Fig. 1. We propose a compatibility model (right) for path selection in vision-and-
์น์์ ์์งํ ๋๊ท๋ชจ ์ด๋ฏธ์ง-ํ ์คํธ ์์ผ๋ก ์ฌ์ ํ์ตํ VLN-BERT ๋ชจ๋ธ์ ์ ์ํ์ฌ, ์๊ฐ-์ธ์ด ๋ค๋น๊ฒ์ด์ ์์ ์์ ๊ฐ์ฒด ์ฐธ์กฐ์ ์๊ฐ์ ๊ธฐ์ด(grounding)๋ฅผ ๊ฐ์ ํ๋ค.
Fig. 2. Images from the Conceptual Captions (CC) [24] (top) and Matterport3D
์ดํ: ์น ๊ท๋ชจ์ ๋น์ ์ฒดํ๋ ์๊ฐ-์ธ์ด ๋ฐ์ดํฐ๋ฅผ embodied ๋ค๋น๊ฒ์ด์ ์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ์ค์ง์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, ๋ช ํํ ์ฑ๋ฅ ๊ฐ์ ๊ณผ ์ฒด๊ณ์ ์ธ ablation study๋ฅผ ํตํด ํ์ต ์ปค๋ฆฌํ๋ผ์ ๊ฐ์น๋ฅผ ์ ์ฆํ ๊ฒฌ๊ณ ํ ์ฐ๊ตฌ์ด๋ค.