์ ์: Wansen Wu, Tao Chang, Xinmeng Li | ๋ ์ง: 2021-08-26 | URL: https://arxiv.org/abs/2108.11544 📄 PDF
Fig. 2. The knowledge graph is summarized in this review.
๋ณธ ๋ ผ๋ฌธ์ Vision-Language Navigation(VLN) ๋ถ์ผ๋ฅผ ์ข ํฉ์ ์ผ๋ก ์กฐ์ฌํ๊ณ , ์ธ์ด ์ง์์ ํน์ฑ์ ๋ฐ๋ผ single-turn/multi-turn, goal-oriented/route-oriented, passive/interactive ๋ฑ์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ๋ถ๋ฅํ ํ์๋ ธ๋ฏธ๋ฅผ ์ ์ํ๋ค.
Fig. 2. The knowledge graph is summarized in this review.
Fig. 2. The knowledge graph is summarized in this review.
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ VLN ๋ถ์ผ์ ์ฒซ ๋ฒ์งธ ํฌ๊ด์ ์กฐ์ฌ๋ก์, ์ธ์ด ์ง์์ ํน์ฑ ๊ธฐ๋ฐ 4๋จ๊ณ ํ์๋ ธ๋ฏธ๋ฅผ ์ ์ํ์ฌ ์ฐ์ฌ๋ VLN ํ์คํฌ๋ค์ ํต์ผ๋ ํ๋ ์์ํฌ๋ก ์ ๋ฆฌํ๋ค. ๋ช ํํ ๋ถ๋ฅ ์ฒด๊ณ์ ๊ด๋ฒ์ํ ๋ฌธํ ์ปค๋ฒ๋ฆฌ์ง๋ ์ฐ๊ตฌ์๋ค์ด VLN์ ์ ์ฒด landscape๋ฅผ ์ดํดํ๊ณ ๋ฏธ๋ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ค์ ํ๋ ๋ฐ ํฐ ๋์์ด ๋ ๊ฒ์ผ๋ก ์์๋๋ค.