์ ์: Zhuoyuan Yu, Yuxing Long, Zihan Yang, Chengyan Zeng, Hongwei Fan, Jiyao Zhang, Hao Dong | ๋ ์ง: 2025-08-14 | URL: https://arxiv.org/abs/2508.10416 📄 PDF
Figure 1: Diverse Capabilities of CorrectNav. The model takes only monocular RGB video and language instructions as inpu
Vision-and-Language Navigation ๋ชจ๋ธ์ ์ค๋ฅ ๋ณต๊ตฌ ๋ฅ๋ ฅ์ ๊ฐํํ๊ธฐ ์ํด Self-correction Flywheel์ด๋ผ๋ ์๋ก์ด ํฌ์คํธํธ๋ ์ด๋ ํจ๋ฌ๋ค์์ ์ ์ํ์ฌ R2R-CE์ RxR-CE ๋ฒค์น๋งํฌ์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Figure 2: The overview of CorrectNav training. CorrectNav is first finetuned on the navigation tasks (Left), including a
์ดํ: Self-correction Flywheel์ด๋ผ๋ ํ์ ์ ์ธ ํฌ์คํธํธ๋ ์ด๋ ํจ๋ฌ๋ค์์ผ๋ก VLN ๋ชจ๋ธ์ ์ค๋ฅ ๋ณต๊ตฌ ๋ฅ๋ ฅ์ ๊ทผ๋ณธ์ ์ผ๋ก ๊ฐ์ ํ๊ณ , ์ค์ฆ์ ์ฑ๊ณผ์ ์ค์ ๋ก๋ด ๊ฒ์ฆ์ ํตํด ์ค์ฉ์ฑ์ ์ ์ฆํ์ผ๋ฉฐ, ์ถ๊ฐ ๋ชจ๋ ์์ด ํ๋ จ๋ง์ผ๋ก ๊ตฌํ ๊ฐ๋ฅํ ํจ์จ์ ์ค๊ณ๋ก ํฐ ๊ธฐ์ฌ๋ฅผ ์ ์ํ๋ค.