์ ์: Yiran Qin, Ao Sun, Yuze Hong, Benyou Wang, Ruimao Zhang | ๋ ์ง: 2025-02-19 | URL: https://arxiv.org/abs/2502.13894 📄 PDF
Fig. 1.
NavigateDiff๋ vision-language model๊ณผ diffusion network๋ฅผ ๊ฒฐํฉํ์ฌ ๋ฏธ๋ ํ๋ ์์ ์์ธกํ๋ visual predictor๋ฅผ ๊ตฌ์ถํ๊ณ , ์ด๋ฅผ ํตํด ๋ก๋ด์ด ์ ๋ก์ท(zero-shot) ์ํฉ์์ ๋ฏธ์ง์ ํ๊ฒฝ์ ํจ๊ณผ์ ์ผ๋ก ๋ค๋น๊ฒ์ด์ ํ ์ ์๋๋ก ์ง์ํ๋ค.
Fig. 3. NavigateDiff leverages a Future Frame pretrained Predictor to generate future frames based on current observatio
Fig. 2.
์ดํ: NavigateDiff๋ foundation model์ ๋ ผ๋ฆฌ์ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ์ด๋ฏธ์ง ์์ฑ ๋ฅ๋ ฅ์ ์ฐฝ์์ ์ผ๋ก ๊ฒฐํฉํ์ฌ zero-shot ๋ค๋น๊ฒ์ด์ ์ ์๋ก์ด ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค. ๋์ ์์ค์ ์ถ๋ก ๊ณผ ์ ์์ค์ ์ ์ด๋ฅผ ๋ถ๋ฆฌํ๋ ๊ตฌ์กฐ์ ๋ฏธ๋ ํ๋ ์ ์์ธก์ ์ค๊ฐ ํํ์ผ๋ก ํ์ฉํ๋ ์์ด๋์ด๋ ๋ก๋ด ๋ค๋น๊ฒ์ด์ ๋ถ์ผ์ ์๋นํ ๊ธฐ์ฌ๋ฅผ ํ ์ ์๋ ๋ ผ๋ฌธ์ด๋ค.