์ ์: Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson | ๋ ์ง: 2023-10-16 | URL: https://arxiv.org/abs/2310.10625 📄 PDF
Figure 1: Video Language Planning uses forward tree search via vision-language models and text-to-video
Vision-Language Model๊ณผ Text-to-Video Model์ ๊ฒฐํฉํ์ฌ ํธ๋ฆฌ ์์น๋ฅผ ํตํด ์ฅ๊ธฐ ์ํ์ ๋ก๋ด ์์ ์ ์ํ ์์ธํ ๋น๋์ค ๊ณํ์ ์์ฑํ๋ Video Language Planning(VLP) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ๋ค.
Figure 3: Video Accuracy vs Planning Budget. Left: VLP scales positively with more compute budget; it is
Figure 1: Video Language Planning uses forward tree search via vision-language models and text-to-video
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์ํธ๋ณด์์ ๊ฐ์ ์ ์๋ฆฌํ๊ฒ ํตํฉํ์ฌ ์ค์ ๋ก๋ด ์์คํ ์์ ํ๊ธฐ์ ์ธ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ ํ์ ์ ์ฐ๊ตฌ์ด๋ฉฐ, ๊ณํ ๋ฌธ์ ์ ๋ํ ํ๋์ ์ฌ๊ฒํ ๋ฅผ ์ ์ํ๋ค.