์ ์: Enshen Zhou, Yiran Qin, Zhenfei Yin, Yuzhou Huang, Ruimao Zhang, Lu Sheng, Yu Qiao, Jing Shao | ๋ ์ง: 2024-03-18 | URL: https://arxiv.org/abs/2403.12037 📄 PDF
Fig. 1: Comparison between MineDreamer and previous studies. In โChop
MineDreamer๋ Chain-of-Imagination(CoI) ๋ฉ์ปค๋์ฆ์ ํตํด MLLM๊ณผ diffusion model์ ํ์ฉํ์ฌ Minecraft์์ ์์ฐ์ด ์ง์๋ฅผ ๋จ๊ณ๋ณ๋ก ์์ํ๊ณ ์คํํ๋ embodied agent์ด๋ค. CoI๋ ํ์ฌ ์ํ์ ๋ง์ถ ์๊ฐ์ ํ๋กฌํํธ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์์ฑํ์ฌ ์ง์ ์ถ์ข ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.
Fig. 5: Performance on Programmatic Evaluation. MineDreamer surpasses the
Fig. 2: The Overview of Chain-of-Imagination. The Imaginator imagines a goal
์ดํ: MineDreamer๋ Chain-of-Imagination ๋ฉ์ปค๋์ฆ์ ํตํด ์์ฐ์ด ์ง์ ์ถ์ข ์์ด์ ํธ์ ์ค๊ณ์ ์ฐฝ์์ ์ธ ์ ๊ทผ์ ์ ์ํ๋ฉฐ, MLLM-enhanced diffusion ๋ชจ๋ธ๊ณผ Goal Drift Collection์ ๊ฒฐํฉํ์ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ํ์ ํ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. Minecraft ํ๊ฒฝ์ ํ์ ๋์ง๋ง, embodied AI์ ์ง์ ์ถ์ข ๋ฅ๋ ฅ ํฅ์์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.