์ ์: Yanjiang Guo, Yen-Jen Wang, Lihan Zha, Jianyu Chen | ๋ ์ง: 2023-07-01 | URL: https://arxiv.org/abs/2307.00329 📄 PDF
Fig. 1: Illustration of our motivation. Previous works use LLM to generate only high-level textual plans. Therefore, Low
DoReMi๋ LLM์ผ๋ก ๊ณ ์์ค ๊ณํ๊ณผ ์คํ ์ ์ฝ์กฐ๊ฑด์ ๋์์ ์์ฑํ๊ณ , VLM์ผ๋ก ์คํ ์ค ์ ์ฝ ์๋ฐ์ ์ง์์ ์ผ๋ก ๊ฐ์งํ์ฌ ๊ณํ-์คํ ๋ถ์ผ์น๋ฅผ ์ฆ์ ํ์งํ๊ณ ๋ณต๊ตฌํ๋ ๋ก๋ด ์์ ํ๋ ์์ํฌ์ด๋ค.
Fig. 2: Previous methods perform open-loop planning or only re-plan when the previous skill is finished. Our DoReMi
Fig. 3: Open-ended scene descriptions of VLMs are ambiguous. DoReMi leverages the LLM to reason specific constraints
์ดํ: DoReMi๋ LLM๊ณผ VLM์ ์ฐฝ์์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ๋ก๋ด ์์ ์ ๊ณํ-์คํ ๋ถ์ผ์น ๋ฌธ์ ๋ฅผ ์ฆ์ ๊ฐ์งํ๊ณ ๋ณต๊ตฌํ๋ ์ค์ฉ์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ผ๋ฉฐ, ๋ช ํํ ๋๊ธฐ, ์ฒด๊ณ์ ์ธ ๋ฐฉ๋ฒ๋ก , ๊ฒฌ์คํ ์คํ์ ํตํด ๋์ ํ์ ์ ๊ฐ์น์ ๋ก๋ด ์ ์ด ๋ถ์ผ์ ์ค์ง์ ๊ธฐ์ฌ๋ฅผ ์ ์ฆํ๋ค.