์ ์: Yueen Ma, Zixing Song, Yuzheng Zhuang, Jianye Hao, Irwin King | ๋ ์ง: 2024-05-23 | URL: https://arxiv.org/abs/2405.14093 📄 PDF
Figure 2: (a) A Venn diagram that outlines the main concepts in embodied AI discussed in this paper. (b) Timelines that
๋ณธ ๋ ผ๋ฌธ์ embodied AI ๋ถ์ผ์์ vision, language, action ์ธ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ํตํฉํ๋ vision-language-action models (VLAs)์ ๋ํ ์ฒซ ๋ฒ์งธ ์ข ํฉ ์ค๋ฌธ ๋ ผ๋ฌธ์ด๋ค. VLAs์ ๊ตฌ์ฑ ์์, ์ ์์ค ์ ์ด ์ ์ฑ , ๊ณ ์์ค ์์ ๊ณํ์๋ก ์ด๋ฃจ์ด์ง 3๊ฐ์ง ์ฃผ์ ์ฐ๊ตฌ ๋ผ์ธ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ๋ฅํ๊ณ ๋ถ์ํ๋ค.
Figure 4: Illustration of a hierarchical robot policy. The high-level task planner decomposes the user instruction into
์ดํ: ๋ณธ ์ค๋ฌธ์ embodied AI์ ๋ก๋ด๊ณตํ์์ ๋น ๋ฅด๊ฒ ์ฑ์ฅํ๋ VLAs ๋ถ์ผ๋ฅผ ์ฒ์์ผ๋ก ์ข ํฉ์ ์ผ๋ก ์ ๋ฆฌํ ์ค์ํ ๊ธฐ์ฌ๋ค. ์ฒด๊ณ์ ์ธ ๋ถ๋ฅ ์ฒด๊ณ, ์ผ๋ฐํ๋ ์ ์ ์ ์, ๊ด๋ฒ์ํ ์๋ฃ ์์ฝ ๋ฑ์ด ๊ฐ์ ์ด๋ฉฐ, VLA ์ฐ๊ตฌ์๋ค์ ์ํ ํ์์ ์ธ ์ฐธ๊ณ ์๋ฃ๊ฐ ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.