์ ์: Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, Pete Florence | ๋ ์ง: 2023-03-06 | URL: https://arxiv.org/abs/2303.03378 📄 PDF
Figure 1: PaLM-E is a single general-purpose multimodal language model for embodied reasoning tasks, visual-language tas
PaLM-E๋ ์๊ฐ, ์ํ ์ถ์ , ํ ์คํธ ์ ๋ ฅ์ ๋ฉํฐ๋ชจ๋ฌ ๋ฌธ์ฅ์ผ๋ก ์ธํฐ๋ฆฌ๋นํ์ฌ LLM์ ์ง์ ํตํฉํ๋ embodied multimodal language model์ด๋ค. ์ด๋ฅผ ํตํด ๋ก๋ด ์กฐ์ ๊ณํ, VQA, ์บก์ ๋ ๋ฑ ๋ค์ํ embodied reasoning ์์ ์ ์ํํ ์ ์๋ค.
Figure 2: PaLM-E-562B can do zero-shot multimodal chain-of-thought reasoning, can tell visually-conditioned jokes given
Figure 1: PaLM-E is a single general-purpose multimodal language model for embodied reasoning tasks, visual-language tas
์ดํ: PaLM-E๋ LLM์ ์ค์ ๋ก๋ด ์ ์ด์ ์ฒ์์ผ๋ก ์๋ฏธ์๊ฒ ์ ์ฉํ ํ๊ธฐ์ ์ฐ๊ตฌ๋ก, ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฅ์ end-to-end ์ฒ๋ฆฌ์ ๋ค์ค ๋๋ฉ์ธ ์์ฑ ์ด์ ์ ํตํด embodied AI ๋ถ์ผ์ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๋ค. 562B ๊ท๋ชจ์ ๋๊ท๋ชจ ๋ชจ๋ธ ๊ตฌ์ถ๊ณผ ์ค์ ๋ก๋ด ๊ฒ์ฆ, ๋ค์ํ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ๋ฅ๋ ฅ์ ์ ์ฆ์ ๋งค์ฐ ์ธ์์ ์ด๋ฉฐ, ๋ก๋ด๊ณตํ๊ณผ ๋น์ -์ธ์ด ๋ชจ๋ธ ๋ถ์ผ์ ์๋นํ ์ํฅ์ ๋ฏธ์น ๊ฒ์ผ๋ก ์์๋๋ค.