์ ์: Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn | ๋ ์ง: 2024-06-13 | URL: https://arxiv.org/abs/2406.09246 📄 PDF
Figure 1: We present OpenVLA, a 7B-parameter open-source vision-language-action model (VLA), trained
OpenVLA๋ 970k๊ฐ์ ๋ก๋ด ์์ฐ ๋ฐ์ดํฐ๋ก ํ์ต๋ 7B ํ๋ผ๋ฏธํฐ์ ์คํ์์ค Vision-Language-Action ๋ชจ๋ธ๋ก, ํ์ํ ๋ชจ๋ธ๋ค๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉด์ ํจ์จ์ ์ธ ๋ฏธ์ธ์กฐ์ ๊ณผ ๋ฐฐํฌ๋ฅผ ์ง์ํ๋ค.
Figure 3: BridgeData V2 WidowX robot evaluation tasks and results. We evaluate OpenVLA and prior
Figure 2: OpenVLA model architecture. Given an image observation and a language instruction, the model
์ดํ: OpenVLA๋ ํ์ํ ๋๊ท๋ชจ VLA ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ ์์ ํ๋ผ๋ฏธํฐ๋ก ๋ฌ์ฑํ๋ฉด์ ์์ ํ ์คํ์์ค ๊ณต๊ฐ์ ํจ์จ์ ๋ฏธ์ธ์กฐ์ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ ๋ก๋ด ๋ถ์ผ์ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ ์ํ๊ณ ๊ตฌ์ถ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.