์ ์: Noriaki Hirose, Catherine Glossop, Dhruv Shah, Sergey Levine | ๋ ์ง: 2025-09-23 | URL: https://arxiv.org/abs/2509.19480 📄 PDF
Fig. 1: We train a highly generalizable vision-based navigation policy with flexible conditioning, leveraging over 9,500
OmniVLA๋ 2D ํฌ์ฆ, egocentric ์ด๋ฏธ์ง, ์์ฐ์ด ๋ฑ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ์กฐ๊ฑดํ๋ ๋ชฉํ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ omni-modal vision-language-action ๋ชจ๋ธ๋ก, 9,500์๊ฐ ์ด์์ ๋ค์ค ํ๋ซํผ ๋ก๋ด ๋ค๋น๊ฒ์ด์ ๋ฐ์ดํฐ๋ก ํ์ต๋์ด ๊ฐ๋ ฅํ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
์ดํ: OmniVLA๋ ๋ก๋ด ๋ค๋น๊ฒ์ด์ ์ omni-modal ์กฐ๊ฑดํ๋ฅผ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ๋์ ํ ๊ฐ๋ ฅํ foundation model๋ก, ๋๊ท๋ชจ ๋ค์ค ํ๋ซํผ ๋ฐ์ดํฐ์ ํจ๊ณผ์ ์ธ ๋ชจ๋ฌ๋ฆฌํฐ fusion ์ ๋ต์ผ๋ก ๊ธฐ์กด specialist ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ๊ณผ ์ ์ฐ์ฑ์ ๋ฌ์ฑํ๋ค. ์ด๋ ๋ก๋ด ๊ธฐ์ด ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฐ ํ์ฅ์ฑ ์ฐ๊ตฌ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.