์ ์: Marcel Torne, Karl Pertsch, Homer Walke, Kyle Vedder, Suraj Nair, Brian Ichter, Allen Z. Ren, Haohuan Wang, Jiaming Tang, Kyle Stachowicz, Karan Dhabalia, Michael Equi, Quan Vuong, Jost Tobias Springenberg, Sergey Levine, Chelsea Finn, Danny Driess | ๋ ์ง: 2026-03-04 | URL: https://arxiv.org/abs/2603.03596 📄 PDF
Fig. 1: Multi-Scale Embodied Memory (MEM) equips Vision Language Action Models (VLAs) with memory for solving long-horiz
๋ก๋ด์ ์ฅ์๊ฐ ์์ ์ ์ํด ๋น๋์ค ๊ธฐ๋ฐ ๋จ๊ธฐ ๋ฉ๋ชจ๋ฆฌ์ ํ ์คํธ ๊ธฐ๋ฐ ์ฅ๊ธฐ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ฒฐํฉํ Multi-Scale Embodied Memory (MEM)์ ์ ์ํ์ฌ, 15๋ถ ์ด์์ ๋ณต์กํ ์กฐ์ ์์ ์ ์ํํ ์ ์๋ Vision Language Action ๋ชจ๋ธ์ ๊ตฌํํ๋ค.
Fig. 1: Multi-Scale Embodied Memory (MEM) equips Vision Language Action Models (VLAs) with memory for solving long-horiz
Figure 2 shows an overview of our MEM system. Our goal
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ๋ก๋ด์ ์ฅ์๊ฐ ์์ ์ ์ํ ๋ค์ค ์ค์ผ์ผ ๋ฉ๋ชจ๋ฆฌ ์ํคํ ์ฒ๋ฅผ ์ฐฝ์์ ์ผ๋ก ์ ์ํ์ฌ 15๋ถ ์ด์์ ๋ณต์กํ ์กฐ์ ์์ ์ ์ฒ์์ผ๋ก ์ฑ๊ณต์ ์ผ๋ก ๊ตฌํํ์ผ๋ฉฐ, ์ด๋ ์ค์ ๋ก๋ด ์๋ํ์ ์ค์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํค๋ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.