์ ์: Siyu Xu, Yunke Wang, Chenghao Xia, Dihao Zhu, Tao Huang, Chang Xu | ๋ ์ง: 2025-02-04 | URL: https://arxiv.org/abs/2502.02175 📄 PDF
Figure 1: During the inference of the VLA model, static
VLA-Cache๋ ๋ก๋ด ์กฐ์ ์์ ์์ ์ธ์ ํ ํ๋ ์ ๊ฐ์ ์๊ฐ์ ์ค๋ณต์ฑ์ ํ์ฉํ์ฌ ์ ์ ์๊ฐ ํ ํฐ์ KV ํํ์ ์บ์ฑํ๊ณ ์ฌ์ฌ์ฉํจ์ผ๋ก์จ Vision-Language-Action ๋ชจ๋ธ์ ์ถ๋ก ์ ๊ฐ์ํํ๋ ํ์ต ๋ถํ์ ๋ฐฉ๋ฒ์ด๋ค.
Figure 4: Visualization of VLA-Cache token reuse across settings. (a) LIBERO simulation with
Figure 2: VLA-Cache accelerates the VLAโs language decoding process across timesteps via the
์ดํ: VLA-Cache๋ ๋ก๋ด ์กฐ์์ ์๊ฐ์ ํน์ฑ์ ์ฐฝ์์ ์ผ๋ก ํ์ฉํ์ฌ ํ์ต ๋ถํ์ํ ์ํ์์ ์ค์ง์ ์ถ๋ก ๊ฐ์์ ๋ฌ์ฑํ ์ค์ฉ์ ์ด๊ณ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค. ์์ ๊ด๋ จ์ฑ ํํฐ๋ง๊ณผ layer-adaptive ์ ๋ต์ ์ ๊ตํจ๊ณผ ๊ด๋ฒ์ํ ์ค์ฆ์ด ๋์ ๊ฐ์น๋ฅผ ์ ๊ณตํ๋ค.