์ ์: Wenxuan Song, Jiayi Chen, Pengxiang Ding, Yuxin Huang, Han Zhao, Donglin Wang, Haoang Li | ๋ ์ง: 2025-06-16 | URL: https://arxiv.org/abs/2506.13725 📄 PDF
Figure 1: Acceleration effect of CEED-VLA on OpenVLA and LLaVA-VLA. Left: Comparison
Vision-Language-Action (VLA) ๋ชจ๋ธ์ ์ถ๋ก ์๋๋ฅผ ํฅ์์ํค๊ธฐ ์ํด consistency distillation๊ณผ early-exit decoding์ ๊ฒฐํฉํ CEED-VLA๋ฅผ ์ ์ํ๋ฉฐ, 4๋ฐฐ ์ด์์ ๊ฐ์ํ๋ฅผ ๋ฌ์ฑํ๋ค.
Figure 1: Acceleration effect of CEED-VLA on OpenVLA and LLaVA-VLA. Left: Comparison
Figure 2: Overview of our proposed CEED-VLA. Our proposed framework first runs the pretrained
์ดํ: CEED-VLA๋ consistency distillation๊ณผ early-exit decoding์ ๊ฒฐํฉํ์ฌ VLA ์ถ๋ก ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ํํ๋ฉฐ, ์ค์ ๋ก๋ด ๋ฐฐํฌ์์ 4๋ฐฐ ์ด์์ ์๋ ๊ฐ์ ์ ๋ฌ์ฑํ๋ฉด์๋ ์กฐ์ ์ฑ๋ฅ์ ์ ์งํ๋ ์ค์ฉ์ ์ด๊ณ ์ผ๋ฐํ ๊ฐ๋ฅํ ํด๊ฒฐ์ฑ ์ ์ ์ํ๋ค.