์ ์: Hongyu Wang, Chuyan Xiong, Ruiping Wang, Xilin Chen | ๋ ์ง: 2025-06-09 | URL: https://arxiv.org/abs/2506.07530 📄 PDF
Fig. 1: We introduce BitVLA, the first fully native 1-bit vision-language-action (VLA) model for robotic manipulation, i
๋ก๋ด ์กฐ์์ ์ํ ์์ ํ 1-bit Vision-Language-Action ๋ชจ๋ธ์ธ BitVLA๋ฅผ ์ ์ํ์ฌ 11.0๋ฐฐ์ ๋ฉ๋ชจ๋ฆฌ ๊ฐ์์ 4.4๋ฐฐ์ ์ง์ฐ ์๊ฐ ๋จ์ถ์ ๋ฌ์ฑํ๋ฉด์๋ full-precision ๊ธฐ์ค ๋ชจ๋ธ๊ณผ ๋น์ทํ ์ฑ๋ฅ์ ์ ์งํ๋ค.
Fig. 1: We introduce BitVLA, the first fully native 1-bit vision-language-action (VLA) model for robotic manipulation, i
Fig. 2: Overview of the three-stage training pipeline in BitVLA. We first perform multimodal training with a 1-bit LLM
์ดํ: BitVLA๋ ๋ก๋ด ์กฐ์์ฉ VLA ๋ชจ๋ธ์ ๊ทน๋จ์ ์์ํ์ ์ฒซ ์ฑ๊ณต์ ์ฌ๋ก๋ก, Quantize-then-Distill์ด๋ผ๋ ํ์ ์ ํ๋ จ ์ ๋ต์ ํตํด 11๋ฐฐ ๋ฉ๋ชจ๋ฆฌ ๊ฐ์์ 4.4๋ฐฐ ์๋ ํฅ์์ ๋ฌ์ฑํ๋ฉด์๋ ์ฑ๋ฅ์ ์ ์งํ์ฌ ์ฃ์ง ๋ก๋ด ๋ฐฐํฌ์ ์ค์ง์ ๊ฒฝ๋ก๋ฅผ ์ ์ํ๋ค.