์ ์: Haozhe Xie, Beichen Wen, Jiarui Zheng, Zhaoxi Chen, Fangzhou Hong, Haiwen Diao, Ziwei Liu | ๋ ์ง: 2026-01-29 | URL: https://arxiv.org/abs/2601.22153 📄 PDF
Fig. 2: Overview of DynamicVLA. (a) A 0.4B-parameter VLA architecture couples a lightweight backbone with an action
DynamicVLA๋ ๋์ ๊ฐ์ฒด ์กฐ์์ ์ํ compact 0.4B VLA ๋ชจ๋ธ๋ก, Continuous Inference์ Latent-aware Action Streaming์ ํตํด ์ง๊ฐ-์คํ ๊ฐ์ ์ง์ฐ์ ์ ๊ฑฐํ๊ณ ์ค์๊ฐ ํ๋ฃจํ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Fig. 1: (a) Current VLA models face perceptionโexecution (P.E.) gaps and inter-chunk waiting, causing delayed reactions
Fig. 2: Overview of DynamicVLA. (a) A 0.4B-parameter VLA architecture couples a lightweight backbone with an action
์ดํ: DynamicVLA๋ ๋์ ๊ฐ์ฒด ์กฐ์์ด๋ผ๋ ์ค์ํ ๋ฏธํด๊ฒฐ ๋ฌธ์ ์ ๋ํด ์ฒด๊ณ์ ์ธ ๋ชจ๋ธ ์ค๊ณ, ์ค์๊ฐ ์คํ ๋ฉ์ปค๋์ฆ, ๋๊ท๋ชจ ๋ฒค์น๋งํฌ๋ฅผ ์ข ํฉ์ ์ผ๋ก ์ ์ํ๋ ์๋ฏธ ์๋ ์ฐ๊ตฌ๋ก, ํนํ Latent-aware Action Streaming๊ณผ ์๋ํ๋ ๋ฐ์ดํฐ ์์ง ํ์ดํ๋ผ์ธ์ ํ์ ์ฑ์ด ๋๋๋ฌ์ง๋ค.