์ ์: Wenkai Guo, Guanxing Lu, Haoyuan Deng, Zhenyu Wu, Yansong Tang, Ziwei Wang | ๋ ์ง: 2025-09-26 | URL: https://arxiv.org/abs/2509.22643 📄 PDF
Fig. 2: The overall pipeline of VLA-Reasoner. At test time, a lightweight and modified MCTS searches for the optimal act
VLA-Reasoner๋ Vision-Language-Action ๋ชจ๋ธ์ test-time MCTS๋ฅผ ํตํฉํ์ฌ ์ฅ๊ธฐ ์งํ ๋ก๋ด ์กฐ์ ์์ ์์ ๋์ ํธ์ฐจ๋ฅผ ํด๊ฒฐํ๊ณ ๋ฏธ๋ ์ํ๋ฅผ ์์ธกํ๋ ํ๋ฌ๊ทธ์ธ ํ๋ ์์ํฌ์ด๋ค.
Fig. 1: VLA-Reasoner augments VLA models with test-time rea-
Fig. 2: The overall pipeline of VLA-Reasoner. At test time, a lightweight and modified MCTS searches for the optimal act
์ดํ: VLA-Reasoner๋ test-time ์ถ๋ก ์ ํตํด VLA์ ๊ทผ๋ณธ์ ์ธ ๋จ๊ธฐ ์์ผ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๋ ์ฐ์ํ ํ๋ ์์ํฌ๋ก, KDE ์ํ๋ง๊ณผ offline value estimation์ ์ค์ง์ ๊ธฐ์ฌ์ ํจ๊ป ์๋ฎฌ๋ ์ด์ ๊ณผ ์ค์ ๋ก๋ด์์ ์ผ๊ด๋ ๊ฐ์ ์ ๋ณด์ฌ์ฃผ๋ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค.