์ ์: Hongzhi Zang, Mingjie Wei, Si Xu, Yongji Wu, Zhen Guo, Yuanqing Wang, Hao Lin, Peihong Wang, Liangzhi Shi, Yuqing Xie, Zhexuan Xu, Zhihao Liu, Kang Chen, Wenhao Tang, Quanlu Zhang, Weinan Zhang, Chao Yu, Yu Wang | ๋ ์ง: 2025-10-08 | URL: https://arxiv.org/abs/2510.06710 📄 PDF
Fig. 1:
RLinf-VLA๋ Vision-Language-Action ๋ชจ๋ธ์ ๊ฐํํ์ต ํ๋ จ์ ์ํ ํตํฉ๋๊ณ ํจ์จ์ ์ธ ํ๋ ์์ํฌ๋ก, ๋ค์ํ VLA ์ํคํ ์ฒ, RL ์๊ณ ๋ฆฌ์ฆ, ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ง์ํ๋ฉฐ GPU ํ ๋น ์ต์ ํ๋ฅผ ํตํด 2.27๋ฐฐ ์๋ ํฅ์์ ๋ฌ์ฑํ๋ค.
Fig. 1:
์ดํ: RLinf-VLA๋ VLA ๊ฐํํ์ต ์ฐ๊ตฌ์ ๋จํธํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ํฌ๊ด์ ํตํฉ ํ๋ ์์ํฌ์ด๋ฉฐ, GPU ํ ๋น ์ต์ ํ๋ฅผ ํตํ ์ค์ง์ ํจ์จ์ฑ ๊ฐ์ ๊ณผ ๊ฐ๋ ฅํ ์คํ ๊ฒฐ๊ณผ๋ก ๊ตฌ์ฒดํ ์ธํ ๋ฆฌ์ ์ค ์ฐ๊ตฌ์ ์ฃผ์ ๊ธฐ์ด ์์ค๋ก์์ ๊ฐ์น๋ฅผ ์ ์ฆํ๋ค.