์ ์: Yunfei Li, Xiao Ma, Jiafeng Xu, Yu Cui, Zhongren Cui, Zhigang Han, Liqun Huang, Tao Kong, Yuxiao Liu, Hao Niu, Wanli Peng, Jingchao Qiao, Zeyu Ren, Haixin Shi, Zhi Su, Jiawen Tian, Yuyang Xiao, Shenyu Zhang, Liwei Zheng, Hang Li, Yonghui Wu | ๋ ์ง: 2025-12-01 | URL: https://arxiv.org/abs/2512.01801 📄 PDF
Figure 1 GR-RL performs long-horizon, dexterous, and high-precision manipulation, in the task of shoe lacing, by
GR-RL์ ์ผ๋ฐ์ ์ธ vision-language-action (VLA) ์ ์ฑ ์ ๋ค๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ(๋ฐ์ดํฐ ํํฐ๋ง, ํํ ๋์นญ ์ฆ๊ฐ, ์จ๋ผ์ธ RL)์ ํตํด ์ฅ๊ธฐ ๋ณต์ก ์กฐ์์ ์ํ ๊ณ ์ ๋ฐ ์ ๋ฌธ๊ฐ ์ ์ฑ ์ผ๋ก ๋ณํํ๋ ๋ก๋ด ํ์ต ํ๋ ์์ํฌ์ด๋ค.
Figure 5 Left: the success rate of our multi-stage training recipe. Data filtering, mirror augmentation, and online
Figure 2
์ดํ: GR-RL์ ์ธ๊ฐ ์์ฐ์ ๋ถ๋ถ์ต์ ์ฑ๊ณผ ํ์ต-๋ฐฐํฌ ๋ถ์ผ์น๋ผ๋ ์ค์ง์ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๋ ์ค์ฉ์ ์ธ ๋ค๋จ๊ณ ํ์ดํ๋ผ์ธ์ ์ ์ํ๋ฉฐ, ์ ๋ฐ๋ ๊ฟฐ๊ธฐ์ ๊ฐ์ ๊ทน๋๋ก ์ ๋ฐํ ์กฐ์ ๊ณผ์ ๋ฅผ ์ฑ๊ณต์ํด์ผ๋ก์จ ๋ก๋ด ๊ธฐ์ด ๋ชจ๋ธ์ ์ ๋ฌธํ ๋ฐฉํฅ์ ์ ์ํ๋ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.