์ ์: Chilam Cheang, Sijin Chen, Zhongren Cui, Yingdong Hu, Liqun Huang, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Xiao Ma, Hao Niu, Wenxuan Ou, Wanli Peng, Zeyu Ren, Haixin Shi, Jiawen Tian, Hongtao Wu, Xin Xiao, Yuyang Xiao, Jiafeng Xu, Yichu Yang | ๋ ์ง: 2025-07-21 | URL: https://arxiv.org/abs/2507.15493 📄 PDF
Figure 1 Overview. GR-3 is able to learn from three types of data: vision-language data, robot trajectory data,
GR-3๋ vision-language-action (VLA) ๋ชจ๋ธ๋ก, ์น ๊ท๋ชจ vision-language ๋ฐ์ดํฐ์ ๋ก๋ด ๊ถค์ ๋ฐ์ดํฐ์ co-training์ ํตํด ์ผ๋ฐํ ๋ฅ๋ ฅ, ํจ์จ์ ๋ฏธ์ธ์กฐ์ , ์ฅ๊ธฐ ์งํ ์์ ์ํ ๋ฅ๋ ฅ์ ๊ฐ์ถ ๋ฒ์ฉ ๋ก๋ด ์ ์ฑ ์ ๊ตฌํํ๋ค.
Figure 2 Capabilities. GR-3 strictly follows instructions and is capable of understanding unseen instructions involving
Figure 3 The GR-3 Model. GR-3 is co-trained on both robot trajectories and vision-language data with a flow-matching
์ดํ: GR-3๋ co-training, auxiliary supervision, VR ๊ธฐ๋ฐ ํจ์จ์ ์ ์ ๋ฑ ์ฌ๋ฌ ํ์ ๊ธฐ๋ฒ์ ์ข ํฉํ ์ค์ง์ ์ผ๋ก ๊ฒฌ๊ณ ํ VLA ๋ชจ๋ธ๋ก์, ์ฅ๊ธฐ ์งํ๊ณผ ์ ๊ตํ ์กฐ์ ์์ ์์ SOTA๋ฅผ ๋ฌ์ฑํ์ผ๋, ํ๊ฐ ๋ฒ์์ ์ ํ๊ณผ ๋ถ๋ถ์ ablation ๋ถ์์ผ๋ก ์ธํด ์์ ํ ๊ธฐ์ฌ ๋ช ํํ์๋ ๋ค์ ๋ฏธํกํ๋ค.