์ ์: Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu | ๋ ์ง: 2025 | DOI: 10.48550/arXiv.2506.03106 📄 PDF
๊ทธ๋ฆผ 1: (a) Critique-GRPO๋ ์์น ํผ๋๋ฐฑ๋ง์ด ์๋ ์์ฐ์ด ํผ๋๋ฐฑ(๋นํ)์ ํตํด ์ด๊ธฐ ์๋ต๊ณผ ์๊ธฐ ๊ฐ์ ๋ชจ๋์์ ํ์ต ๊ฐ๋ฅ. (b) Qwen3-8B์์ 8๊ฐ์ง ์ถ๋ก ๊ณผ์ ํ๊ท Pass@1 4.5% ๊ฐ์ . (c) ์๊ธฐ ๋นํ์ ํตํ ์๊ธฐ ๊ฐ์ ์ผ๋ก AIME 2024์์ 66.7% Pass@1 ๋ฌ์ฑ.
๋ณธ ๋ ผ๋ฌธ์ ์์ ์์น ๋ณด์(numerical rewards)์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ์์ฐ์ธ์ด ๋นํ(natural language critiques)์ ์จ๋ผ์ธ ๊ฐํํ์ต(online RL) ํ๋ ์์ํฌ์ ํตํฉํ Critique-GRPO๋ฅผ ์ ์ํ๋ค. ์ด๋ LLM์ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ด๋ค.
๊ทธ๋ฆผ 2: Critique-GRPO ๊ฐ์. ์ง๋ฌธ์ ๋ํด ์ด๊ธฐ ์๋ต์ ์ํ๋งํ๊ณ , ๋ณด์ ์์คํ ์ ๋นํ์ ํ์ฉํ์ฌ in-context learning์ผ๋ก ์๋ต์ ๊ฐ์ . ์ด๋ฅผ ์ด๊ธฐ ์๋ต๊ณผ ๊ฒฐํฉํ์ฌ ์ ์ฑ ์ต์ ํ ์ํ.
๊ทธ๋ฆผ 3: [์์ธ ๋ฉ์ปค๋์ฆ ์๊ฐํ]
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ์์ ์์น ํผ๋๋ฐฑ RL์ ๊ตฌ์ฒด์ ํ๊ณ๋ฅผ ์ค์ฆ์ ์ผ๋ก ๊ท๋ช ํ๊ณ , ์์ฐ์ธ์ด ๋นํ๊ณผ์ ํตํฉ์ ํตํด ์จ๋ผ์ธ RL ํ๋ ์์ํฌ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ํ์ฅํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค. ๊ด๋ฒ์ํ ์คํ ๊ฒฐ๊ณผ์ ์ผ๊ด๋ ์ฑ๋ฅ ๊ฐ์ ์ ์ค์ฉ์ ๊ฐ์น๊ฐ ๋์ผ๋, ์ด๋ก ์ ๊น์ด์ ๊ณ์ฐ ํจ์จ์ฑ ์ธก๋ฉด์์๋ ์ถ๊ฐ ๊ฐ์ ์ ์ฌ์ง๊ฐ ์๋ค.