Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback

์ €์ž: Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2506.03106 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: (a) Critique-GRPO๋Š” ์ˆ˜์น˜ ํ”ผ๋“œ๋ฐฑ๋งŒ์ด ์•„๋‹Œ ์ž์—ฐ์–ด ํ”ผ๋“œ๋ฐฑ(๋น„ํŒ)์„ ํ†ตํ•ด ์ดˆ๊ธฐ ์‘๋‹ต๊ณผ ์ž๊ธฐ ๊ฐœ์„  ๋ชจ๋‘์—์„œ ํ•™์Šต ๊ฐ€๋Šฅ. (b) Qwen3-8B์—์„œ 8๊ฐ€์ง€ ์ถ”๋ก  ๊ณผ์ œ ํ‰๊ท  Pass@1 4.5% ๊ฐœ์„ . (c) ์ž๊ธฐ ๋น„ํŒ์„ ํ†ตํ•œ ์ž๊ธฐ ๊ฐœ์„ ์œผ๋กœ AIME 2024์—์„œ 66.7% Pass@1 ๋‹ฌ์„ฑ.

๋ณธ ๋…ผ๋ฌธ์€ ์ˆœ์ˆ˜ ์ˆ˜์น˜ ๋ณด์ƒ(numerical rewards)์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์ž์—ฐ์–ธ์–ด ๋น„ํŒ(natural language critiques)์„ ์˜จ๋ผ์ธ ๊ฐ•ํ™”ํ•™์Šต(online RL) ํ”„๋ ˆ์ž„์›Œํฌ์— ํ†ตํ•ฉํ•œ Critique-GRPO๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ด๋Š” LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์ด๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: Critique-GRPO ๊ฐœ์š”. ์งˆ๋ฌธ์— ๋Œ€ํ•ด ์ดˆ๊ธฐ ์‘๋‹ต์„ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , ๋ณด์ƒ ์‹œ์Šคํ…œ์˜ ๋น„ํŒ์„ ํ™œ์šฉํ•˜์—ฌ in-context learning์œผ๋กœ ์‘๋‹ต์„ ๊ฐœ์„ . ์ด๋ฅผ ์ดˆ๊ธฐ ์‘๋‹ต๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ์ •์ฑ… ์ตœ์ ํ™” ์ˆ˜ํ–‰.

  1. ๊ด‘๋ฒ”์œ„ํ•œ ์„ฑ๋Šฅ ๊ฐœ์„ :
    • Qwen ๋ชจ๋ธ ๊ณ„์—ด์—์„œ ํ‰๊ท  Pass@1 +15.0-21.6% ๊ฐœ์„ 
    • Llama-3.2-3B-Instruct์—์„œ +7.3% ๊ฐœ์„ 
    • 8๊ฐ€์ง€ ๋„์ „์ ์ธ ์ถ”๋ก  ๊ณผ์ œ(reasoning benchmarks) ์ „๋ฐ˜์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ
  2. ์ž๊ธฐ ๋น„ํŒ์„ ํ†ตํ•œ ์ž๊ธฐ ๊ฐœ์„ :
    • ์ž๊ธฐ ์ƒ์„ฑ ๋น„ํŒ(self-generated critiques)๋งŒ์œผ๋กœ๋„ GRPO ๋Œ€๋น„ +16.7% Pass@1 ๊ฐœ์„  ๋‹ฌ์„ฑ (AIME 2024)
    • ๋ชจ๋ธ์ด ์™ธ๋ถ€ ์ „๋ฌธ๊ฐ€์— ์˜์กดํ•˜์ง€ ์•Š๊ณ ๋„ ์ž์œจ์  ๊ฐœ์„  ๊ฐ€๋Šฅ
  3. ๋น„ํŒ ์†Œ์Šค์˜ ๊ฐ•๊ฑด์„ฑ:
    • ๊ทœ์น™ ๊ธฐ๋ฐ˜(rule-based) ๋ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ˜(model-based) ๋ณด์ƒ ์‹œ์Šคํ…œ ๋ชจ๋‘์—์„œ ์ผ๊ด€๋œ ๊ฐœ์„ 
    • ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋น„ํŒ(์ง€์‹œ์  ๋น„ํŒ, ๊ทผ๊ฑฐ ํฌํ•จ ๋น„ํŒ, ์—ฐ์‡„์  ์‚ฌ๊ณ  ๋น„ํŒ)์— ๋ชจ๋‘ ๋Œ€์‘

How

Figure 3

๊ทธ๋ฆผ 3: [์ƒ์„ธ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์‹œ๊ฐํ™”]

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์ˆœ์ˆ˜ ์ˆ˜์น˜ ํ”ผ๋“œ๋ฐฑ RL์˜ ๊ตฌ์ฒด์  ํ•œ๊ณ„๋ฅผ ์‹ค์ฆ์ ์œผ๋กœ ๊ทœ๋ช…ํ•˜๊ณ , ์ž์—ฐ์–ธ์–ด ๋น„ํŒ๊ณผ์˜ ํ†ตํ•ฉ์„ ํ†ตํ•ด ์˜จ๋ผ์ธ RL ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ํ™•์žฅํ•œ ์˜๋ฏธ ์žˆ๋Š” ์—ฐ๊ตฌ์ด๋‹ค. ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ์™€ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ๊ฐœ์„ ์€ ์‹ค์šฉ์  ๊ฐ€์น˜๊ฐ€ ๋†’์œผ๋‚˜, ์ด๋ก ์  ๊นŠ์ด์™€ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ ์ธก๋ฉด์—์„œ๋Š” ์ถ”๊ฐ€ ๊ฐœ์„ ์˜ ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
283 ๋…ผ๋ฌธ์€ AI ๋„์šฐ๋ฏธ ์‚ฌ์šฉ์‹œ ๋ฐœ์ƒํ•˜๋Š” reasoning ์ทจ์•ฝ ๋ฐ ์˜ค๋ฅ˜์‚ฌ๋ก€๋ฅผ ๋ถ„์„ํ•˜์—ฌ, 243์˜ ์ž์—ฐ์–ธ์–ด ๋น„ํŒ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต์˜ ํ•„์š”์„ฑ๊ณผ ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
RM-R1(683)์€ ๋ณด์ƒ๋ชจ๋ธ์„ ํ†ตํ•œ LLM์˜ ๋…ผ๋ฆฌ์  ์ถ”๋ก  ๊ฐ•ํ™” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜์—ฌ 243์˜ ์ž์—ฐ์–ด+์ˆ˜์น˜ ๋ณด์ƒ ํ†ตํ•ฉ ์ ‘๊ทผ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ตฌ์กฐ์  ์ •๋ณด์˜ ๊ธฐ๊ณ„์  ํ•ด์„๊ณผ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ์–ด, 3243์˜ SCI์™€ ์œ ์‚ฌ ํ‰๊ฐ€ ์ง€ํ‘œ ๊ฐœ๋ฐœ์— ์ฐธ์กฐ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Selfcheck(747)๋Š” LLM์˜ ๋‹จ๊ณ„๋ณ„ ์ž๊ธฐ๊ฒ€์ฆ ๋ฐฉ์‹์„ ํ™œ์šฉํ•˜์—ฌ 243์˜ ์ž์—ฐ์–ด ์งˆ์˜ ๋น„ํŒ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต ์‚ฌ๊ณ ์™€ ๋Œ€์กฐ๋˜๋Š” ๋ณด์ • ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Selfcheck ๋…ผ๋ฌธ์€ LLM์˜ ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ ์ž๊ธฐ ๊ฒ€์ฆ์„ ํ†ตํ•ด ํ’ˆ์งˆ ํ–ฅ์ƒ์„ ๋„๋ชจํ•ด, Critique-GRPO์˜ ์™ธ๋ถ€ ์ž์—ฐ์–ธ์–ด ๋น„ํŒ๊ณผ ๋‹ค๋ฅธ ์ ‘๊ทผ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์— ๊ธฐ๋ฐ˜ํ•œ ๊ณผํ•™์  ์ถ”๋ก ยท๋ฌธ์ œ ํ•ด๊ฒฐ ์ž๋™ํ™”๋ผ๋Š” ํฐ ํ‹€์—์„œ Critique-GRPO์™€ MechAgents๋Š” ๊ฐ๊ฐ ์ž์—ฐ์–ธ์–ด ํ”ผ๋“œ๋ฐฑ๊ณผ ๋‹ค์ค‘์—์ด์ „ํŠธ ํ˜‘์—…์œผ๋กœ ์ ‘๊ทผํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
665 ๋…ผ๋ฌธ์€ LLM์ด ๋…ผ๋ฌธ ํ‰๊ฐ€์—์„œ chain-of-thought์™€ ๋น„ํŒ์  reasoning์„ ํ™œ์šฉํ•˜๋Š” ์ ‘๊ทผ์„ ๋‹ค๋ฃจ์–ด, 243์—์„œ ๋น„ํŒ์  ํ”ผ๋“œ๋ฐฑ์„ RL์— ์ ‘๋ชฉ์‹œํ‚จ ๊ฒƒ๊ณผ ์—ฐ๊ฒฐ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™”๋ฅผ ์œ„ํ•œ ๋Œ€์•ˆ์  ์ž๋™ํ™” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Critique-GRPO ๋…ผ๋ฌธ์€ ์ž์—ฐ์–ด ๋น„ํŒ ๋ฐ ์ž๊ธฐ ๋ถ„์„์„ ํ†ตํ•œ LLM ์ถ”๋ก  ๊ฐ•ํ™” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜์—ฌ, WoT ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์‹ค์งˆ ์ ์šฉ ์‚ฌ๋ก€๋กœ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •