Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards

์ €์ž: Xiaoyuan Liu, Tian Liang, Zhiwei He, Jiahao Xu, Wenxuan Wang | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2505.13445 📄 PDF


Essence

Figure 1

RISE ํ”„๋ ˆ์ž„์›Œํฌ: (i) ๋ฌธ์ œ ํ’€์ด ๋ฐ ๊ฒ€์ฆ ์ƒ์„ฑ ๋‹จ๊ณ„์™€ (ii) RL ์ตœ์ ํ™” ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ "ํ‘œ๋ฉด์  ์ž๊ธฐ๋ฐ˜์„ฑ(superficial self-reflection)" ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ(verifiable rewards)์„ ํ™œ์šฉํ•˜์—ฌ ๋ฌธ์ œ ํ’€์ด ๋Šฅ๋ ฅ๊ณผ ์ž๊ธฐ๊ฒ€์ฆ ๋Šฅ๋ ฅ์„ ๋™์‹œ์— ์˜จ๋ผ์ธ์œผ๋กœ ํ•™์Šตํ•˜๋Š” RISE ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค.

Motivation

Achievement

  1. ์ถ”๋ก  ์ •ํ™•๋„ ํ–ฅ์ƒ: Qwen-3B ๊ธฐ์ค€ Zero-RL ๋ฒ ์ด์Šค๋ผ์ธ ๋Œ€๋น„ 3.7% ํ‰๊ท  ๊ฐœ์„ , ์ง€์‹œ์–ด ์กฐ์ • ๋ชจ๋ธ(Qwen-3B-Instruct)๊ณผ ๋น„๊ตํ•˜๋ฉด ์ผ๊ด€๋œ ์ƒ์œ„ ์„ฑ๋Šฅ
  2. ๊ฒ€์ฆ ๋Šฅ๋ ฅ ๋Œ€ํญ ๊ฐœ์„ : ๊ฒ€์ฆ ์ •ํ™•๋„์—์„œ ์ตœ๋Œ€ 2.8๋ฐฐ ํ–ฅ์ƒ ๋‹ฌ์„ฑ, Qwen-3B-Instruct ๋Œ€๋น„ 33.4% ์„ฑ๋Šฅ ์ด๋“
  3. ํ…Œ์ŠคํŠธ ํƒ€์ž„ ๋‹ค์ˆ˜๊ฒฐ ํˆฌํ‘œ(majority voting) ์ดˆ๊ณผ: RISE-3B์™€ RISE-7B๊ฐ€ k=4 ์ถ”๋ก  ์˜ˆ์‚ฐ ํ•˜์—์„œ ํ‘œ์ค€ ๋‹ค์ˆ˜๊ฒฐ ํˆฌํ‘œ๋ฅผ ๊ฐ๊ฐ +0.2%, +1.9% ์ƒํšŒ
  4. ๋ชจ๋ธ ๊ทœ๋ชจ ํ™•์žฅ์„ฑ: 1.5B, 3B, 7B ๋ชจ๋ธ์—์„œ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ๊ฐœ์„ ์œผ๋กœ ๋ฐฉ๋ฒ•๋ก ์˜ ์ผ๋ฐ˜์„ฑ ์ž…์ฆ

How

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ์„ ํ™œ์šฉํ•˜์—ฌ LLM์˜ ๋ฌธ์ œ ํ’€์ด์™€ ์ž๊ธฐ๊ฒ€์ฆ ๋Šฅ๋ ฅ์„ ๋™์‹œ์— ๊ฐ•ํ™”ํ•˜๋Š” ์‹ค์šฉ์ ์ด๊ณ  ํšจ๊ณผ์ ์ธ ์˜จ๋ผ์ธ RL ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ์ˆ˜ํ•™์  ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ์—์„œ์˜ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ๊ฐœ์„ ๊ณผ ์ƒ์„ธํ•œ ๋ถ„์„์œผ๋กœ ํ•™๊ณ„์˜ ์ฃผ๋ชฉํ•  ๋งŒํ•œ ๊ธฐ์—ฌ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
467์€ LLM์˜ ์ „๋žต์  reasoning ๋ฒค์น˜๋งˆํฌ ๋…ผ์˜๋กœ, 845์˜ ์ž๊ธฐ๊ฒ€์ฆ ๊ฐ•ํ™”ํ•™์Šต์˜ ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ณด์ƒ ๋ชจ๋ธ๋ง๊ณผ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์—ฐ๊ณ„ํ•˜๋Š” ์ ‘๊ทผ๋ฒ•์„ ๋‹ค๋ฃจ๊ธฐ ๋•Œ๋ฌธ์—, ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์ž๊ธฐ๊ฒ€์ฆ(RISE) ์‹œ์Šคํ…œ๊ณผ์˜ ์ด๋ก ์  ์—ฐ๊ณ„๊ฐ€ ์œ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SFT์™€ RL์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ์ฐจ์ด๋ฅผ ์‹คํ—˜์ ์œผ๋กœ ๋น„๊ตยท๋ถ„์„ํ•˜์—ฌ ๋ณธ ๋…ผ๋ฌธ์˜ ์ž๊ธฐ๊ฒ€์ฆ ์‹ฌ์ธต ํ•™์Šต ๊ตฌ์กฐ์™€ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ReTool ๋…ผ๋ฌธ์€ LLM์˜ ์ „๋žต์  ๋„๊ตฌ ์‚ฌ์šฉ์— RL์„ ์ ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ๋ฉฐ, RISE์˜ ์ž๊ธฐ๊ฒ€์ฆ ๋ฐฉ์‹์— ๊ฐ•ํ™”ํ•™์Šต์  ๊ธฐ์—ฌ์ ์„ ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
747๋ฒˆ ๋…ผ๋ฌธ์€ LLM์˜ ์ž์ฒด ๋‹จ๊ณ„๋ณ„ ์ฒดํฌ ๋Šฅ๋ ฅ์— ์ดˆ์ ์„ ๋‘๋ฉฐ LM ๊ธฐ๋ฐ˜ ์ž๊ธฐ๊ฒ€์ฆ ํ”„๋ ˆ์ž„์›Œํฌ์— ๋‹ค๋ฅธ ๊ด€์ ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Trust, But Verify๋Š” LLM์ด ํŒฉํŠธ์ฒดํ‚น ํƒœ์Šคํฌ์—์„œ ์ž๊ธฐ ๊ฒ€์ฆยท์ผ๊ด€์„ฑ ๊ฐ•ํ™”๋ฅผ ์‹œ๋„ํ•œ ์ ‘๊ทผ๋ฐฉ๋ฒ•์œผ๋กœ ProToCo์™€ ๋น„๊ต ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Self-verification/reinforcement ์ ‘๊ทผ์„ ํ†ตํ•ด LLM์˜ ์„ค๋ช… ๋ฐ ๊ฒ€์ฆ ๋Šฅ๋ ฅ์„ ๋†’์ด๋Š” ๋ฐฉ๋ฒ•๋ก  ๋น„๊ต๊ฐ€ GEEX ์—ฐ๊ตฌ์™€ ์˜๋ฏธ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Self-critique ์ค‘์‹ฌ์˜ ๋ฐ˜๋ณต์  ์ถ”๋ก  ๊ฐ•ํ™” ๊ธฐ๋ฒ•์„ ์ œ์•ˆํ•˜๋ฉฐ, ์ž๊ธฐ๊ฒ€์ฆ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต๊ณผ ๋น„๊ตํ•ด ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ๊ฐœ์„ ์„ ์œ„ํ•œ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์ด๋‚˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—์ด์ „ํŠธ ๊ฒ€์ฆ-์•ˆ์ „์„ฑ ์ธก๋ฉด์—์„œ Reinforcement ๊ธฐ๋ฐ˜ ์ž์œจ์  ๊ฒ€์ฆ(์ž๊ธฐ๊ฒ€์ฆ/๊ณ„์•ฝ ์œ„๋ฐ˜ ๊ฐ์ง€)์ด๋ผ๋Š” ๋ณ„๋„์˜ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
470์€ LLM์˜ ์ž๊ธฐ๊ฐœ์„  ํ•™์Šต๊ณผ ์ž๊ธฐ๋ฐ˜์„ฑ์˜ ๊ธฐ๋ฒ•์„ ๋‹ค๋ฃจ์–ด, 845์—์„œ ์ œ์•ˆํ•œ RISE ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํ™•์žฅ ๋…ผ์˜๋ฅผ ๋ณด์™„ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Trust, But Verify ๋…ผ๋ฌธ์€ ์ž๊ธฐ ํ™•์ธ(self-verification)์œผ๋กœ ์ •๋‹ต๋ฅ ์„ ๋†’์ด๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜์—ฌ LaMAI์˜ ์‘๋‹ต ํ’ˆ์งˆ ๊ฐœ์„ ์˜ ํ™•์žฅ ์—ฐ๊ตฌ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
845๋Š” LLM์˜ ์ž๊ธฐ ๊ฒ€์ฆ ๊ธฐ๋ฐ˜ ์‹ ๋ขฐ ๋ณด๊ฐ• ์ ‘๊ทผ์„ ์‹คํ—˜ํ•˜์—ฌ, 736์˜ LLM ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ์ดํ›„์˜ ๊ฐœ์„  ๋ฐฉํ–ฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
665๋ฒˆ ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ๊ณผ์ •์—์„œ ์ž๊ธฐ๊ฒ€์ฆ, ๋…ผ๋ฆฌ๋ฌธ์ œ ํ•ด๊ฒฐ ๋“ฑ์— LLM์„ ์–ด๋–ป๊ฒŒ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์‹ฌ์ธต์ ์œผ๋กœ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
845 ๋…ผ๋ฌธ์€ 844์™€ ์œ ์‚ฌํ•˜๊ฒŒ LLM์˜ ์ž๊ธฐ ๊ฒ€์ฆ ๋ฐ ์œ ๋™์  ์ถ”๋ก  ํ‰๊ฐ€ (Self-Verification Bench)๋ฅผ ์ค‘์ ์ ์œผ๋กœ ๋‹ค๋ฃจ์–ด ์ƒํ˜ธ ๋ณด์™„ ํšจ๊ณผ๊ฐ€ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
845๋ฒˆ ๋…ผ๋ฌธ์€ ์ž๊ธฐ ๊ฒ€์ฆ์  ๊ฐ•ํ™”ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, 395๋ฒˆ์˜ ์•ˆ์ „์„ฑ ์ง€ํ–ฅ ์žฅ๋ฒฝํ•จ์ˆ˜์™€ ์‹œ๋„ˆ์ง€ ๋˜๋Š” ์ƒํ˜ธ ๋ณด์™„์  ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
โ€˜Trust, But Verifyโ€™ ๋…ผ๋ฌธ์€ ์ž๊ธฐ๊ฒ€์ฆ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ์˜ˆ์ธก ์‹ ๋ขฐ์„ฑ ํŒ๋‹จ, ์„ ํƒ์  ์˜ˆ์ธก์˜ ๊ทผ๋ณธ์  ๋ฐฉํ–ฅ์„ฑ๊ณผ ๋งž๋‹ฟ์•„ ์žˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
Geometry Informed Tokenization of Molecules ๋…ผ๋ฌธ์€ LLM-RL ์กฐํ•ฉ ์—†์ด๋„ ๊ณผํ•™ ์ถ”๋ก ์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ๊ฒ€์ฆ์„ฑ์„ ๋ณด์žฅํ•˜๋Š” ๊ตฌ์กฐ๋ฅผ ์‹คํ—˜ํ•ด ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์ž๊ธฐ๊ฒ€์ฆ๊ณผ ํ•œ๊ณ„์  ๋น„๊ต์— ๋„์›€์ด ๋œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •