RM-R1: Reward Modeling as Reasoning

์ €์ž: Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2505.02387 📄 PDF


Essence

๋ณด์ƒ ๋ชจ๋ธ(Reward Model, RM)์— ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ†ตํ•ฉํ•จ์œผ๋กœ์จ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ๋ชจ๋‘ ํ–ฅ์ƒ์‹œํ‚จ ์ƒˆ๋กœ์šด ํด๋ž˜์Šค์˜ ์ƒ์„ฑํ˜• ๋ณด์ƒ ๋ชจ๋ธ์ธ RM-R1์„ ์ œ์‹œํ•œ๋‹ค. Chain-of-Rubrics(CoR) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ์ž‘์—… ํŠน์„ฑ์— ๋งž์ถ˜ ๋งž์ถคํ˜• ์ถ”๋ก  ์ „๋žต์„ ์ ์šฉํ•˜์—ฌ 70B, 340B ๋ชจ๋ธ๊ณผ GPT-4o๋ฅผ ์ตœ๋Œ€ 4.9% ๋Šฅ๊ฐ€ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

RM-R1์˜ ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ: ์ฆ๋ฅ˜ ๋‹จ๊ณ„์—์„œ ๊ณ ํ’ˆ์งˆ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ถ€ํŠธ์ŠคํŠธ๋žฉํ•˜๊ณ , RL ๋‹จ๊ณ„์—์„œ ์ถ”๊ฐ€๋กœ ๊ฐ•ํ™”

  1. ๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ: RewardBench, RM-Bench, RMB ์„ธ ๊ฐ€์ง€ ๋ฒค์น˜๋งˆํฌ์—์„œ ํ‰๊ท ์ ์œผ๋กœ ์ตœ๊ณ  ์„ฑ๋Šฅ ๋‹ฌ์„ฑ. 70B/340B ์˜คํ”ˆ์›จ์ดํŠธ ๋ชจ๋ธ, GPT-4o, Claude ๋ชจ๋ธ์„ ์ตœ๋Œ€ 4.9% ๋Šฅ๊ฐ€
  2. ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ: RM-R1์€ ์ผ๊ด€๋˜๊ณ  ๊ณ ๋„๋กœ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ์ถ”๋ก  ๊ถค์ (reasoning traces)์„ ์ƒ์„ฑํ•˜์—ฌ "์™œ ์ด ์‘๋‹ต์ด ๋” ๋‚˜์€๊ฐ€"๋ฅผ ๋ช…ํ™•ํžˆ ์„ค๋ช…
  3. ์Šค์ผ€์ผ๋ง ํšจ์œจ: 7B์—์„œ 32B๊นŒ์ง€์˜ ๋ชจ๋ธ ํŒจ๋ฐ€๋ฆฌ์—์„œ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ ์Šค์ผ€์ผ ํšจ์œจ์„ฑ ์ž…์ฆ

How

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.4/5

์ดํ‰: ๋ณด์ƒ ๋ชจ๋ธ๋ง์„ ์ถ”๋ก  ์ž‘์—…์œผ๋กœ ์žฌ์ •์˜ํ•˜๋Š” ํ•ต์‹ฌ ์•„์ด๋””์–ด์™€ Chain-of-Rubrics์˜ ์ž‘์—… ์ธ์‹ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ํ˜์‹ ์ ์ด๋ฉฐ, ์‹ค์ฆ์  ์„ฑ๊ณผ(์ตœ๋Œ€ 4.9% ์„ฑ๋Šฅ ํ–ฅ์ƒ)์™€ ์ฒด๊ณ„์  ๋ถ„์„์„ ํ†ตํ•ด ์‹ค์งˆ์  ๊ธฐ์—ฌ๋ฅผ ์ž…์ฆํ•œ ์šฐ์ˆ˜ํ•œ ์—ฐ๊ตฌ์ด๋‹ค. ๋‹ค๋งŒ ์˜ค๋ผํด ๋ชจ๋ธ ์˜์กด์„ฑ๊ณผ ์ž‘์—… ๋ถ„๋ฅ˜์˜ ์ด์ง„ ๊ตฌ์กฐ๋Š” ์‹ค๋ฌด ํ™•์žฅ์„ฑ ์ธก๋ฉด์—์„œ ๊ฐœ์„  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Self-Refine๋Š” ์ž๊ธฐ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•œ LLM ๋‹จ๊ณ„๋ณ„ ์ถ”๋ก  ๊ฐœ์„  ๊ธฐ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ, RM-R1์˜ ๋ณด์ƒ๋ชจ๋ธ ์ถ”๋ก  ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ๊ธด๋ฐ€ํ•˜๊ฒŒ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
683 ๋…ผ๋ฌธ์€ ๋ณด์ƒ ๋ชจ๋ธ๋ง์„ ํ†ตํ•œ LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์„ค๋ช…ํ•˜๋ฉฐ, 466 ๋…ผ๋ฌธ์—์„œ ์‚ฌ์šฉํ•˜๋Š” ์—˜๋ฆฌํ‹ฐ์ฆ˜ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”์ „๋žต์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
447๋ฒˆ ๋…ผ๋ฌธ์€ LLM์˜ ์ž๊ธฐ ์œ ๋„ ๊ฐ•ํ™”ํ•™์Šต ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋‹ค๋ฃจ๋ฉฐ, 683๋ฒˆ์ด ์ œ์‹œํ•˜๋Š” ๋ณด์ƒ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ถ”๋ก  ํ–ฅ์ƒ ์ „๋žต์˜ ์ด๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
265๋ฒˆ ๋…ผ๋ฌธ์€ RL ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”์ถ”๋ก  ๊ธฐ๋ฒ•์„ ํ†ตํ•ด LLM์˜ reasoning ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, 683๋ฒˆ์˜ ์ถ”๋ก ํ˜• ๋ณด์ƒ๋ชจ๋ธ ์ ‘๊ทผ์˜ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
449์˜ RL ๊ธฐ๋ฐ˜ LLM ์ตœ์ ํ™” ๋…ผ์˜๋Š” 683์—์„œ ์ œ์‹œํ•˜๋Š” reward modeling as reasoning์˜ ๊ธฐ์ดˆ ์œ„์—์„œ ์ถœ๋ฐœํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
RM-R1(683)์€ ๋ณด์ƒ๋ชจ๋ธ์„ ํ†ตํ•œ LLM์˜ ๋…ผ๋ฆฌ์  ์ถ”๋ก  ๊ฐ•ํ™” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜์—ฌ 243์˜ ์ž์—ฐ์–ด+์ˆ˜์น˜ ๋ณด์ƒ ํ†ตํ•ฉ ์ ‘๊ทผ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ณด์ƒ ๋ชจ๋ธ๋ง๊ณผ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์—ฐ๊ณ„ํ•˜๋Š” ์ ‘๊ทผ๋ฒ•์„ ๋‹ค๋ฃจ๊ธฐ ๋•Œ๋ฌธ์—, ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์ž๊ธฐ๊ฒ€์ฆ(RISE) ์‹œ์Šคํ…œ๊ณผ์˜ ์ด๋ก ์  ์—ฐ๊ณ„๊ฐ€ ์œ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Selfcheck ๋…ผ๋ฌธ์€ LLM์˜ ์ž์ฒด ์˜ค๋ฅ˜ ์ธ์‹, ์ถ”๋ก  ์ƒํƒœ ์ ๊ฒ€์— ์ง‘์ค‘ํ•˜์—ฌ, RM-R1 ๋…ผ๋ฌธ์˜ ๋ณด์ƒ ๋ชจ๋ธ ๋‚ด ์ถ”๋ก ํ†ตํ•ฉ ์ ‘๊ทผ์— ๋น„ํ•ด ์ง์ ‘์  ์ž๊ธฐ ์ ๊ฒ€ ๋ฐฉ์‹์„ ๋‹ค๋ฃฌ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
683๋ฒˆ ๋…ผ๋ฌธ์€ Reasoning ๊ธฐ๋ฐ˜์˜ Reward Modeling์„ ํ†ตํ•ด LLM ์ž๊ธฐ๊ต์ •์˜ ์กฐ๊ฑด๊ณผ ๊ฐ€๋Šฅ์„ฑ์„ ํญ๋„“๊ฒŒ ๋ถ„์„ํ•˜์—ฌ 471๋ฒˆ์˜ ๋น„ํŒ์  ๊ฒฐ๋ก ๊ณผ ๊ท ํ˜• ์žˆ๊ฒŒ ์ฝ๊ธฐ์— ์ ํ•ฉํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Tree-planner ๋…ผ๋ฌธ์€ ํšจ์œจ์ ์ธ ๋ฉ€ํ‹ฐ์Šคํ… ์ž‘์—… ๊ณ„ํš์„ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, RM-R1์˜ ์ถ”๋ก  ์ค‘์‹ฌ ๋ณด์ƒ๋ชจ๋ธ ์„ค๊ณ„ ๊ฐ€์ด๋“œ๋ผ์ธ์— ์‹ค์ œ ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
674๋ฒˆ ๋…ผ๋ฌธ์€ LLM์˜ ์ „๋žต์  ๋„๊ตฌ ์‚ฌ์šฉ ๋ฐ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์ถ”๋ก ์„ ๋‹ค๋ฃจ์–ด, 683๋ฒˆ์˜ ์ฒด์ธ์˜ค๋ธŒ๋ฃจ๋ธŒ๋ฆญ์Šค(CoR)๋ฅผ ํ™œ์šฉํ•œ ๋งž์ถคํ˜• ์ถ”๋ก  ์ „๋žต๊ณผ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
RM-R1: Reward Modeling as Reasoning ๋…ผ๋ฌธ์€ RL ๊ธฐ๋ฐ˜์œผ๋กœ LLM์˜ ์ถ”๋ก ๋Šฅ๋ ฅ ๊ฐ•ํ™”์™€ ๊ฒ€์ƒ‰ ํ†ตํ•ฉ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋ฐฉ์•ˆ์„ ์ถ”๊ฐ€๋กœ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •