RM-R1: Reward Modeling as Reasoning

Motivation

Known: 기존 보상 모델은 스칼라 기반(ScalarRM)과 생성형(GenRM) 두 가지로 분류됨. 스칼라 기반은 효율적이지만 불투명하고, 생성형은 투명하지만 표면적 추론만 수행하여 성능이 제한됨
Gap: 현실의 복잡한 선호도 판단은 공감, 다중 기준 간 트레이드오프 네비게이션, 결과 시뮬레이션 등 다층적 인지 활동을 요구하나, 기존 GenRM은 이를 충분히 수행하지 못함
Why: Figure 1의 예시처럼 오프더셸프 명령 튜닝 모델은 감독 데이터의 패턴에 과적합되어 정서적 해로움과 뉘앙스 부족을 감지하지 못함
Approach: 보상 모델링을 추론 작업으로 공식화하고, (1) 추론 증류(reasoning distillation)와 (2) 검증 가능한 보상을 통한 강화학습(RLVR)의 두 단계 파이프라인으로 RM-R1을 훈련

RM-R1의 훈련 파이프라인: 증류 단계에서 고품질 합성 데이터로 추론 능력을 부트스트랩하고, RL 단계에서 추가로 강화

벤치마크 성능: RewardBench, RM-Bench, RMB 세 가지 벤치마크에서 평균적으로 최고 성능 달성. 70B/340B 오픈웨이트 모델, GPT-4o, Claude 모델을 최대 4.9% 능가
해석 가능성: RM-R1은 일관되고 고도로 해석 가능한 추론 궤적(reasoning traces)을 생성하여 "왜 이 응답이 더 나은가"를 명확히 설명
스케일링 효율: 7B에서 32B까지의 모델 패밀리에서 일관된 성능 향상을 보여 스케일 효율성 입증

Chain-of-Rubrics (CoR) 메커니즘: 입력 샘플을 대화(chat) 또는 추론(reasoning) 작업으로 분류
- 대화 작업: 평가 루브릭 생성 → 루브릭 정당화 → 특정 질문에 맞춘 평가 수행
- 추론 작업: 모델이 먼저 문제를 직접 해결한 후 후보 응답 평가 및 선택
2단계 훈련 파이프라인:
1. 추론 증류(Eq. 6): o3 또는 Claude-3.5-Sonnet 같은 오라클 모델에서 고품질 추론 체인 생성. NLL 손실로 구조화된 추론 트레이스와 응답 선택을 함께 최적화
2. 강화학습(Eq. 7): 검증 가능한 보상 함수 $R(x, j)$로 모델을 정책처럼 취급하여, 올바른 판단을 생성하도록 KL 발산 제약 하에서 누적 보상 최대화
작업 인식 적응(Task-aware Adaptation): 대화와 추론 작업에 맞춘 차별화된 롤아웃 전략으로 보상 신호 정렬성 향상
기존 추론 모델 활용: 이미 추론 중심 증류를 거친 모델(예: o1)에서 추론 증류 없이 RLVR만으로 바로 미세조정 가능

개념적 창신성: 보상 모델링 자체를 추론 작업으로 재정의하는 관점의 전환. 기존 GenRM은 투명성만 추구했으나, REASRM은 투명성과 정확성을 동시에 달성
Chain-of-Rubrics 방식: 고정된 프롬프트 기반이 아닌, 작업 특성을 자동 인식하여 동적으로 추론 전략을 조정하는 메커니즘의 참신함
훈련 방법론: 추론 증류와 RLVR의 조합으로 순수 RLVR만으로는 달성 못하는 추론 능력과 일반화 능력의 균형. 논문에서 순수 RL만으로는 추론 능력이 제한됨을 실증적으로 입증
체계적 경험적 분석: 여러 훈련 레시피의 영향을 비교 분석하고, 스케일링 효과, 비추론 기반선과의 비교 등 다각적 분석 제공

데이터 생성 비용: 고품질 추론 체인 생성을 위해 o3나 Claude-3.5-Sonnet 같은 강력한 오라클 모델 필요로, 스케일링 시 계산 비용 및 경제성 우려
작업 분류의 한계: 대화와 추론 이진 분류가 실제 작업의 연속적 복잡도 스펙트럼을 충분히 포착하지 못할 가능성
강화학습 최적화: 보상 함수 $R(x, j)$ 설계의 상세 사항이 제한적으로 기술됨. 검증 가능한 보상의 구체적 정의와 확장성에 대한 추가 연구 필요
후속 연구 방향:
- 더 세분화된 작업 분류 체계 개발
- 다중 오라클 모델 활용 및 합성 데이터 품질 개선
- 다른 도메인(코드, 과학 등)으로의 확장 및 일반화 가능성 검증