Self-critique guided iterative reasoning for multi-hop question answering

Motivation

Known: LLM은 Chain-of-Thought 프롬프팅으로 강한 추론 능력을 보이지만, 지식 집약적 작업에서는 사실 정확성이 낮다. 단일 검색은 다중 홉 질의응답에 불충분하며, 기존 반복적 검색이나 분해 기반 방법도 한계가 있다.
Gap: (1) 초기 질문 분해 오류가 후속 추론을 왜곡함, (2) 반복적 검색은 복잡한 문제 계획이 부족하여 부정확한 검색 발생, (3) 중간 단계 지도 부재로 오류 증폭(cascading error) 발생
Why: 다중 홉 질의응답의 정확성 향상을 위해서는 반복적 질문 분해를 통한 단계적 계획과 중간 추론 단계의 품질 피드백이 필수적이다.
Approach: 자기비판 모듈(critic model)이 검색 적절성, 추론 유용성, 전체 품질을 평가하는 보상을 생성하고, 이를 통해 훈련 중 감독 신호를 제공하고 추론 중 최적 경로를 선택하도록 한다.

그림 2: SiGIR의 전체 구조. (I) 자기비판 기능을 가진 반복적 추론기 학습 과정, (II) 질문 분해/검색/추론/평가를 포함한 SC-Reasoner의 특성, (III) 탐색과 보상 기반 탐색을 통한 최적 경로 선택

성능 향상: HotpotQA, 2WikiMQA, MuSiQue 세 데이터셋에서 평균 8.6% 성능 향상(SOTA 대비), DeepSeek-V2.5, Mistral, LLaMA2, Qwen2.5 모델에서 일관된 개선
효율성과 비용: Monte Carlo Tree Search 같은 고비용 탐색 방법 대비 계산 오버헤드를 줄이면서도 추론 확장(inference-time scaling) 효과 달성

훈련 레시피:
- 단계 1: 고급 LLM의 few-shot 프롬프트로 반복적 추론 궤적 합성(질문 분해, 부분질문 추론)
- 단계 2: 작은 모델을 critic 역할로 학습하여 검색 적절성(Relevant/Partially Relevant/Irrelevant), 추론 유용성(Useful/Partially Useful/Useless), 전체 품질 평가
- 단계 3: 합성된 궤적에 자기비판 신호를 추가하여 SC-Reasoner(Rsc) 학습
추론 과정:
- 반복적 질문 분해: 비원자적(non-atomic) 질문을 원자적 부분질문으로 단계적 분해
- 자기비판 유도 검색: 각 부분질문에 대해 여러 문서 검색 후 관련성 평가
- 자기비판 유도 추론: 검색된 문서로부터 추론하며 유용성 평가
- 빔 서치: 누적 보상이 높은 상위 K개 경로만 유지하며 탐색
- 반복 종료: 모든 부분질문 해결 후 누적 보상이 최고인 궤적 선택

자기비판의 다층적 적용: 검색 품질, 추론 품질, 전체 품질을 구별하여 세분화된 피드백 제공하는 점에서 기존 검색증강생성(RAG) 방법과 차별화
반복적 분해의 유연성: 초기 전체 분해 대신 단계별 분해로 오류 누적 문제 완화
비용 효율적 탐색: 시뮬레이션 기반 MCTS 대신 학습된 보상으로 유도된 빔 서치로 추론 시간 확장을 효율적으로 구현
엔드-투-엔드 학습: 분해, 검색, 추론, 자기평가, 질문 축소 능력을 통합적으로 학습하는 통일된 모델 구성