Self-critique guided iterative reasoning for multi-hop question answering

์ €์ž: Zheng Chu, Haiming Fan, Jingchang Chen, Qianyu Wang, Mingda Yang, Jiafeng Liang, Zhongjie Wang, Hao Li, Guoan Tang, Ming Liu, Bing Qin | ๋‚ ์งœ: 2025 | DOI: N/A 📄 PDF


Essence

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ์ง€์‹ ์ œํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ž๊ธฐ๋น„ํŒ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ด ๋ฐ˜๋ณต์  ์ถ”๋ก  ๊ณผ์ •์„ ์œ ๋„ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋‹ค์ค‘ ํ™‰ ์งˆ์˜์‘๋‹ต ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. ๋ชจ๋ธ์ด ์งˆ๋ฌธ ๋ถ„ํ•ด, ๊ฒ€์ƒ‰, ์ถ”๋ก , ์ž๊ธฐํ‰๊ฐ€๋ฅผ ํ•™์Šตํ•˜์—ฌ ์ค‘๊ฐ„ ๋‹จ๊ณ„์˜ ์˜ค๋ฅ˜๋ฅผ ์ค„์ด๊ณ  ์ตœ์  ์ถ”๋ก  ๊ฒฝ๋กœ๋ฅผ ์„ ํƒํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: SiGIR์˜ ์ „์ฒด ๊ตฌ์กฐ. (I) ์ž๊ธฐ๋น„ํŒ ๊ธฐ๋Šฅ์„ ๊ฐ€์ง„ ๋ฐ˜๋ณต์  ์ถ”๋ก ๊ธฐ ํ•™์Šต ๊ณผ์ •, (II) ์งˆ๋ฌธ ๋ถ„ํ•ด/๊ฒ€์ƒ‰/์ถ”๋ก /ํ‰๊ฐ€๋ฅผ ํฌํ•จํ•œ SC-Reasoner์˜ ํŠน์„ฑ, (III) ํƒ์ƒ‰๊ณผ ๋ณด์ƒ ๊ธฐ๋ฐ˜ ํƒ์ƒ‰์„ ํ†ตํ•œ ์ตœ์  ๊ฒฝ๋กœ ์„ ํƒ

  1. ์„ฑ๋Šฅ ํ–ฅ์ƒ: HotpotQA, 2WikiMQA, MuSiQue ์„ธ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ‰๊ท  8.6% ์„ฑ๋Šฅ ํ–ฅ์ƒ(SOTA ๋Œ€๋น„), DeepSeek-V2.5, Mistral, LLaMA2, Qwen2.5 ๋ชจ๋ธ์—์„œ ์ผ๊ด€๋œ ๊ฐœ์„ 
  2. ํšจ์œจ์„ฑ๊ณผ ๋น„์šฉ: Monte Carlo Tree Search ๊ฐ™์€ ๊ณ ๋น„์šฉ ํƒ์ƒ‰ ๋ฐฉ๋ฒ• ๋Œ€๋น„ ๊ณ„์‚ฐ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ค„์ด๋ฉด์„œ๋„ ์ถ”๋ก  ํ™•์žฅ(inference-time scaling) ํšจ๊ณผ ๋‹ฌ์„ฑ

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ์ž๊ธฐ๋น„ํŒ ํ”ผ๋“œ๋ฐฑ์„ ๋‹ค์ธต์ ์œผ๋กœ ํ™œ์šฉํ•œ ๋ฐ˜๋ณต์  ์ถ”๋ก  ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋‹ค์ค‘ ํ™‰ ์งˆ์˜์‘๋‹ต์—์„œ ์‹ค์งˆ์  ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ํŠนํžˆ ์ค‘๊ฐ„ ๋‹จ๊ณ„ ์˜ค๋ฅ˜ ์ œ์–ด์™€ ํšจ์œจ์  ํƒ์ƒ‰ ์ธก๋ฉด์—์„œ ๊ธฐ์—ฌ๋„๊ฐ€ ๋†’๋‹ค. ๋‹ค๋งŒ critic ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ๊ณผ ๊ทน๋‹จ์  ๋ณต์žก์„ฑ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ์˜ ํ™•์žฅ์„ฑ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ๋ถ„์„์ด ์š”๊ตฌ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Selfcheck ๋…ผ๋ฌธ์€ LLM์˜ ์Šคํ…-๋ฐ”์ด-์Šคํ… ๊ฒ€์ฆ ๋ฐ ์ž๊ธฐ ๋ฐ˜์„ฑ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ฒ€ํ† ํ•˜์—ฌ, ๋‹ค์ค‘ ํ™‰ ์งˆ์˜์‘๋‹ต์—์„œ์˜ ์ž๊ธฐํ‰๊ฐ€ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฒ•์˜ ์ด๋ก ์  ๋ฐ”ํƒ•์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
743์˜ ๋ฐ˜๋ณต์  ์ž๊ธฐ๋น„ํŒ ๊ธฐ๋ฐ˜ ์งˆ์˜์‘๋‹ต ํŒŒ์ดํ”„๋ผ์ธ์€ 746(Self-Refine)์—์„œ ์ œ์•ˆ๋œ ์…€ํ”„ ํ”ผ๋“œ๋ฐฑ ๋ฐ˜๋ณต๊ฐœ์„  ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ง์ ‘์ ์ธ ์˜ํ–ฅ์„ ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋Šฅ๋™ํ•™์Šต ๊ธฐ๋ฐ˜ ์งˆ๋ฌธ ์ƒ์„ฑ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ž๊ธฐ๋น„ํŒ(Self-critique) ๊ธฐ๋ฐ˜ ์ถ”๋ก  ์ ˆ์ฐจ๋ฅผ ์†Œ๊ฐœํ•˜๋ฉฐ Wrong-of-Thought์˜ ๋‹ค์ค‘ ๊ด€์  ๊ฒ€์ฆ๊ณผ ํƒ€๋‹น์„ฑ ํ‰๊ฐ€ ์ธก๋ฉด์—์„œ ๋ฐฐ๊ฒฝ์ด ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
743์˜ ์ž๊ธฐํ‰๊ฐ€ ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐํ™‰ QA ๋ฐฉ๋ฒ•๋ก ๊ณผ ๋‹ฌ๋ฆฌ, 442๋Š” ์ƒํ˜ธ์ž‘์šฉ์  ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์‹œ์Šคํ…œ์œผ๋กœ LLM์˜ ํ”ผ๋“œ๋ฐฑ/์งˆ์˜๊ตฌ์กฐ๋ฅผ ์‚ฌํšŒ์  ๋ฐฉ์‹(ํ˜‘์—…์  ๋””๋ฒ ์ดํŠธ)์œผ๋กœ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค์ค‘์Šคํ… ์งˆ์˜์‘๋‹ต์—์„œ self-critique ๊ธฐ๋ฐ˜ ๋ฐ˜๋ณต์  reasoning ๊ธฐ๋ฒ•์ด policy-as-generation RL๊ณผ ๋Œ€๋น„๋˜๋Š” ํ•ด๋ฒ•์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Webํ™˜๊ฒฝ ์—์ด์ „ํŠธ์˜ ๊ฐ•ํ™”ํ•™์Šต๊ณผ ๋‹ฌ๋ฆฌ, ๋น„ํŒ(Self-critique) ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก ์„ ๋‹ค๋ฃจ๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•จ.
๋‹ค๋ฅธ ์ ‘๊ทผ
Self-critique ์ค‘์‹ฌ์˜ ๋ฐ˜๋ณต์  ์ถ”๋ก  ๊ฐ•ํ™” ๊ธฐ๋ฒ•์„ ์ œ์•ˆํ•˜๋ฉฐ, ์ž๊ธฐ๊ฒ€์ฆ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต๊ณผ ๋น„๊ตํ•ด ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ธฐ์ดˆ ๋…ผ๋ฆฌ ๊ฒ€์ฆ ๋ถ„์•ผ์—์„œ Generative language modeling์„ ํ™œ์šฉํ•œ ์ž๋™ ์ฆ๋ช… ๋…ผ๋ฌธ(379)์€ self-critique ๊ธฐ๋ฐ˜ ๋ฐ˜๋ณต์  ์ถ”๋ก ์˜ ์ผ๋ฐ˜ํ™” ๋ฐ ์ˆ˜ํ•™์  ๋ฌธ์ œ ํ’€์ด์— ๋Œ€ํ•œ ์ ์šฉ ์‚ฌ๋ก€๋กœ ์ฐธ๊ณ ํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •