Iterative self-incentivization empowers large language models as agentic searchers

์ €์ž: Zhengliang Shi, Lingyong Yan, Dawei Yin, Suzan Verberne, Maarten de Rijke, Zhaochun Ren | ๋‚ ์งœ: 2025 | DOI: arXiv:2505.20128 📄 PDF


Essence

Figure 2

๊ทธ๋ฆผ 2: EXSEARCH์˜ Expectation-Maximization ํ”„๋กœ์„ธ์Šค ๊ฐœ์š”. E-step์—์„œ๋Š” ํƒ์ƒ‰ ๊ถค์ ์„ ์ƒ˜ํ”Œ๋งํ•˜๊ณ  ๊ฐ€์ค‘์น˜๋ฅผ ํ• ๋‹นํ•˜๋ฉฐ, M-step์—์„œ๋Š” ์žฌ๊ฐ€์ค‘์น˜ ์†์‹คํ•จ์ˆ˜๋กœ LLM์„ ํ•™์Šต์‹œํ‚จ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์„ ์ •๋ณด ๊ฒ€์ƒ‰ ์—์ด์ „ํŠธ๋กœ ์ž๋™ ๊ฐœ์„ ํ•˜๋Š” ์ž๊ธฐ-์ธ์„ผํ‹ฐ๋ธŒํ™” ๊ธฐ๋ฐ˜ ํƒ์ƒ‰ ํ”„๋ ˆ์ž„์›Œํฌ(EXSEARCH)๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ผ๋ฐ˜ํ™” EM ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•ด ๊ฒ€์ƒ‰ ๊ถค์ ์„ ์ž ์žฌ๋ณ€์ˆ˜๋กœ ์ทจ๊ธ‰ํ•˜๊ณ , LLM์ด ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๋ฐ˜๋ณต์ ์œผ๋กœ ํ•™์Šตํ•˜๋Š” ์ž๊ธฐ ๋ฃจํ”„๋ฅผ ํ˜•์„ฑํ•œ๋‹ค.

Motivation

Achievement

Figure 1

๊ทธ๋ฆผ 1: HotpotQA ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋‹ค์–‘ํ•œ LLM์— EXSEARCH๋ฅผ ์ ์šฉํ•œ ์„ฑ๋Šฅ. ์—ฌ๋Ÿฌ ๋ชจ๋ธ๊ณผ ์Šค์ผ€์ผ์—์„œ ์•ˆ์ •์ ์ธ ์ˆ˜๋ ด์„ ๋ณด์ž„.

  1. ์„ฑ๋Šฅ ํ–ฅ์ƒ: 4๊ฐœ ์ง€์‹ ์ง‘์•ฝ์  ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฐ•๋ ฅํ•œ ๋ฒ ์ด์Šค๋ผ์ธ ๋Œ€๋น„ ์ •ํ™• ์ผ์น˜๋„(Exact Match) 7.8% ํ–ฅ์ƒ ๋‹ฌ์„ฑ
  2. ์ˆ˜๋ ด ์ด๋ก  ๋ณด์žฅ: ์ž๊ธฐ-์ธ์„ผํ‹ฐ๋ธŒํ™” ํ›ˆ๋ จ ํ”„๋กœ์„ธ์Šค์˜ ์ˆ˜๋ ด์„ฑ์„ ์ด๋ก ์ ์œผ๋กœ ์ฆ๋ช…ํ•˜์—ฌ ์•ˆ์ •์„ฑ ๋ณด์žฅ
  3. ํ™•์žฅ์„ฑ ๊ฒ€์ฆ: EXSEARCH-Zoo๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ๋ฐฑ๋ณธ LLM(LLaMA, Qwen, Mistral) ๋ฐ ๋ชจ๋ธ ๊ทœ๋ชจ(3B~24B)์—์„œ ์ผ๊ด€๋œ ํšจ๊ณผ ์ž…์ฆ
  4. ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ: ๋™์  ๋ฌธ์„œ ๊ฒ€์ƒ‰, ์ฆ๊ฑฐ ์ถ”์ถœ, ๋‹ต๋ณ€ ์ƒ์„ฑ์„ ๋‹จ์ผ LLM์œผ๋กœ ํ†ตํ•ฉํ•˜์—ฌ end-to-end ์ตœ์ ํ™” ์‹คํ˜„

How

Figure 2

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก :

$$p(z | x; \theta) = \prod_{i=1}^{|z|} p(x_i | x, z_{

$$w(z) \propto p(y | x, z; \theta_t)$$

(๊ถค์ ์ด ์ •๋‹ต์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ์ง€์›ํ•˜๋Š”์ง€ ๋ฐ˜์˜)

$$\max_\theta \mathbb{E}_{z \sim p(z|x;\theta_t)} [w(z) \log p(z|x;\theta) + w(z) \log p(y|x,z;\theta)]$$

์—ฌ๊ธฐ์„œ ์ฒซ ํ•ญ์€ ๊ฒ€์ƒ‰ ํ•™์Šต(L_R), ๋‘ ๋ฒˆ์งธ ํ•ญ์€ ๋‹ต๋ณ€ ์ƒ์„ฑ ํ•™์Šต(L_A)์„ ๋‹ด๋‹น

Originality

Limitation & Further Study

Evaluation

์ดํ‰: EXSEARCH๋Š” LLM ๊ธฐ๋ฐ˜ ์ •๋ณด ๊ฒ€์ƒ‰ ์—์ด์ „ํŠธ๋ฅผ ์ž๊ธฐ-์ธ์„ผํ‹ฐ๋ธŒํ™”๋œ ์ž๊ธฐ ๊ฐœ์„  ๋ฃจํ”„๋กœ ํ•™์Šตํ•˜๋Š” ์ด๋ก ์ ์œผ๋กœ ๊ฒฌ๊ณ ํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ์ง€์‹ ์ง‘์•ฝ์  ์ž‘์—…์—์„œ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ค€๋‹ค. ๋‹ค๋งŒ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ ๊ฐœ์„ ๊ณผ ๋” ๊ด‘๋ฒ”์œ„ํ•œ ์ž‘์—… ์˜์—ญ ๊ฒ€์ฆ์ด ์ด๋ฃจ์–ด์ง„๋‹ค๋ฉด ๋” ๊ฐ•๋ ฅํ•œ ๊ธฐ์—ฌ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์˜ ์ž๊ธฐ๊ฐœ์„ ๊ณผ self-improvement ๊ตฌ์กฐ์— ๋Œ€ํ•œ ์ด๋ก ์  ๋ถ„์„์„ ๋ฐ”ํƒ•์œผ๋กœ, 447๋ฒˆ ๋…ผ๋ฌธ์˜ ๋ฐ˜๋ณต์  ๊ฐ•ํ™”ํ•™์Šต ๊ตฌ์กฐ๋ฅผ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
655๋ฒˆ์˜ ReAct ๋ฐฉ์‹์€ LLM์˜ ์ถ”๋ก  ๊ณผ์ •์— ํ–‰๋™(๊ฒ€์ƒ‰ ๋“ฑ)์„ ํ†ตํ•ฉํ•˜์—ฌ, 447๋ฒˆ ExSearch ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ทผ๊ฐ„์ด ๋˜๋Š” ๊ฐœ๋…์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰ ๋ฐ RL ์ถ”๋ก  ๋ชจ๋ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์œ„ํ•œ ํƒ์ƒ‰-๊ฐ•ํ™”ํ•™์Šต ๊ฒฐํ•ฉ์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
447๋ฒˆ ๋…ผ๋ฌธ์€ LLM์˜ ์ž๊ธฐ ์œ ๋„ ๊ฐ•ํ™”ํ•™์Šต ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋‹ค๋ฃจ๋ฉฐ, 683๋ฒˆ์ด ์ œ์‹œํ•˜๋Š” ๋ณด์ƒ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ถ”๋ก  ํ–ฅ์ƒ ์ „๋žต์˜ ์ด๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
447 ๋…ผ๋ฌธ์€ LLM์ด self-incentivization ๋ฐ iterative ์ž๊ธฐ ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด ์ž๊ธฐ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ์‹์„ ์ œ์•ˆํ•˜์—ฌ 314์˜ PIT ๋ฐฉ์‹๊ณผ ๋Œ€๋น„๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
285๋ฒˆ์€ LLM์˜ ์ž๋™ ์˜คํ”ˆ์—”๋””๋“œ ์—ฐ๊ตฌ์™€ ์ž๊ธฐ ๊ฐœ์„ ์„ ์œ„ํ•œ ํด๋กœ์ฆˆ๋“œ ๋ฃจํ”„ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ์ž๊ธฐ ์ธ์„ผํ‹ฐ๋ธŒํ™”์™€ ๋ฐ˜๋ณต ์ž๊ฐ€ํ•™์Šต ๊ตฌ์กฐ๊ฐ€ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
659 ๋…ผ๋ฌธ์€ 447์˜ ์ •๋ณด ๊ฒ€์ƒ‰ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ์„ ์‹ค์งˆ์  RAG ํ”„๋ ˆ์ž„์›Œํฌ์— ์ ์šฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
447์€ ์ž๊ธฐ ์ธ์„ผํ‹ฐ๋ธŒ๋ฅผ ํ†ตํ•œ LLM ์ž๊ธฐ๊ฐœ์„  ๋ฐฉ์‹์œผ๋กœ, 470์˜ ์ž๊ธฐ ์ผ๊ด€์„ฑ๊ณผ ์‹ ๋ขฐ๋„ ์ถ”๋ก  ๊ธฐ๋ฐ˜ ์ž๊ธฐ๊ฐœ์„  ์‹คํ—˜์˜ ํ›„์† ๋ฐœ์ „์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
447์€ ์ž๊ธฐ ์ธ์„ผํ‹ฐ๋ธŒ ๊ตฌ์กฐ๋ฅผ ํ†ตํ•œ LLM ์ž๊ธฐ๊ฐœ์„  ๋ฐฉ์‹์„ ์ œ์•ˆํ•˜์—ฌ, 746์˜ ์ž๊ธฐ ์ •์ œ ์•„์ด๋””์–ด๋ฅผ ๋ฐœ์ „์‹œํ‚ต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
447๋ฒˆ ๋…ผ๋ฌธ์€ LLM์˜ ๋ฐ˜๋ณต์  ์ž๊ธฐ ์ธ์„ผํ‹ฐ๋ธŒ ํŠน์„ฑ์„ ๋…ผ์˜ํ•˜๋ฉฐ, 748๋ฒˆ์˜ ์˜์‚ฌ ๋ ˆ์ด๋ธ” ์ •์ œ์—์„œ์˜ LLM ํ™œ์šฉ ๋ฐœ์ „์— ์‘์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์˜ ์ „๋žต์  ํˆด ์‚ฌ์šฉ์„ RL ๊ด€์ ์—์„œ ํ•™์Šตํ•˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ, ๋ฐ˜๋ณต์  ์ž๊ธฐ๊ฐœ์„ ๊ณผ ํˆด ์ตœ์ ํ™” ์—ฐ๊ณ„๋ฒ•์„ ๋‹ค๋ฃฌ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
740๋ฒˆ ๋…ผ๋ฌธ์€ ์›น ๊ธฐ๋ฐ˜ ์ •๋ณดํƒ์ƒ‰๊ณผ ์ถ”๋ก ์„ ์œ„ํ•œ LLM ํ•™์Šต ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ด 447๋ฒˆ์˜ ํƒ์ƒ‰์  Reasoning ์—์ด์ „ํŠธ ๊ฐœ๋…์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ž๊ธฐ ์ธ์„ผํ‹ฐ๋ธŒํ™” ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰ ํƒ์ƒ‰์ด RL ๊ธฐ๋ฐ˜ LLM ์ถ”๋ก  ์ตœ์ ํ™”๋กœ ํ™•์žฅ๋˜๋Š” ์‹ค์ œ ์‚ฌ๋ก€๋กœ ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •