WebThinker: Empowering Large Reasoning Models with Deep Research Capability

์ €์ž: Xiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2504.21776 📄 PDF


Essence

๋Œ€๊ทœ๋ชจ ์ถ”๋ก  ๋ชจ๋ธ(LRM)์˜ ์ •์  ์ง€์‹ ์˜์กด์„ฑ์„ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, ์›น ํƒ์ƒ‰๊ณผ ์ •๋ณด ์ˆ˜์ง‘์„ ์ถ”๋ก  ๊ณผ์ •์— ํ†ตํ•ฉํ•˜๋Š” ์ž์œจ ๋”ฅ ๋ฆฌ์„œ์น˜ ์—์ด์ „ํŠธ๋ฅผ ์ œ์‹œํ•œ๋‹ค. WebThinker๋Š” LRM์ด ์›น ํŽ˜์ด์ง€๋ฅผ ๋™์ ์œผ๋กœ ํƒ์ƒ‰ํ•˜๊ณ  ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋ณด๊ณ ์„œ๋ฅผ ์ž‘์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•œ๋‹ค.

Motivation

Achievement

Figure 1

๊ทธ๋ฆผ 1: ๋‘ ๊ฐ€์ง€ ์ž‘์—…์—์„œ WebThinker์™€ ๋‹ค๋ฅธ ๋ชจ๋ธ์˜ ์ „์ฒด ์„ฑ๋Šฅ ๋น„๊ต: ๋ณต์žกํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ(์ขŒ์ธก)๊ณผ ๊ณผํ•™ ๋ณด๊ณ ์„œ ์ƒ์„ฑ(์šฐ์ธก)

  1. ๋ณต์žกํ•œ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ: GPQA(64.6%), GAIA(48.5%), WebWalkerQA(46.5%), HLE(15.8%)์—์„œ ๊ฐ•๋ ฅํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑ. Search-o1-32B ๋Œ€๋น„ GAIA์—์„œ 21.9%, HLE์—์„œ 36.2% ์šฐ์›”.
  2. ๊ณผํ•™ ๋ณด๊ณ ์„œ ์ƒ์„ฑ: Glaive ๋ฐ์ดํ„ฐ์…‹์—์„œ Grok3 DeeperSearch, Gemini 2.0 Deep Research๋ฅผ ๋Šฅ๊ฐ€. ์ข…ํ•ฉ์„ฑ(Comprehensive) 8.3, ์ฒ ์ €์„ฑ(Thorough) 8.4, ์‚ฌ์‹ค์„ฑ(Factuality) 7.7 ๋‹ฌ์„ฑ.
  3. ์Šค์ผ€์ผ๋ง ํšจ์œจ์„ฑ: DeepSeek-R1 ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์—์„œ 7B๋ถ€ํ„ฐ 32B๊นŒ์ง€ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ํ–ฅ์ƒ ์ž…์ฆ.

How

Figure 3

๊ทธ๋ฆผ 3: WebThinker ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š”. (1) ๋ฌธ์ œ ํ•ด๊ฒฐ ๋ชจ๋“œ๋Š” Deep Web Explorer๋กœ ์›น ํƒ์ƒ‰์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๊ณ , (2) ๋ณด๊ณ ์„œ ์ƒ์„ฑ ๋ชจ๋“œ๋Š” ์‚ฌ๊ณ -๊ฒ€์ƒ‰-์ž‘์„ฑ์„ ๋™์‹œ์— ์ˆ˜ํ–‰

๋ฌธ์ œ ํ•ด๊ฒฐ ๋ชจ๋“œ (Problem-Solving Mode)

๋ณด๊ณ ์„œ ์ƒ์„ฑ ๋ชจ๋“œ (Report Generation Mode)

ํ›ˆ๋ จ ์ „๋žต

ํ˜•์‹ํ™”

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.4/5

์ดํ‰: WebThinker๋Š” LRM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ๊ณผ ์›น ์ •๋ณด ํƒ์ƒ‰์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ ๋ณต์žกํ•œ ์ง€์‹ ์ง‘์•ฝ์  ์ž‘์—…์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ํŠนํžˆ ์˜จ๋ผ์ธ DPO ๊ธฐ๋ฐ˜์˜ end-to-end ์ตœ์ ํ™”์™€ ์‹ค์‹œ๊ฐ„ Think-Search-and-Draft ์ „๋žต์€ ๊ณ ๋„๋กœ ๋…์ฐฝ์ ์ด๋ฉฐ, ๊ด‘๋ฒ”์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ proprietary ์‹œ์Šคํ…œ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์‹ค์ฆ์  ์„ฑ๊ณผ๋Š” ์ค‘์š”ํ•˜๋‹ค. ๋‹ค๋งŒ ๊ณ„์‚ฐ ๋น„์šฉ๊ณผ ์›น ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ๋Š” ์‹ค์ œ ๋ฐฐํฌ ์‹œ ๊ณ ๋ คํ•ด์•ผ ํ•  ๊ณผ์ œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
667 ๋…ผ๋ฌธ์€ 873์˜ RL ๊ธฐ๋ฐ˜ ์ •๋ณด์ˆ˜์ง‘ํ˜• ์—์ด์ „ํŠธ ์—ฐ๊ตฌ์— ๊ธฐ์ดˆ๊ฐ€ ๋˜๋Š” LLM์˜ ๊ฒ€์ƒ‰-์ถ”๋ก  ํ†ตํ•ฉ ๋ฉ”์ปค๋‹ˆ์ฆ˜์— ๋Œ€ํ•ด ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
WebThinker ๋…ผ๋ฌธ์€ LLM์ด ์‹ค์ œ์  ์›น ํ™˜๊ฒฝ์—์„œ ์‹ฌ์ธต ๊ฒ€์ƒ‰ ๋ฐ ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•˜๋„๋ก ํ›ˆ๋ จํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ์–ด, WebAgent-R1๊ณผ ํ‰๊ฐ€ยทํ›ˆ๋ จ ๊ด€์ ์—์„œ ์ ‘์ ์ด ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
WebThinker ๋…ผ๋ฌธ์€ ๊ฒ€์ƒ‰ ๊ณผ์ •์„ ์‹ฌํ™”ํ•˜๋Š” RAG ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋กœ, Search-R1๊ณผ ์œ ์‚ฌ ๊ณผ์ œ์— ๋Œ€ํ•ด ๋‹ค๋ฅธ ๊ฐ•ํ™”ํ•™์Šต ์ „๋žต์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
873๋ฒˆ ๋…ผ๋ฌธ์€ ๋”ฅ๋ฆฌ์„œ์น˜ ํƒœ์Šคํฌ์—์„œ LLM ๊ธฐ๋ฐ˜ ์ถ”๋ก ยทํƒ์ƒ‰ ์—์ด์ „ํŠธ์˜ ์„ค๊ณ„ ๋ฐ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋ฉฐ WebWatcher์˜ ๊ตฌ์กฐ์™€ ์œ ์‚ฌํ•˜์ง€๋งŒ ๊ตฌํ˜„ ์ ‘๊ทผ๋ฒ•์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค๋ถ„์•ผ ์ง€์‹์˜ ์‹œ๊ณ„์—ด ๋ณ€ํ™”์™€ ์ฃผ์ œ ์ง„ํ™”, ๋„คํŠธ์›Œํฌ ๋ถ„์„ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•˜๋ฏ€๋กœ ์ถœ์‚ฐ์œจ ๋…ผ๋ฌธ๊ณผ ์œ ์‚ฌํ•œ ๋ฐฉ๋ฒ•๋ก ์— ์ฐธ๊ณ ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
871๋ฒˆ ๋…ผ๋ฌธ์€ ์›น ์ƒํ˜ธ์ž‘์šฉ ๊ธฐ๋ฐ˜ LLM ์—์ด์ „ํŠธ์˜ ํ›ˆ๋ จ๊ณผ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ์–ด, WebThinker์˜ ์‹ค์‹œ๊ฐ„ ์›น ํ™œ์šฉ ์‹ฌํ™” ์—ฐ๊ตฌ๋ฅผ ๋” ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
873๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์›น ๋ฆฌ์„œ์น˜ ์—์ด์ „ํŠธ์˜ ๊นŠ์€ ์ •๋ณดํƒ์ƒ‰๋Šฅ๋ ฅ ๊ฐ•ํ™”๋ฅผ ๋…ผ์˜ํ•˜์—ฌ, 872๋ฒˆ์˜ autonomous information-seeking pipeline์„ ์‹ค์ œ ์›น ํ™˜๊ฒฝ์— ์ ์šฉํ–ˆ์„ ๋•Œ์˜ ๋ฐœ์ „ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์›น ์—์ด์ „ํŠธ์˜ ์‹ฌ์ธต์  ํƒ์ƒ‰/์ถ”๋ก  ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด 'WebThinker'๋ผ๋Š” ๊ฐ•ํ™”๋œ ๋ฒค์น˜๋งˆํฌ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
873์€ ๋” ๊นŠ์€ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ LLM์˜ ๊ฒ€์ƒ‰, ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ์„ ํ†ตํ•ด 108์˜ ์š”์•ฝ ๋ฐ ๋ฌธํ—Œ ํƒ์ƒ‰ ํŒŒ์ดํ”„๋ผ์ธ์— ๊ฐ•๋ ฅํ•œ ๋ฐฑ์—”๋“œ ๊ธฐ์ˆ ์„ ๊ณต๊ธ‰ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ง€์‹๊ตฌ์กฐ์™€ ์—ฐ๊ตฌ์ฃผ์ œ์˜ ์ง„ํ™” ๋งคํ•‘์„ ์‹คํ˜„ํ•˜๋Š” ์‹œ๊ฐ์ ยท๊ณ„๋Ÿ‰์  ์—ฐ๊ตฌ๋กœ, ์ˆ˜๋ฉด-ํ–‰๋™ ์—ฐ๊ตฌ์˜ ํŠธ๋ Œ๋“œ ๋ถ„์„ ์‚ฌ๋ก€์™€ ๋ณด์™„์ ์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
074๋ฒˆ AI for research๋Š” ์‹ค์ œ ์—ฐ๊ตฌ ํ˜„์žฅ์—์„œ ํ™œ์šฉ ๊ฐ€๋Šฅํ•œ AI ํˆด ์„ ์ • ๊ฐ€์ด๋“œ๋ฅผ ์ œ๊ณตํ•ด, 873๋ฒˆ์ด ์ œ์•ˆํ•˜๋Š” ๋”ฅ ๋ฆฌ์„œ์น˜ ์—์ด์ „ํŠธ์™€ ์‹ค์งˆ์  ํ™œ์šฉ๋ฐฉ์•ˆ์„ ๋…ผ์˜ํ•  ๋•Œ ์ฐธ๊ณ ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •