DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

์ €์ž: Mingxuan Du, Benfeng Xu, Chiwei Zhu, Xiaorui Wang, Zhendong Mao | ๋‚ ์งœ: 2025 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: DeepResearch Bench์—์„œ์˜ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ ๊ฐœ์š”. ์ขŒ์ธก: ํ‰๊ฐ€ ์ฐจ์›๋ณ„ ์ƒ์„ฑ๋œ ๋ณด๊ณ ์„œ ํ’ˆ์งˆ ์ ์ˆ˜, ์šฐ์ธก: ์—์ด์ „ํŠธ ์ธ์šฉ ์ •ํ™•๋„ ๋ฐ ํ‰๊ท  ํšจ๊ณผ์  ์ธ์šฉ ์ˆ˜

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊นŠ์ด ์žˆ๋Š” ์—ฐ๊ตฌ ์—์ด์ „ํŠธ(Deep Research Agents, DRAs)๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ตœ์ดˆ์˜ ์ข…ํ•ฉ ๋ฒค์น˜๋งˆํฌ DeepResearch Bench๋ฅผ ์ œ์‹œํ•œ๋‹ค. 22๊ฐœ ๋ถ„์•ผ์˜ ๋ฐ•์‚ฌ ์ˆ˜์ค€ ์—ฐ๊ตฌ ๊ณผ์ œ 100๊ฐœ์™€ ๋‘ ๊ฐ€์ง€ ํ˜์‹ ์ ์ธ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก (RACE, FACT)์„ ํ†ตํ•ด DRA์˜ ๋ณด๊ณ ์„œ ์ƒ์„ฑ ํ’ˆ์งˆ๊ณผ ์ •๋ณด ๊ฒ€์ƒ‰ ๋Šฅ๋ ฅ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: DeepResearch Bench ๊ฐœ์š”. (a) ๋ถ„ํฌ ๋ถ„์„ ๋ฐ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํŒŒ์ดํ”„๋ผ์ธ, (b) RACE ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š”, (c) FACT ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š”

  1. DeepResearch Bench ๊ตฌ์ถ•: ์‹ค์ œ ์‚ฌ์šฉ์ž ๋ฐ์ดํ„ฐ 96,147๊ฐœ์— ๊ธฐ๋ฐ˜ํ•œ ์ฃผ์ œ ๋ถ„ํฌ ๋ถ„์„์„ ํ†ตํ•ด, 22๊ฐœ ๋ถ„์•ผ์— ๊ฑธ์นœ ๋ฐ•์‚ฌ ์ˆ˜์ค€์˜ 100๊ฐœ ์—ฐ๊ตฌ ๊ณผ์ œ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ (์˜๋ฌธ 50๊ฐœ, ์ค‘๋ฌธ 50๊ฐœ)
  2. RACE ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ๋ฐœ: ๋™์  ๊ฐ€์ค‘์น˜ ์ƒ์„ฑ, ์ ์‘ํ˜• ๊ธฐ์ค€ ์„ค์ •, ์ฐธ์กฐ ๊ธฐ๋ฐ˜ ์ƒ๋Œ€ ์ ์ˆ˜ ๊ณ„์‚ฐ ๋“ฑ ์„ธ ๋‹จ๊ณ„๋ฅผ ํ†ตํ•ด ๊ณผ์ œ๋ณ„ ํŠน์„ฑ์„ ๋ฐ˜์˜ํ•˜๊ณ  ์ธ๊ฐ„ ํŒ๋‹จ๊ณผ ๋†’์€ ์ผ์น˜๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๋Š” ๋ณด๊ณ ์„œ ํ’ˆ์งˆ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก 
  3. FACT ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ๋ฐœ: ๋ช…์ œ-URL ์Œ ์ถ”์ถœ, ์ง€์› ํŒ์ •, ์ธ์šฉ ์ •ํ™•๋„(Citation Accuracy)์™€ ํ‰๊ท  ํšจ๊ณผ์  ์ธ์šฉ ์ˆ˜(Average Effective Citations) ๊ณ„์‚ฐ์„ ํ†ตํ•ด ์ •๋ณด ๊ฒ€์ƒ‰ ๋ฐ ์ธ์šฉ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€
  4. ์ธ๊ฐ„ ๊ฒ€์ฆ ์—ฐ๊ตฌ: ์ œ์•ˆ๋œ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ๋“ค์ด ์ธ๊ฐ„ ํŒ๋‹จ๊ณผ์˜ ์ผ์น˜๋„๋ฅผ ๊ฒ€์ฆํ•˜๋Š” ๊ด‘๋ฒ”์œ„ํ•œ ์‚ฌ์šฉ์ž ์—ฐ๊ตฌ ์ˆ˜ํ–‰

How

Figure 3

๊ทธ๋ฆผ 3: 44,019๊ฐœ ํ•„ํ„ฐ๋ง๋œ ๊นŠ์ด ์žˆ๋Š” ์—ฐ๊ตฌ ๊ณผ์ œ์˜ ์ฃผ์ œ ๋ถ„ํฌ

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ๋ถ„ํฌ ๋ถ„์„

RACE ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ

FACT ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ

์‹คํ—˜ ์„ค์ •

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ๋น ๋ฅด๊ฒŒ ๋ฐœ์ „ํ•˜๋Š” LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ๋ถ„์•ผ์—์„œ Deep Research Agents๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ฒซ ๋ฒˆ์งธ ์ข…ํ•ฉ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ์‹ค์ œ ์‚ฌ์šฉ์ž ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์„ค๊ณ„์™€ ์ธ๊ฐ„ ํŒ๋‹จ๊ณผ ์ผ์น˜ํ•˜๋Š” ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ๋†’์€ ์‹ค์šฉ์„ฑ๊ณผ ์‹ ๋ขฐ์„ฑ์„ ํ™•๋ณดํ–ˆ๋‹ค. ๋‹ค๋งŒ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์˜ ์ผ๋ถ€๊ฐ€ ๊ธฐ์กด ๊ธฐ๋ฒ•์— ์˜์กดํ•˜๊ณ , ๋” ๊ด‘๋ฒ”์œ„ํ•œ ์–ธ์–ด ๋ฐ ๋„๋ฉ”์ธ ํ™•์žฅ์ด ํ•„์š”ํ•œ ์ ์ด ๋ณด์™„๋˜์–ด์•ผ ํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AgentMD๋Š” LLM ์—์ด์ „ํŠธ์˜ ์‹ค์‚ฌ์šฉ ํ™˜๊ฒฝ์—์„œ์˜ ํ‰๊ฐ€์™€ ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ๋ฅผ ๋…ผ์˜ํ•˜๋ฏ€๋กœ, DeepResearch Bench์˜ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์ƒํ˜ธ ์ฐธ๊ณ ๊ฐ€ ์œ ์ตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ค‘์š” ํ‰๊ฐ€ ์ธก๋ฉด(Aspect-focused Review Analysis)์˜ ๋ฒค์น˜๋งˆํฌ ํ”„๋ ˆ์ž„์›Œํฌ ๋ฐ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
261์—์„œ ๋‹ค์–‘ํ•œ ๋”ฅ๋ฆฌ์„œ์น˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜๋ฏ€๋กœ, LLM ๋ถ„์„๊ฐ€ ํ‰๊ฐ€ ๋ฌธ์ œ์—์„œ ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ๋น„๊ต ํ‰๊ฐ€์— ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ๋‚ด๋ถ€ ์ž‘๋™ ์›๋ฆฌ๋ฅผ ๋ถ„์„ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
DOLPHIN์€ ์ž๋™ ์—ฐ๊ตฌ ํ”„๋ ˆ์ž„์›Œํฌ ๋ฐ ์„ฑ๋Šฅ ํ‰๊ฐ€ ๋ฃจํ”„๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, 261๋ฒˆ ๋ฒค์น˜๋งˆํฌ์™€ ํ•จ๊ป˜ AI ์—ฐ๊ตฌ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฐฉ์‹์˜ ์ฐจ์ด๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ResearchBench ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ๊ณผํ•™ ํƒ๊ตฌ ๋ฌธ์ œ์— ๋Œ€ํ•œ LLM ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•ด DeepResearch Bench์˜ ํ‰๊ฐ€ ์ง€ํ‘œ ๋ฐ ์‹คํ—˜๊ณผ ๋น„๊ต ๋ถ„์„์— ์ข‹์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ScienceAgentBench๋„ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์—์ด์ „ํŠธ์˜ ํ‰๊ฐ€๋ฅผ ๋ชฉํ‘œ๋กœ ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ง€ํ‘œ์™€ ํ”„๋กฌํ”„ํŠธ ์ฒด๊ณ„ํ•˜์—์„œ ๋น„๊ต ์—ฐ๊ตฌ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ๋ถ„์„์˜ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋”์šฑ ํ™•์žฅํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์—ฐ๊ตฌ ์—์ด์ „ํŠธ๋ฅผ ์ข…ํ•ฉ์ ์œผ๋กœ ๋ฒค์น˜๋งˆํ‚นํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ธ๊ณต์ง€๋Šฅ ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์—์ด์ „ํŠธ๋ฅผ ์‹ค์ œ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ณผ์ œ์™€ ์—ฐ๋™ํ•˜์—ฌ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํ‚น ํ™˜๊ฒฝ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ํŠนํ—ˆ ๋“ฑ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ ์—ฐ๊ตฌ ์•„์ด๋””์–ด์™€ ์‹ ๊ทœ์„ฑ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋ฒค์น˜๋งˆํ‚น์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •