DREAM: Deep Research Evaluation with Agentic Metrics
๐ง Audio Overview ์์ฑ
์ ์ : E. Avraham, Changhao Li, R. Dorfman, Roy Ganz, Oren Nuriel, Amir Dudai, Aviad Aberdam, Noah R. Flynn, Elman Mansimov, Aditya Kalyanpur, Ron Litman | ๋ ์ง : 2026 | DOI : 10.48550/arXiv.2602.18940 📄 PDF
Essence
Figure 1: Capturing Overlooked Dimensions of Research Quality. DREAM actively verifies the reasoning of
Deep Research Agents๊ฐ ์์ฑํ ๋ถ์๊ฐ๊ธ ๋ณด๊ณ ์ ํ๊ฐ์ ํต์ฌ ๋ฌธ์ ์ธ 'Mirage of Synthesis'๋ฅผ ์๋ณํ๊ณ , ๋ฅ๋ ฅ ๊ท ํ ์์น์ ๊ธฐ๋ฐํ DREAM ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ agentic evaluation์ผ๋ก ์๊ฐ ๋ฏผ๊ฐ๋์ ์ฌ์ค์ฑ์ ํจ๊ณผ์ ์ผ๋ก ๊ฒ์ฆํ๋ค.
Motivation
Known : Deep Research Agents๋ ์ธ๋ถ ์์ค์์ ์ ๋ณด๋ฅผ ๊ฒ์ํ๊ณ ํฉ์ฑํ์ฌ ์ฅ๋ฌธ์ ๋ณด๊ณ ์๋ฅผ ์์ฑํ์ง๋ง, ๋จ์ผ ์ ๋ต์ด ์๊ณ ์ฐ๊ตฌ ํ์ง์ด ๋ค์ฐจ์์ ์ด์ด์ ํ๊ฐ๊ฐ ์ด๋ ต๋ค. ์ต๊ทผ ๋ฒค์น๋งํฌ๋ค์ ํ๋ฉด์ ์ ์ฐฝ์ฑ๊ณผ ์ธ์ฉ ์ ๋ ฌ ๊ธฐ์ค์ผ๋ก๋ ๋์ ์ ์๋ฅผ ๋ถ์ฌํ์ง๋ง ์ฌ์ค์ฑ๊ณผ ์ถ๋ก ๊ฒฐํจ์ ๋์น๋ค.
Gap : ๊ธฐ์กด static evaluators๋ ์ธ๋ถ ๋๊ตฌ ์ ๊ทผ ๋ฅ๋ ฅ์ด ์์ด temporal validity์ factual correctness๋ฅผ ํ๊ฐํ ์ ์์ผ๋ฉฐ, ์ด๋ ํ๊ฐ์์ ์ฐ๊ตฌ์ ๊ฐ์ capability mismatch๋ฅผ ์ด๋ํ๋ค.
Why : Deep Research Agents์ ํ์ง์ ์ ํํ ํ๊ฐํ์ง ๋ชปํ๋ฉด ์๋ชป๋ ์ ๋ณด๋ ๊ตฌ์ ๋ด์ฉ์ด ํฌํจ๋ ๋ณด๊ณ ์๋ ๋์ ์ ์๋ฅผ ๋ฐ์ ์ ์์ด, ์ค์ ๋ถ์๊ฐ๊ธ ๋ณด๊ณ ์์ ์ ๋ขฐ์ฑ์ ๋ณด์ฅํ ์ ์๋ค.
Approach : Capability parity ์์น์ ๊ธฐ๋ฐํ์ฌ ํ๊ฐ ํ๋ก์ธ์ค ์์ฒด๋ฅผ agenticํ๊ฒ ๋ง๋ค์ด, tool-calling agent๊ฐ ๋
๋ฆฝ์ ์ผ๋ก ์ ๋ณด๋ฅผ ๊ฒ์ยท๊ฒ์ฆํ๊ณ ๊ตฌ์กฐํ๋ ํ๊ฐ ํ๋กํ ์ฝ(query-agnostic ๋ฉํธ๋ฆญ๊ณผ ์ ์ํ ๋ฉํธ๋ฆญ ๊ฒฐํฉ)์ ํตํด ํ๊ฐํ๋ค.
Achievement
Figure 1: Capturing Overlooked Dimensions of Research Quality. DREAM actively verifies the reasoning of
Mirage of Synthesis ํ์ ์๋ณ : ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ค์ด ํ๋ฉด์ ์ ์ฐฝ์ฑ๊ณผ ์ธ์ฉ ์ ๋ ฌ์ ์์ ์ฌ์ค์ฑ, ์๊ฐ ์ ํจ์ฑ, ๋
ผ๋ฆฌ์ ๊ฒฐํจ์ ๊ฐ๊ณผํ๋ ๋ฌธ์ ๋ฅผ ์ฒด๊ณํ
ํตํฉ ํ์๋
ธ๋ฏธ ์ ์ : Presentation Quality, Task Compliance, Analytical Depth, Source Quality์ 4๊ฐ ์์ง์ถ์ผ๋ก ๊ธฐ์กด DRE ๋ฒค์น๋งํฌ๋ค์ ๋ถ๋ฅํ๊ณ ๊ทธ๋ค์ ํ๊ณ๋ฅผ ์ง๋จ
DREAM ํ๋ ์์ํฌ ๊ฐ๋ฐ : Capability parity ์์น์ ๊ตฌํํ agentic evaluation ์์คํ
์ผ๋ก Protocol Creation๊ณผ Execution์ 2๋จ๊ณ ์ํฌํ๋ก์ฐ ์ํ
์ธ ๊ฐ์ง agentic ๋ฉํธ๋ฆญ ๊ฒ์ฆ : Key-Information Coverage, Reasoning Quality, Factuality ๋ฉํธ๋ฆญ์ด ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ณด๋ค temporal degradation๊ณผ factual error์ ํจ์ฌ ๋ ๋ฏผ๊ฐํจ์ ์ค์ฆ
How
Figure 2: DREAM Overview. Our framework operates in two phases. Left: Protocol Creation, where query-
Protocol Creation: ์ฃผ์ด์ง ์ฟผ๋ฆฌ์ ๋ํด agent๊ฐ tool-calling์ ํตํด ๋
๋ฆฝ์ ์ผ๋ก ์ฐ๊ตฌ๋ฅผ ์ํํ๊ณ ํต์ฌ ์ ๋ณด, ์ถ๋ก ๊ธฐ์ค, ๊ฒ์ฆ ๋์์ ์๋ณํ์ฌ ํ๊ฐ ํ๋กํ ์ฝ ์์ฑ
Protocol Execution: ์์ฑ๋ ๋ณด๊ณ ์์ ๋ํด LLM ๊ธฐ๋ฐ ์ ์ ๋ฉํธ๋ฆญ(Writing Quality)๊ณผ agent ๊ธฐ๋ฐ ๋์ ๋ฉํธ๋ฆญ(Key-Information Coverage, Reasoning Quality, Factuality)์ ๋ณ๋ ฌ ์คํ
Key-Information Coverage: ๋ณด๊ณ ์๊ฐ ๊ฒ์๋ ํต์ฌ ์ ๋ณด๋ฅผ ํฌํจํ๋์ง, ์๊ฐ ๋ฏผ๊ฐ๋๋ฅผ ๊ณ ๋ คํ์ฌ ํ๊ฐ
Reasoning Quality: Agent๊ฐ ๋ณด๊ณ ์์ ์ถ๋ก ์ ์ธ๋ถ ์์ค์ ๊ต์ฐจ ๊ฒ์ฆํ์ฌ ๋
ผ๋ฆฌ์ ์ผ๊ด์ฑ๊ณผ ์ฌ์ค ๊ธฐ๋ฐ์ฑ ํ์ธ
Factuality & Citation Integrity: ์ํฌํ๋ก์ฐ ๊ธฐ๋ฐ์ผ๋ก ์ธ์ฉ ์ถฉ์ค์ฑ๊ณผ factual consistency๋ฅผ ๊ฒ์ฆ
๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ์๋
ธ๋ฏธ ๋์ถ: Agentic pipeline์ด ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ํ๊ฐ ๋ฉํธ๋ฆญ์ ์ถ์ถยท์๋ฒ ๋ฉยทํด๋ฌ์คํฐ๋งํ์ฌ ํตํฉ ํ์๋
ธ๋ฏธ ๊ตฌ์ฑ
Originality
Capability parity ์์น์ ๋์
: ํ๊ฐ์๋ ์ฐ๊ตฌ์์ ์ ์ฌํ ๋๊ตฌ ์ฌ์ฉ ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ถฐ์ผ ํ๋ค๋ ์๋ก์ด ํ๊ฐ ์ฒ ํ ์ ์
Mirage of Synthesis ๊ฐ๋
ํ : ํ๋ฉด์ ํ์ง ์ฒ๋์ ํ์์ ๋ช
๋ช
ํ๊ณ ์ฒด๊ณํํ ์ต์ด์ ๋ถ์
Agentic evaluation ํจ๋ฌ๋ค์ : ํ๊ฐ ํ๋ก์ธ์ค ์์ฒด๋ฅผ ๋ฅ๋์ agent๋ก ๊ตฌํํ์ฌ ์ ์ ํ๊ฐ์ ํ๊ณ ๊ทน๋ณต
Temporal awareness ํตํฉ : ์๊ฐ์ ๋ฐ๋ฅธ ์ ๋ณด ์ ํจ์ฑ ๊ฐ์๋ฅผ ํ๊ฐํ๋ dimension์ ๋ช
์์ ์ผ๋ก ๋์
Reference-free evaluation : ๋จ์ ์ฐธ์กฐ ๋ฐ์ดํฐ์
์ด ์๋ ๋
๋ฆฝ์ ๊ฒ์ฆ์ ํตํ ํ์ฅ ๊ฐ๋ฅํ ํ๊ฐ ๋ฐฉ์
Limitation & Further Study
Agent ๊ธฐ๋ฐ ํ๊ฐ์ ๊ณ์ฐ ๋น์ฉ์ด ์ ์ LLM ํ๊ฐ๋ณด๋ค ๋์ ๊ฒ์ผ๋ก ์์๋์ง๋ง ์์ธํ ๋น์ฉ ๋ถ์์ด ๋ถ์กฑ
Evaluation protocol ์์ฑ์ ํ์ง์ด ์ต์ข
ํ๊ฐ ๊ฒฐ๊ณผ์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ๋ฆฌํ์ฌ ๋ถ์ํ์ง ์์
ํ์ฌ ์คํ์ด ํน์ ๋๋ฉ์ธ(์ฌํ, ๊ท์ )์ ๊ตญํ๋์ด ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ํ ๊ฒ์ฆ ํ์
Tool-calling agent์ ์ค๋ฅ(ํ ๋ฃจ์๋ค์ด์
, ๊ฒ์ ์คํจ ๋ฑ)๊ฐ evaluation ๊ฒฐ๊ณผ์ ๋ฏธ์น๋ ์ํฅ ๋ถ์ ๋ถ์ฌ
Human expert์ DREAM ํ๊ฐ ๊ฒฐ๊ณผ์ ์๊ด์ฑ์ ์ง์ ๊ฒ์ฆํ๋ human evaluation์ด ๋
ผ๋ฌธ์์ ์์ธํ ์ ์๋์ง ์์
ํ์ ์ฐ๊ตฌ์์๋ ๋ค์ํ ๋๋ฉ์ธ๊ณผ ์ธ์ด์ ๋ํ DREAM์ ์ ์ฉ ๋ฐ ์ธ๊ฐ ํ๊ฐ์์์ ๋น๊ต, agent ์ค๋ฅ ์ํฅ ๋ถ์, ํ๊ฐ ๋น์ฉ ์ต์ ํ ๋ฐฉ์์ ์ถ๊ตฌํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : ์ด ๋
ผ๋ฌธ์ Deep Research Evaluation์ ๊ทผ๋ณธ์ ๋ฌธ์ ๋ฅผ 'Mirage of Synthesis'๋ก ๋ช
๋ช
ํ๊ณ capability parity ์์น์ ๊ธฐ๋ฐํ DREAM ํ๋ ์์ํฌ๋ก ํด๊ฒฐํ์ฌ, ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ๋งน์ ์ ๊ตฌ์ฒด์ ๋ฐ์ดํฐ๋ก ์
์ฆํจ์ผ๋ก์จ ํ๊ฐ ํจ๋ฌ๋ค์์ ํ์ ์ ์ ํ์ ์ ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ ๊ธฐ๋ฐ ์ฐ๊ตฌ
Deep Research Agent์ ํ๊ฐ ํ๋ ์์ํฌ ์ค๊ณ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ์์ฑ ๋ถ์ ๋ณด๊ณ ์์ ์ฌ์ค์ฑ ๊ฒ์ฆ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ์์ด์ ํธ๊ฐ ์์ฑํ ๋ณด๊ณ ์์ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ๊ณผ ํ์ง ๊ฒ์ฆ ํ๋ ์์ํฌ๋ฅผ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์ฐ๊ตฌ ํ๊ฐ์ ์ ๋ขฐ์ฑ๊ณผ ์ฌ์ค์ฑ ๊ฒ์ฆ์ ์ํ ํ๋ ์์ํฌ ๊ฐ๋ฐ์ ๊ดํ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์ฐ๊ตฌ ๋ณด๊ณ ์ ํ์ง ํ๊ฐ ๋ฐฉ๋ฒ์ ์ ์ํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ์์ฑ ๋ถ์ ๋ณด๊ณ ์์ ํ๊ฐ ๊ธฐ์ค๊ณผ ๋ฐฉ๋ฒ๋ก ์ ๋์ ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ ๊ทผ๋ฒ์ ์ทจํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ด ๊ณผํ ์ฐ๊ตฌ ์ฐ์ถ๋ฌผ์ ์์ฑํ๊ณ ํ๊ฐํ๋ ์ธํฐํ์ด์ค๋ก์์ ์ญํ ์ ํ๊ตฌํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ๊ทธ๋ํ ๊ด๋ จ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ๋ก ๋์ผํ ๋ฌธ์ ์์ญ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com