์ ์: Qianqian Xie, Qingheng Xiong, He Zhu, Tiantian Xia, Xueming Han, Fanyu Meng, Jiakai Wang, Zhiqi Bai, ๅงๆๅบท, Zhaohui Wang, Yubin Guo, Yuqing Wen, ่
ๅ้ณ, Zijie Zhang, Shihao Li, Yanghai Wang, Yuxiang Ren, Junlan Feng, Jiaheng Liu | ๋ ์ง: 2026-04-16 | DOI: 10.48550/arxiv.2604.14683 📄 PDF
Essence
Figure 1: Comparison of deep research benchmarks. Given raw
DRยณ-Eval์ Deep Research Agent์ ํ๊ฐ๋ฅผ ์ํ ํ์ค์ ์ด๊ณ ์ฌํ ๊ฐ๋ฅํ ๋ฒค์น๋งํฌ๋ก, ์ฌ์ฉ์ ์ ๊ณต ๋ค์ค ๋ชจ๋ฌ ํ์ผ๊ณผ ์ ์ ์๋๋ฐ์ค ์ฝํผ์ค๋ฅผ ๊ฒฐํฉํ์ฌ ๋ฆฌํฌํธ ์์ฑ ์์
์ ํ๊ฐํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: DRยณ-Eval์ Deep Research Agent ํ๊ฐ์ ํ์ค์ฑ๊ณผ ์ฌํ์ฑ์ ๋์์ ํ๋ณดํ ํ์ ์ ์ธ ๋ฒค์น๋งํฌ์ด๋ฉฐ, ์ญ๋ฐฉํฅ ๊ตฌ์ถ, ๋ค์ค ๋ชจ๋ฌ ํ์ผ ์ง์, ๋ค์ฐจ์ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํตํด ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ํ๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๋ค. ๊ด๋ฒ์ํ ์คํ์ ํตํด ํ์ฌ LLM ๊ธฐ๋ฐ DRA์ ๊ฒ์ ๊ฒฌ๊ณ ์ฑ๊ณผ ํ๊ฐ ์ ์ด๋ผ๋ ํต์ฌ ์ฝ์ ์ ๋
ธ์ถํ์ฌ ํฅํ ๊ฐ์ ๋ฐฉํฅ์ ์ ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
AI ์์ด์ ํธ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
AI ์์ด์ ํธ์ ๋ฆฌํฌํธ ์์ฑ ์์
ํ๊ฐ๋ฅผ ์ํ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Deep Research Agent ํ๊ฐ๋ฅผ ์ํ ๋ค๋ฅธ ๋ฒค์น๋งํฌ ๋๋ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ์ฐ๊ตฌ ์์
์ํ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋์์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฌธ์ ์์ฑ์์ ์ฌ๊ท์ ๊ณํ๊ณผ ๋์ ๊ตฌ์กฐ ํตํฉ์ ์ํ ์ ์ฌํ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๋ค์ค์์ด์ ํธ๋ฅผ ํ์ฉํ ์ํํธ์จ์ด ๊ฐ๋ฐ ์๋ํ์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ-์ ์ฑ
์ฐ๊ณ๋ฅผ ์ํ ํ
์คํธ ๋ณํ์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ์ ๊ทผํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐ๊ตฌ ์์ด์ ํธ ๋๋ AI ๊ธฐ๋ฐ ์ ๋ณด ๊ฒ์ ์์คํ
์ ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ๊ฐ๋ฐํ๋ ์ ์ฌํ ๋ชฉ์ ์ ๊ณต์ ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ์์คํ
์ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํ ๋ฒค์น๋งํฌ ์ค๊ณ์ ์ฌํ ๊ฐ๋ฅ์ฑ์ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ์์ด์ ํธ ๊ธฐ๋ฐ ์ ๋ณด ์ฒ๋ฆฌ ๋ฐ ๋ฆฌํฌํธ ์์ฑ ์์
์ ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์ด์ ํธ ํ๊ฐ๋ฅผ ์ํ ๋์์ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Deep Research ๋๋ ๋ณต์กํ AI ์์
์ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ ๋ฒค์น๋งํฌ๋ก ์ ์ฌํ ๋ฐฉ๋ฒ๋ก ๊ณผ ๋ชฉํ๋ฅผ ๊ณต์ ํ๋ค.
ํ์ ์ฐ๊ตฌ
execution-grounded evaluation ๊ฐ๋
์ ํน์ ๋๋ฉ์ธ์ ์ ์ฉํ์ฌ ํ์ฅํ ์ฐ๊ตฌ๋ค.