DR$^{3}$-Eval: Towards Realistic and Reproducible Deep Research Evaluation

Motivation

Known: Deep Research Agent는 계획, 검색, 다중 모달 이해, 리포트 생성을 포함하는 복잡한 연구 작업을 수행하도록 설계되었다. 기존 벤치마크(Deep Research Bench, DRBench, DeepResearchGym)들은 실시간 웹 접근, 가상 텍스트만 포함, 또는 사용자 파일을 지원하지 않는 등의 한계가 있다.
Gap: 현실 세계 연구의 복잡성(다중 모달 사용자 파일, 노이즈 있는 정보, 암묵적 연구 의도)과 기존 DRA 평가 환경 사이의 괴리가 존재한다. 특히 재현성과 현실성을 동시에 만족하면서도 다중 모달 파일을 지원하는 벤치마크가 부재하다.
Why: DRA의 성능 평가가 정확해야 이들 시스템의 강점과 약점을 파악하고, 검색 견고성과 환각 제어 같은 핵심 실패 모드를 발견할 수 있다. 현실적이고 재현 가능한 벤치마크는 신뢰할 수 있는 모델 비교와 개선을 가능하게 한다.
Approach: 역방향 구축 방식으로 검증된 증거 문서에서 쿼리를 파생시켜 명확한 해결 경로를 보장하며, 각 작업마다 정적 샌드박스 코퍼스를 구성하여 개방형 웹의 복잡성을 시뮬레이션하면서도 완전히 검증 가능하게 한다. Information Recall, Factual Accuracy, Citation Coverage, Instruction Following, Depth Quality의 5가지 차원으로 평가한다.

Figure 2: Overview of the DR3-Eval framework. (1) Data construction synthesizes search paths from

DR³-Eval 벤치마크: 다중 모달 파일, 샌드박스 코퍼스, 역방향 구축을 결합한 현실적이고 재현 가능한 리포트 생성 평가 벤치마크 제시
다차원 평가 프레임워크: 정보 회수, 사실적 정확성, 인용 범위, 지시 준수, 깊이 질 등 5가지 차원을 통한 포괄적 평가 체계 개발 및 인간 판단과의 정렬 검증
DR³-Agent 시스템: 텍스트, 이미지, 비디오, 오디오 등 다중 모달 파일 처리가 가능한 계층적 다중 에이전트 아키텍처 구현
광범위한 실험 분석: 최신 LLM들의 검색 견고성 부족과 환각 제어 실패 같은 핵심 약점 노출

Figure 2: Overview of the DR3-Eval framework. (1) Data construction synthesizes search paths from

사용자 제공 다중 모달 파일에서 발산-수렴 메커니즘을 통해 실제 검색 경로를 합성하여 정적 샌드박스 구축
각 작업에 대해 증거 문서, 혼란 유발 문서, 노이즈를 포함하는 제어된 신호-대-잡음 비율의 코퍼스 생성
역방향 구축 방식으로 검증된 증거 문서에서 쿼리를 파생시켜 평가 모호성 제거
계층적 다중 에이전트 아키텍처에서 Main Agent가 전역 추론을 조율하고 sub-agent들이 반복적 검색과 파일 파싱 수행
Information Recall, Factual Accuracy, Citation Coverage, Instruction Following, Depth Quality 5가지 차원으로 다차원 평가 수행