MedResearchBench: A Multi-Domain Benchmark for Evaluating AI Research Agents on Clinical Medical Research

์ €์ž: Shuping Tan, Zhanxiao Tian | ๋‚ ์งœ: 2026-03-31 | DOI: 10.64898/2026.03.30.26349749 📄 PDF


Essence

Figure 1

Figure 1: MedResearchBench architecture overview. Tasks are organized across 7 clinical

์˜๋ฃŒ ์ž„์ƒ ์—ฐ๊ตฌ์— ํŠนํ™”๋œ ์ตœ์ดˆ์˜ ๋ฒค์น˜๋งˆํฌ์ธ MedResearchBench๋ฅผ ์ œ์‹œํ•˜์—ฌ, AI ์—ฐ๊ตฌ ์ž๋™ํ™” ์‹œ์Šคํ…œ์ด ์ž„์ƒ์ ์œผ๋กœ ํƒ€๋‹นํ•˜๊ณ  ์ถœํŒ ํ’ˆ์งˆ์˜ ์˜๋ฃŒ ์—ฐ๊ตฌ๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํ‰๊ฐ€ํ•˜๋Š” ํ‘œ์ค€ํ™”๋œ ํ”Œ๋žซํผ์„ ์ œ๊ณตํ•œ๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: MedResearchBench architecture overview. Tasks are organized across 7 clinical

How

Figure 1

Figure 1: MedResearchBench architecture overview. Tasks are organized across 7 clinical

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์˜๋ฃŒ ์ž„์ƒ ์—ฐ๊ตฌ์˜ ๊ณ ์œ ํ•œ ๋ณต์žก์„ฑ์„ ๋ฐ˜์˜ํ•œ ์ตœ์ดˆ์˜ ์ „๋ฌธํ™”๋œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•จ์œผ๋กœ์จ AI ์—ฐ๊ตฌ ์ž๋™ํ™” ์‹œ์Šคํ…œ์˜ ์˜๋ฃŒ ๋ถ„์•ผ ์ ์šฉ์— ์žˆ์–ด ์ค‘์š”ํ•œ ํ’ˆ์งˆ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ํ™•๋ฆฝํ•œ๋‹ค. NHANES ๋…ผ๋ฌธ ๊ณต์žฅ ๋ฌธ์ œ๋ฅผ ๋ช…ํ™•ํžˆ ์ธ์‹ํ•˜๊ณ  ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•œ ์„ค๊ณ„๋กœ, ์˜๋ฃŒ AI ์‹œ์Šคํ…œ์˜ ์ฑ…์ž„์žˆ๋Š” ๊ฐœ๋ฐœ๊ณผ ๋ฐฐํฌ๋ฅผ ์œ„ํ•œ ์‹ค์งˆ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์˜๋ฃŒ AI ์‹œ์Šคํ…œ ํ‰๊ฐ€์˜ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ ๋ถ„์•ผ AI ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘ ์—ฐ๊ตฌ ๋ชจ๋‘ AI ์‹œ์Šคํ…œ์˜ ์˜ํ•™ ๋˜๋Š” ์ž„์ƒ ์—ฐ๊ตฌ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ๋ฒค์น˜๋งˆํฌ ๋˜๋Š” ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ์ฒด๊ณ„์ ์œผ๋กœ ๊ฒ€์ฆํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์—ฐ๊ตฌ ์ž๋™ํ™” ๋˜๋Š” ์˜๋ฃŒ AI ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€์™€ ํ‘œ์ค€ํ™”๋œ ๋ฒค์น˜๋งˆํ‚น์— ๊ด€ํ•œ ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ ๋ชฉ์ ์„ ๊ณต์œ ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๋ชจ๋ธ์˜ ๊ณผํ•™์  ๋˜๋Š” ์ž„์ƒ์  ์—ฐ๊ตฌ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•์ด๋ผ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ ๋ชฉ์ ์„ ๊ฐ€์ง„๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜ํ•™ ๋˜๋Š” ์ž„์ƒ ๋ถ„์•ผ์—์„œ AI ์‹œ์Šคํ…œ์˜ ๋Šฅ๋ ฅ๊ณผ ํ•œ๊ณ„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ ์ ‘๊ทผ๋ฒ•์„ ์ทจํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์—ฐ๊ตฌ ์ž๋™ํ™” ์‹œ์Šคํ…œ์˜ ํ‰๊ฐ€์™€ ๊ด€๋ จํ•˜์—ฌ ์œ ์‚ฌํ•œ ๋ฒค์น˜๋งˆํ‚น ์ ‘๊ทผ๋ฒ•์„ ์ทจํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž„์ƒ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ AI ์‹œ์Šคํ…œ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์ž๋™ํ™” ๋ฐ ํ‰๊ฐ€ ์‹œ์Šคํ…œ์— ๊ด€ํ•œ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃฌ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ AI ์—ฐ๊ตฌ ์ž๋™ํ™”์—์„œ ๋‹ค์˜์—ญ ์‹คํ—˜/๋ถ„์„ ๋ฒค์น˜๋งˆํ‚น ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•ด, BioResearcher์˜ ๋„๊ตฌ ํ™œ์šฉ ๋ฐ ์„ฑ๋Šฅ ๊ฒ€์ฆ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ํ™•์žฅํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •