MolQuest: A Benchmark for Agentic Evaluation of Abductive Reasoning in Chemical Structure Elucidation

์ €์ž: Taolin Han, Shuang Wu, Jinghang Wang, Yuhao Zhou, Renquan Lv, Bing Zhao, Wei Hu | ๋‚ ์งœ: 2026-03-26 | DOI: N/A 📄 PDF


Essence

Figure 1

๋ถ„์ž ๊ตฌ์กฐ ํ•ด์„์„ ์ œ์•ฝ ๋งŒ์กฑ ๋ฌธ์ œ(CSP)๋กœ ํ‘œํ˜„

๋ณธ ๋…ผ๋ฌธ์€ ํ™”ํ•™ ๊ตฌ์กฐ ํ•ด์„ ์ž‘์—…์„ ๋™์  ๋‹ค์ค‘ ํ„ด ์—์ด์ „ํŠธ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋กœ ์žฌ์ •์˜ํ•œ MolQuest๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ •์  QA ํ˜•์‹์˜ ๊ธฐ์กด ๊ณผํ•™ ๋ฒค์น˜๋งˆํฌ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, ์‹ค์ œ ํ™”ํ•™ ๋ฌธํ—Œ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์˜ ์ƒํ˜ธ์ž‘์šฉ์  ํ™˜๊ฒฝ์—์„œ LLM์˜ ๊ท€์ถ”์  ์ถ”๋ก (abductive reasoning) ๋ฐ ์ „๋žต์  ์˜์‚ฌ๊ฒฐ์ • ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

MolQuest ๋ฒค์น˜๋งˆํฌ์˜ ํ•ต์‹ฌ ํŠน์„ฑ(๋™์  ์ƒํ˜ธ์ž‘์šฉ, ์‹ค๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜, ๋‹ค์ฐจ์› ํ‰๊ฐ€)

  1. ํ˜์‹ ์  ํ‰๊ฐ€ ํŒจ๋Ÿฌ๋‹ค์ž„: ์ •์  QA์—์„œ ๋™์  ์ˆœ์ฐจ์  ์˜์‚ฌ๊ฒฐ์ •(sequential decision-making) ๋ฌธ์ œ๋กœ์˜ ์žฌ์ •์˜๋กœ, ์‹ค์ œ ์‹คํ—˜์‹ค ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ๋ฐ˜์˜ํ•œ "๊ณ„ํš-์š”์ฒญ-์ถ”๋ก " ๋ฃจํ”„ ๊ตฌํ˜„
  2. ๊ณ ํ’ˆ์งˆ ์‹ค๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ: 2025๋…„ ์ดํ›„ ๋ฐœํ‘œ๋œ ํ™”ํ•™ ๋ฌธํ—Œ์—์„œ ์ถ”์ถœํ•œ ๋ฐ์ดํ„ฐ๋กœ 50% ์ด์ƒ์˜ ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค ํ™•๋ณด, ํ•™์Šต ๋ฐ์ดํ„ฐ ์˜ค์—ผ ์œ„ํ—˜ ์ตœ์†Œํ™”
  3. ์‹ฌ๊ฐํ•œ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ ๋ฐœ๊ฒฌ: SOTA ๋ชจ๋ธ๋„ ์•ฝ 50% ์ •๋„์˜ ์ •ํ™•๋„๋งŒ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ๋Œ€๋ถ€๋ถ„ ๋ชจ๋ธ์€ 30% ์ดํ•˜์˜ ์„ฑ๋Šฅ์„ ๋ณด์ž„. ์ด๋Š” LLM์˜ ์ „๋žต์  ๊ณผํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ์‹ฌ๊ฐํ•œ ๋ถ€์กฑ์„ ์ž…์ฆ
  4. ํฌ๊ด„์  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ: 12๊ฐœ SOTA LLM์— ๋Œ€ํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ํ‰๊ฐ€ ์ˆ˜ํ–‰, ์ตœ์ข… ๋‹ต๋ณ€ ์ •ํ™•๋„๋ฅผ ๋„˜์–ด ์˜์‚ฌ๊ฒฐ์ • ๋กœ์ง๊ณผ ์ถ”๋ก  ๊ณผ์ • ํ‰๊ฐ€

How

Figure 3

๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ํŒŒ์ดํ”„๋ผ์ธ: LLM ์ž๋™ํ™”์™€ ์ „๋ฌธ๊ฐ€ ๊ฒ€์ฆ์˜ ์ธ๋ฃจํ”„ ๊ฒฐํ•ฉ

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.3/5

์ดํ‰: MolQuest๋Š” ๊ธฐ์กด์˜ ์ •์  QA ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋ฒค์น˜๋งˆํฌ์˜ ๊ทผ๋ณธ์  ํ•œ๊ณ„๋ฅผ ์ธ์‹ํ•˜๊ณ , ์‹ค์ œ ๊ณผํ•™ ์—ฐ๊ตฌ์˜ ๋™์ ยท์ƒํ˜ธ์ž‘์šฉ์  ํŠน์„ฑ์„ ์ถฉ์‹คํžˆ ๋ฐ˜์˜ํ•œ ํ˜์‹ ์  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ํŠนํžˆ ์ธ๋ฃจํ”„ ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ๊ณผ ์‹ค์ œ ๋ฌธํ—Œ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ํ™œ์šฉ์œผ๋กœ ๋†’์€ ์‹ ๋ขฐ์„ฑ์„ ํ™•๋ณดํ–ˆ์œผ๋ฉฐ, SOTA ๋ชจ๋ธ๋“ค์˜ ์‹ฌ๊ฐํ•œ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ ๋ฐœ๊ฒฌ์€ AI for Science ์—ฐ๊ตฌ์˜ ์ค‘์š”ํ•œ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ๋‹ค. ๋‹ค๋งŒ ์ €์„ฑ๋Šฅ์˜ ์›์ธ ๋ถ„์„ ์‹ฌํ™”์™€ ๋ฒค์น˜๋งˆํฌ ๊ทœ๋ชจ์— ๋Œ€ํ•œ ์ƒ์„ธ ๊ธฐ์ˆ ์ด ์ถ”๊ฐ€๋˜๋ฉด ๋”์šฑ ์™„์„ฑ๋„ ๋†’์€ ๋…ผ๋ฌธ์ด ๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
131๋ฒˆ ๋…ผ๋ฌธ์€ ํ”„๋กœํ…Œ์˜ค๋ฏน์Šค ์‹คํ—˜์˜ ์ž๋™ํ™” LLM ์—์ด์ „ํŠธ ์ ์šฉ์„ ๋‹ค๋ค„, 556๋ฒˆ MolQuest์˜ ์—ญ๋™์  ์‹คํ—˜ ํ™˜๊ฒฝ์—์„œ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ ์ธก์ •์˜ ๊ธฐ์ดˆ์  ๊ตฌํ˜„ ์‚ฌ๋ก€๋กœ ์—ฐ๊ณ„๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
294๋ฒˆ ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ์—์ด์ „ํŠธ์˜ ์‹ค์šฉ์  ์„ฑ๋Šฅํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ์‚ฌ๋ก€๋กœ, MolQuest์˜ ํ‰๊ฐ€ ํ”„๋กœํ† ์ฝœ ์„ค๊ณ„ ๊ทผ๊ฑฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
556๋ฒˆ ๋…ผ๋ฌธ์€ ์•ฝ๋ฌผ ์„ค๊ณ„์—์„œ abductive reasoning ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•ด DrugCLIP์ฒ˜๋Ÿผ ๊ณผํ•™์  ์ถ”๋ก  ๊ธฐ๋ฐ˜ ์•ฝ๋ฌผ์žฌ์ฐฝ์ถœ์˜ ํ‰๊ฐ€์— ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐ ๊ฒ€์ฆ ๋ฒค์น˜๋งˆํ‚น์˜ ์›์น™์  ๊ธฐ์ค€ ์ˆ˜๋ฆฝ์„ ํ†ตํ•ด MolQuest์˜ ์—์ด์ „ํŠธ ํ‰๊ฐ€ ์ง€ํ‘œ ์ •์˜์— ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
MolQuest๋Š” ์•ฝ๋ฌผ ๊ด€๋ จ ์—ฐ์—ญ์  ์ถ”๋ก  ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ์„œ, DrugPlayGround์˜ ๊ณผ์ œ-์ž„๋ฒ ๋”ฉ ์งˆ ํ‰๊ฐ€ ๊ตฌ์กฐ ๋…ผ๋ฆฌ์— ๊ทผ๊ฐ„์ด ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
556์—์„œ ์ถ”๋ก ํ•˜๋Š” ํ™”ํ•™ ๊ตฌ์กฐ ํ•ด์„ ๋ฐ ์ „๋žต ๋ฒค์น˜๋งˆํฌ๋Š” 284 ๋…ผ๋ฌธ์˜ AI ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธยท์—ฐ๊ตฌ ๊ฒฐ๊ณผ ๋‹ค์–‘์„ฑ ๋ถ„์„๊ณผ ์‹ค์ œ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
529๋ฒˆ MedAgents๋Š” ๋ฐ”์ด์˜ค๋ฉ”๋“œ ๋„๋ฉ”์ธ ๋‚ด์—์„œ LLM ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ˜‘๋ ฅ ์‹œ์Šคํ…œ ๊ตฌํ˜„์„ ๋‹ค๋ฃจ๋ฉฐ, 556๋ฒˆ MolQuest์˜ ํ™”ํ•™ ๊ท€์ถ”์  ์ถ”๋ก  ํ‰๊ฐ€์™€ ๋‹ค๋ฅธ ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
494๋ฒˆ ๋…ผ๋ฌธ์€ LLM์˜ ๊ณผํ•™์  ์ฐฝ์˜์„ฑ ๋ฐ ๊ตฌ์กฐ์  ์ถ”๋ก ๋Šฅ๋ ฅ ํ‰๊ฐ€์— ๊ด€ํ•ด debate ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ ์šฉํ•จ์œผ๋กœ์จ ๊ต์ฐจ ํ‰๊ฐ€๋ฒ•์˜ ๋Œ€์•ˆ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
705 ๋…ผ๋ฌธ์€ 556์˜ ๊ณผํ•™์  ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ(ํ™”ํ•™ ์ค‘์‹ฌ)๋ฅผ ๋ฐ”์ด์˜ค ์—ฐ๊ตฌ ๋ฐ ์—ฐ๊ตฌ ๋ฒ”์œ„ ์ „๋ฐ˜์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์•ฝ๋ฌผ ํƒ์ƒ‰ ๋ฐ ํ™”ํ•™ ๊ตฌ์กฐ ์ถ”๋ก ์—์„œ LLM ๊ธฐ๋ฐ˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ถ”๋ก ํ˜• agent ์ „๋žต์ด MolQuest์˜ ์‹ค์ œ ํ™”ํ•™ ์ž‘์—… ์‘์šฉ ์‚ฌ๋ก€๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •