BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science

์ €์ž: Xinna Lin, Siqi Ma, Junjie Shan, Xiaojing Zhang, Shell Xu Hu, Tiannan Guo, Stan Z. Li, Kaicheng Yu | ๋‚ ์งœ: 2024 | DOI: arXiv:2407.00466 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: (์ขŒ) ๊ธฐ์กด ๋„๋ฉ”์ธ ํŠนํ™” AI ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ๋Š” ์งˆ์˜์‘๋‹ต(QA) ๊ฐ™์€ ์ €์ˆ˜์ค€ ์ž‘์—…์—๋งŒ ์ง‘์ค‘ํ•˜๊ฑฐ๋‚˜ ๊ณผํ•™์ž ์ฝ”ํŒŒ์ผ๋Ÿฟ ๋ณต์žก ํŒŒ์ดํ”„๋ผ์ธ์— ๋‚ด์žฌ๋จ. (์šฐ) ๋ณธ ๋…ผ๋ฌธ์€ ์ง€์‹๊ทธ๋ž˜ํ”„ ์งˆ์˜์‘๋‹ต(KGQA)๊ณผ ๊ณผํ•™ ์ฃผ์žฅ ๊ฒ€์ฆ(SCV)์˜ ๋‘ ๊ฐ€์ง€ ์›์ž์ (atomic) ๋ถ€์ž‘์—…์œผ๋กœ ๊ตฌ์„ฑ๋œ ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ฒ€์ฆ(KGCheck) ์ž‘์—…์„ ํ†ตํ•ด ์ƒ์˜ํ•™ AI ์—์ด์ „ํŠธ ํ‰๊ฐ€์˜ ๊ฒฉ์ฐจ๋ฅผ ํ•ด์†Œํ•จ.

๋ณธ ๋…ผ๋ฌธ์€ ์ƒ์˜ํ•™ ๋ถ„์•ผ AI ์—์ด์ „ํŠธ์˜ ๋ฌธํ—Œ ์ดํ•ด ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด BioKGBench ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด LLM ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์˜ ํ™˜๊ฐ(hallucination) ๋ฌธ์ œ๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ๊ตฌ์กฐํ™”๋œ ์ง€์‹๊ทธ๋ž˜ํ”„์™€ ๋น„๊ตฌ์กฐํ™”๋œ ํ•™์ˆ ๋…ผ๋ฌธ์„ ๋ชจ๋‘ ํ™œ์šฉํ•˜๋Š” ํ˜ผํ•ฉํ˜• ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋„์ž…ํ•œ๋‹ค.

Motivation

Achievement

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•:
    • KGQA: 698๊ฐœ ์งˆ๋ฌธ(698=60 dev + 638 test)
    • SCV: 1,385๊ฐœ ๋ฐ์ดํ„ฐ(120 dev + 1,265 test)
    • KGCheck: 225๊ฐœ ์ „๋ฌธ๊ฐ€ ์ฃผ์„ ๋ฐ์ดํ„ฐ(20 dev + 205 test)
    • CKG ๋ถ€๋ถ„๊ทธ๋ž˜ํ”„: 484,955๊ฐœ ๋…ธ๋“œ, 18,959,943๊ฐœ ๊ฐ„์„ 
  2. ํ˜„์กด ์—์ด์ „ํŠธ์˜ ํ•œ๊ณ„ ๋ฐœ๊ตด:
    • GPT-4, Claude ๋“ฑ ์ตœ์‹  ์—์ด์ „ํŠธ๋“ค์ด ๋ฒค์น˜๋งˆํฌ์—์„œ ๋ถ€์กฑํ•œ ์„ฑ๋Šฅ ์‹œํ˜„
    • ์ง€์‹๊ทธ๋ž˜ํ”„ ์ฟผ๋ฆฌ ๋ฐ ๋ฌธํ—Œ ๊ฒ€์ฆ ๋Šฅ๋ ฅ์˜ ๊ฒฐํ•ฉ ํ•„์š”์„ฑ ์ฆ๋ช…
  3. ์‹ค์ œ ๊ณผํ•™์  ๊ฐ€์น˜ ์ž…์ฆ:
    • BKGAgent๋กœ CKG์—์„œ 90๊ฐœ ์ด์ƒ์˜ ์‚ฌ์‹ค์  ์˜ค๋ฅ˜ ๋ฐœ๊ฒฌ
    • ์ง€์‹๋ฒ ์ด์Šค ์—…๋ฐ์ดํŠธ๋ฅผ ์œ„ํ•œ ์‹ค์šฉ์  ๋„๊ตฌ๋กœ์˜ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ ์ œ์‹œ

How

Figure 3

๊ทธ๋ฆผ 3: BKGAgent์˜ ํ”„๋ ˆ์ž„์›Œํฌ.

๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ

BKGAgent ์„ค๊ณ„

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.25/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์ƒ์˜ํ•™ AI ์—์ด์ „ํŠธ ํ‰๊ฐ€์˜ ์ค‘์š”ํ•œ ๊ณต๋ฐฑ์„ ๋ฉ”์šฐ๋ฉฐ, ๊ตฌ์กฐํ™”๋œ ์ง€์‹๊ทธ๋ž˜ํ”„์™€ ๋น„๊ตฌ์กฐํ™”๋œ ํ•™์ˆ ๋…ผ๋ฌธ์„ ํ†ตํ•ฉํ•˜๋Š” ํ˜์‹ ์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์‹ค์ œ ๊ณผํ•™ ์—…๋ฌด๋ฅผ ๋ฐ˜์˜ํ•œ ์„ค๊ณ„์™€ 90๊ฐœ ์ด์ƒ์˜ ์ง€์‹๋ฒ ์ด์Šค ์˜ค๋ฅ˜ ๋ฐœ๊ฒฌ์„ ํ†ตํ•ด ์‹ค์งˆ์  ๊ฐ€์น˜๋ฅผ ์ž…์ฆํ–ˆ์œผ๋‚˜, ๋ถ€๋ถ„๊ทธ๋ž˜ํ”„ ์‚ฌ์šฉ๊ณผ ์ด์ง„ ๋ถ„๋ฅ˜ ์ค‘์‹ฌ์˜ ํ‰๊ฐ€ ์„ค๊ณ„๋Š” ์ถ”๊ฐ€ ํ™•์žฅ์˜ ์—ฌ์ง€๋ฅผ ๋‚จ๊ธด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
333๋ฒˆ ๋…ผ๋ฌธ์€ ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ํŒฉํŠธ์ฒดํฌ ๋ฐ ๊ฒ€์ฆ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋ฉฐ, BioKGBench์˜ ๊ธฐ๋ณธ์  ํ‰๊ฐ€ ๊ด€์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
165๋ฒˆ ๋…ผ๋ฌธ์€ ๋ฐ”์ด์˜ค์ง€์‹๊ทธ๋ž˜ํ”„ ๊ฒ€์ฆ์šฉ AI ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ๋กœ, 505๋ฒˆ์˜ LLM ๊ธฐ๋ฐ˜ ์œ ์ „์ž ๋„คํŠธ์›Œํฌ ๋ฐœ๊ฒฌ ๋ฐฉ๋ฒ• ํ‰๊ฐ€์— ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ์˜ํ•™ ๋„๋ฉ”์ธ์—์„œ LLM์˜ ํ™˜๊ฐ ๋ฌธ์ œ์™€ ์‚ฌ์‹ค ์ •ํ™•์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ๋ฒค์น˜๋งˆํฌ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciQAG ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋…ผ๋ฌธ์˜ ๊ทผ๊ฑฐ ๊ธฐ๋ฐ˜ ๋ฌธ๋‹ต ์‹œ์Šคํ…œ์„ ์ œ์‹œํ•˜์—ฌ, BioKGBench์˜ ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์™€ ๋‹ค๋ฅธ ๋ฐฉ์‹์˜ ์‚ฌ์‹ค ๊ฒ€์ฆ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ ์˜์—ญ์˜ ๊ณผํ•™์  ํด๋ ˆ์ž„ ์ƒ์„ฑ ๋ฐ ํŒฉํŠธ ๊ฒ€์ฆ ์ƒ์„ฑํ˜• ๋ชจ๋ธ๋กœ, KG ๊ฒ€์ฆ ์™ธ end-to-end ๋ฐฉ์‹ ์ ‘๊ทผ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์‚ฌ์‹ค ๊ฒ€์ฆ์— ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ ์ง€์‹๊ทธ๋ž˜ํ”„์™€ ํ˜ผํ•ฉํ˜• ๋ฐ์ดํ„ฐ์…‹์„ ๋„์ž…ํ•ด, FACTKG์˜ ๋ฐฉ๋ฒ•๋ก ์„ ์ƒ์˜ํ•™ ๋ถ„์•ผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
705๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณผํ•™๋ถ„์•ผ์˜ ์ง€์‹ ๊ฒ€์ฆ๊ณผ ๋„๊ตฌ ์‚ฌ์šฉ ํ™˜๊ฒฝ์„ ํ™•์žฅ์  ๋ฒค์น˜๋งˆํ‚น์œผ๋กœ ๊ตฌํ˜„ํ•ด์„œ, 165๋ฒˆ์˜ ํ‰๊ฐ€์ฒด๊ณ„๋ฅผ ํ˜„์‹ค ์‹คํ—˜ ์‚ฌ๋ก€๋กœ ํ™•๋Œ€ํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •