Explainable biomedical claim verification with large language models

์ €์ž: Siting Liang, Daniel Sonntag | ๋‚ ์งœ: 2025 | DOI: arXiv:2502.21014 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ์ƒ์˜ํ•™ ์ฃผ์žฅ ๊ฒ€์ฆ ์‹œ์Šคํ…œ์˜ ๋Œ€ํ™”ํ˜• ์ปดํฌ๋„ŒํŠธ๋“ค

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)๊ณผ SHAP ์„ค๋ช…๊ฐ€๋Šฅ์„ฑ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์˜๋ฃŒ ์ฃผ์žฅ ๊ฒ€์ฆ์˜ ํˆฌ๋ช…์„ฑ์„ ๋†’์ด๋Š” ๋Œ€ํ™”ํ˜• ์‹œ์Šคํ…œ์„ ์ œ์‹œํ•œ๋‹ค. ์‚ฌ์šฉ์ž๋Š” ๊ณผํ•™ ๋ฌธํ—Œ์—์„œ ๊ด€๋ จ ์—ฐ๊ตฌ๋ฅผ ๊ฒ€์ƒ‰ํ•˜๊ณ , CoENLI ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด LLM์˜ ์ถ”๋ก  ๊ณผ์ •์„ ๊ฒ€ํ† ํ•˜๋ฉฐ, SHAP ๊ฐ’์œผ๋กœ ๋‹จ์–ด ์ˆ˜์ค€์˜ ๊ธฐ์—ฌ๋„๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: ์ฆ๊ฑฐ ๋ถ„์„๊ณผ SHAP ๊ธฐ๋ฐ˜ ์„ค๋ช…์˜ ์ด์ค‘์ธต ์„ค๋ช…๊ฐ€๋Šฅ์„ฑ

  1. CoENLI ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ๋ฐœ: ์˜๋ฏธ ๊ธฐ๋ฐ˜ํ™”(Semantic Grounding) โ†’ ์ฆ๊ฑฐ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€(Evidence-Based Evaluation) โ†’ ๊ด€๊ณ„ ์˜ˆ์ธก(Relation Prediction)์˜ 3๋‹จ๊ณ„ ์ฒด๊ณ„ํ™”๋œ ์ถ”๋ก ์œผ๋กœ NLI4CT์™€ SciFact ๋ฒค์น˜๋งˆํฌ์—์„œ CoT ๋Œ€๋น„ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.
  2. ์ด์ค‘์ธต ์„ค๋ช…๊ฐ€๋Šฅ์„ฑ ๊ตฌํ˜„: LLM์˜ ๊ทผ๊ฑฐ ๋ถ„์„๊ณผ SHAP ๊ธฐ๋ฐ˜ ๋‹จ์–ด ๊ธฐ์—ฌ๋„๋ฅผ ํ•จ๊ป˜ ์ œ์‹œํ•˜์—ฌ ๋ชจ๋ธ์˜ ์˜์‚ฌ๊ฒฐ์ • ๊ณผ์ •์„ ๋‹ค์ธต์ ์œผ๋กœ ํ•ด์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ๋‹ค.
  3. ์ธ๊ฐ„-AI ํ˜‘์—… ์›Œํฌํ”Œ๋กœ์šฐ: ์‚ฌ์šฉ์ž๊ฐ€ ๋ถ„๋ฅ˜ ๊ฒฐ๊ณผ๋ฅผ ๊ฒ€ํ† ํ•˜๊ณ  ์กฐ์ •ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ชจ๋ธ์ด ์กฐ์ •๋œ ํŒ๋‹จ์— ๋Œ€ํ•œ ๊ทผ๊ฑฐ ๊ธฐ๋ฐ˜ ์ •๋‹นํ™”(narrative justification)๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ˆœํ™˜์  ๊ณผ์ •์„ ๊ตฌํ˜„ํ–ˆ๋‹ค.

How

Figure 4

๊ทธ๋ฆผ 4: CoENLI ํ”„๋ ˆ์ž„์›Œํฌ์˜ 3๋‹จ๊ณ„ ์ถ”๋ก  ๊ณผ์ •

์‹œ์Šคํ…œ ์›Œํฌํ”Œ๋กœ์šฐ:

๊ธฐ์ˆ ์  ๊ตฌ์„ฑ์š”์†Œ:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ์ƒ์˜ํ•™ ์ฃผ์žฅ ๊ฒ€์ฆ์˜ ํˆฌ๋ช…์„ฑ์„ ์œ„ํ•ด CoENLI์™€ SHAP์„ ๊ฒฐํ•ฉํ•œ ๋Œ€ํ™”ํ˜• ์‹œ์Šคํ…œ์€ ์‹ค์งˆ์  ๊ฐ€์น˜ ์žˆ๋Š” ์ œ์•ˆ์ด๋‚˜, ๋…ผ๋ฌธ์ด ๋ฏธ์™„์„ฑ๋œ ์ƒํƒœ(ํ‰๊ฐ€ ์„น์…˜ ์ ˆ๋ฐ˜๋งŒ ๊ธฐ์žฌ, ์‚ฌ์šฉ์ž ์—ฐ๊ตฌ ๊ฒฐ๊ณผ ๋ˆ„๋ฝ)๋กœ ๊ณผํ•™์  ๊ฒ€์ฆ์ด ๋ถˆ์ถฉ๋ถ„ํ•˜๋‹ค. ํ›„์† ์™„์ „ํŒ ๋…ผ๋ฌธ ๋ฐœํ‘œ ์‹œ ์ƒ๋‹นํžˆ ํ–ฅ์ƒ๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
328 ๋…ผ๋ฌธ์˜ ์„ค๋ช…๊ฐ€๋Šฅ์„ฑ ์ ‘๊ทผ์—๋Š” 399๋ฒˆ ๋…ผ๋ฌธ์ฒ˜๋Ÿผ ์ฆ๊ฑฐ ์ค‘์‹ฌ ์งˆ์˜์ฆ๊ฐ•์ด๋‚˜ ์„ค๋ช…์  ์ฆ๋ช… ์„ค๊ณ„์˜ ์›๋ฆฌ๊ฐ€ ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
328๋ฒˆ ๋…ผ๋ฌธ์€ ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ ์ฃผ์žฅ ๊ฒ€์ฆ์—์„œ LLM ํ™œ์šฉ ๋ฐ ์„ค๋ช…์„ฑ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ์–ด, 070๋ฒˆ ๋ฆฌ๋ทฐ ํŽธํ–ฅ ํƒ์ง€์™€ ๊ฐ™์€ ๋ฉ”ํƒ€๊ณผํ•™ ์‹คํ—˜ ์—ฐ๊ตฌ์˜ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ ์ฃผ์žฅ ๊ฒ€์ฆ์— LLMยท์ง€์‹ ๊ทธ๋ž˜ํ”„ ํ™œ์šฉ์ด๋ผ๋Š” ๋™์ผํ•œ ๋ฌธ์ œ์˜ ์„ค๋ช…๊ฐ€๋Šฅ์„ฑ ๊ฐ•์กฐ ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
267์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ทผ๊ฑฐ ๊ธฐ๋ฐ˜ ํŒฉํŠธ์ฒดํ‚น ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, 328์˜ ์˜๋ฃŒ ์ฃผ์žฅ ๊ฒ€์ฆ ์‹œ์Šคํ…œ๊ณผ ๋‹ค์–‘ํ•œ ์†Œ์Šค ํ†ตํ•ฉ ์ธก๋ฉด์—์„œ ๊ธฐ์ˆ ์  ํ† ๋Œ€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
332๋ฒˆ ๋…ผ๋ฌธ์€ ํ”„๋กœ๊ทธ๋žจ ๊ธฐ๋ฐ˜ reasoning์„ ํ™œ์šฉํ•œ ๊ณผํ•™์  ์ฃผ์žฅ fact-checking์œผ๋กœ, 328๋ฒˆ์˜ SHAP+LLM ๊ธฐ๋ฐ˜ ๊ฒ€์ฆ๋ฒ•์˜ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ง€์‹ ๊ทธ๋ž˜ํ”„์™€ LLM์„ ํ™œ์šฉํ•œ ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ ์‚ฌ์‹ค ๊ฒ€์ฆ์— ์ดˆ์ ์„ ๋งž์ถ”์–ด, FACTKG์˜ ์ผ๋ฐ˜์  ์‚ฌ์‹ค์„ฑ ๊ฒ€์ฆ์„ ๋„๋ฉ”์ธ ํŠนํ™”๋กœ ํ™•์žฅํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
221์€ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์„ค๋ช…ํ˜• ํŒฉํŠธ ๊ฒ€์ฆ์„ ์ œ์‹œํ•˜์—ฌ, 328์˜ LLM+SHAP ์ค‘์‹ฌ ์ ‘๊ทผ๊ณผ ์ƒ์ดํ•œ ์„ค๋ช…๊ฐ€๋Šฅ์„ฑ ๊ตฌํ˜„ ์‚ฌ๋ก€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Explainable biomedical claim verification with large language models ๋…ผ๋ฌธ์€ ์˜์ƒ๋ช… ์ฃผ์žฅ ๊ฒ€์ฆ ๋ฌธ์ œ์—์„œ LLM ๊ธฐ๋ฐ˜ ์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถฐ, 880์˜ ๊ฒ€์ฆ ๊ฐ€๋Šฅ์„ฑ ์š”์ธ๋ถ„์„๊ณผ ์ƒํ˜ธ๋ณด์™„์  ์‹œ๊ฐ์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์„ค๋ช… ๊ฐ€๋Šฅํ•œ ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ claim ๊ฒ€์ฆ์ด๋ž€ ์‹œ๊ฐ์—์„œ, NER ๊ธฐ๋ฐ˜ context ์ดํ•ด์™€ claim verification์„ ์—ฐ๊ณ„ํ•œ ์‹ค์งˆ์  ์‘์šฉ์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
328 'Explainable biomedical claim verification with large language models'๋Š” ์ด๋ก ์  ์ง€์‹ ๊ทธ๋ž˜ํ”„ ์ ‘๊ทผ์— ์ง‘์ค‘ํ•œ 018๊ณผ ๋‹ฌ๋ฆฌ, LLM ๊ธฐ๋ฐ˜ ์„ค๋ช…๊ฐ€๋Šฅ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋ฏ€๋กœ ๋ฐฉ๋ฒ•๋ก  ๋น„๊ต์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Explainable biomedical claim verification์€ ๋ฐ”์ด์˜ค ๋ฐ์ดํ„ฐ๋ฅผ LLM์œผ๋กœ ํ•ด์„ํ•˜๋Š” ์ ‘๊ทผ๋ฒ•์„ ๋ณด์—ฌ์ฃผ์–ด WaveFormer์™€ ์‹ ํ˜ธ ํ•ด์„ ๋งฅ๋ฝ์—์„œ ๋น„๊ต๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Explainable biomedical claim verification with large language models ๋…ผ๋ฌธ์€ claim verification์—์„œ ์„ค๋ช…๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ•์กฐํ•˜๋ฉฐ, Multivers ๊ฐœ๋…์˜ ํ™•์žฅ์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
333์€ ๊ณผํ•™์  ํŒฉํŠธ ๊ฒ€์ฆ์„ ์œ„ํ•ด ์ง€์‹ ๊ทธ๋ž˜ํ”„ ์ถ”๋ก ์„ ํ™œ์šฉํ•˜๋Š”๋ฐ, 328์˜ LLM ๊ธฐ๋ฐ˜ ๋„๋ฉ”์ธ ํŠนํ™” ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์— ๋ณด์™„/ํ™•์žฅ์˜ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ ์˜์—ญ์—์„œ LLM ํ™œ์šฉ ํŒฉํŠธ์ฒดํ‚น ํ”„๋ ˆ์ž„์›Œํฌ ํ™•์žฅ ๋ฐ ๋‹ค์–‘ํ•œ ์™ธ๋ถ€ ์ง€์‹ ํ™œ์šฉ๋ฒ•์„ ๋‹ค๋ฃฌ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
676๋ฒˆ ๋…ผ๋ฌธ์€ ์ธ๊ฐ„๊ณผ AI๊ฐ„ ๋ฆฌ๋ทฐ ์ƒ์„ฑ์˜ gap์„ ์—ฐ๊ฒฐํ•˜๋ฉฐ, LLM ๊ธฐ๋ฐ˜ ๊ฒ€์ฆ ์‹œ์Šคํ…œ์˜ ๊ฐœ์„  ๋ฐฉํ–ฅ ๋…ผ์˜์— 328๋ฒˆ ๋…ผ๋ฌธ ๋‚ด์šฉ์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
IRA ํ˜‘์ƒ ๊ณผ์ •์—์„œ ์ธ์šฉ๋œ ํŠน์ • ์œ ํ˜•์˜ ์‹ค์ œ์ž„์ƒ์ฆ๊ฑฐ ์—ฐ๊ตฌ๋ฅผ ์‹ฌํ™” ๋ถ„์„ํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
What makes medical claims (un)verifiable?๋Š” ์˜๋ฃŒ ํŒฉํŠธ์ฒดํฌ ํ™˜๊ฒฝ์—์„œ ๊ฒ€์ฆ/๋น„๊ฒ€์ฆ ์ฃผ์žฅ ํŠน์„ฑ ๋ถ„์„์„ ํ†ตํ•ด, 328์ด ์ œ์•ˆํ•œ ์‹œ์Šคํ…œ ํ‰๊ฐ€์™€ ํ˜„์‹ค์  ์–ด๋ ค์›€์„ ๋ณด์™„์ ์œผ๋กœ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
NSF-SCIFY ๋ฐ์ดํ„ฐ์…‹์— ๋‚ดํฌ๋œ ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ ๋ฌธ์ œ๋ฅผ LLM ๊ธฐ๋ฐ˜ ์‚ฌ์‹ค ๊ฒ€์ฆ ์‹œ์Šคํ…œ์— ์‹ค์ œ๋กœ ์ ์šฉํ•˜๋Š” ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •