Comparing knowledge sources for open-domain scientific claim verification

์ €์ž: Juraj Vladika, Florian Matthes | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ(scientific claim verification) ์‹œ์Šคํ…œ์—์„œ ์„œ๋กœ ๋‹ค๋ฅธ ์ง€์‹ ์†Œ์Šค(PubMed, Wikipedia, Google)์™€ ์ •๋ณด ๊ฒ€์ƒ‰ ๊ธฐ๋ฒ•(BM25, ์˜๋ฏธ ๊ฒ€์ƒ‰)์ด ์ตœ์ข… ํŒ์ • ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋น„๊ต ๋ถ„์„ํ•œ ์‹ค์ฆ ์—ฐ๊ตฌ์ด๋‹ค.

Motivation

Achievement

Figure 1: The experimental setup of the study

์‹คํ—˜ ์„ค์ •: ์„ธ ๊ฐ€์ง€ ์ง€์‹ ์†Œ์Šค๋ฅผ ํ†ต๊ณผํ•œ ๊ณผํ•™์  ์ฃผ์žฅ์ด ์ตœ์ข… ํŒ์ • ์„ฑ๋Šฅ ์ฐจ์ด๋ฅผ ๋ณด์ž„

  1. ์ง€์‹ ์†Œ์Šค๋ณ„ ํŠน์„ฑ ํŒŒ์•…: PubMed๋Š” ์ „๋ฌธ์  ์ƒ์˜ํ•™ ์ฃผ์žฅ(biomedical claims)์— ์šฐ์ˆ˜ํ•˜๊ณ , Wikipedia๋Š” ์ผ์ƒ์  ๊ฑด๊ฐ• ๊ด€์‹ฌ์‚ฌ(consumer health)์— ๋” ์ ํ•ฉํ•จ์„ ์‹ค์ฆ์ ์œผ๋กœ ํ™•์ธ
  2. ๊ฒ€์ƒ‰ ๊ธฐ๋ฒ•์˜ ์ƒ์ถฉ ๊ด€๊ณ„: BM25(ํฌ์†Œ ๊ฒ€์ƒ‰)๋Š” ๊ฒ€์ƒ‰ ์ •ํ™•๋„(precision)์— ๊ฐ•์ ์„ ๋ณด์ด๊ณ , ์˜๋ฏธ ๊ฒ€์ƒ‰(semantic search)์€ ๊ด€๋ จ ์ฆ๊ฑฐ์˜ ์žฌํ˜„์œจ(recall)์— ์šฐ์ˆ˜ํ•จ์„ ์ž…์ฆ
  3. ๋‹ค์ค‘ ๋ฐ์ดํ„ฐ์…‹ ๊ฒ€์ฆ: ์ƒ์˜ํ•™ ๋ฐ ๊ฑด๊ฐ• ์ฃผ์žฅ 4๊ฐœ ๋ฐ์ดํ„ฐ์…‹(SCIFACT, PubMedQA, HealthFC, COVERT)์—์„œ ์ผ๊ด€๋œ ํŒจํ„ด ๋„์ถœ

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ํ˜„์‹ค์ ์ธ ๊ฐœ๋ฐฉ ํ™˜๊ฒฝ์—์„œ ์ง€์‹ ์†Œ์Šค๋ณ„ ์„ฑ๋Šฅ ์ฐจ์ด๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๋น„๊ตํ•œ ์˜๋ฏธ ์žˆ๋Š” ์‹ค์ฆ ์—ฐ๊ตฌ๋กœ, ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ ์‹œ์Šคํ…œ ์„ค๊ณ„์— ์‹ค์šฉ์  ๊ฐ€์ด๋“œ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ๋‹ค๋งŒ ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก  ๊ฐœ๋ฐœ๋ณด๋‹ค๋Š” ๊ธฐ์กด ๊ธฐ๋ฒ•์˜ ๋น„๊ต ๋ถ„์„์— ์ง‘์ค‘๋˜์–ด ์žˆ๋Š” ์ ์ด ์ œ์•ฝ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ๋‰ด์Šค ์˜ค๋ณด ํƒ์ง€๋ฅผ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์  ์‚ฌ์‹ค ๊ฒ€์ฆ์—์„œ ๋‹ค์–‘ํ•œ NLP ๊ธฐ๋ฒ•์ด ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉ๋˜๋Š”์ง€ ์„œ๋ฒ ์ดํ•˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ, ์ง€์‹ ์†Œ์Šค์™€ IR ๊ธฐ๋ฒ• ๋น„๊ตํ‰๊ฐ€์˜ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
567์€ ์•ฝํ•œ ์ฆ๊ฑฐ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉ์‹์„ ์‹คํ—˜ํ•˜์—ฌ, 235์˜ ๋ฐ์ดํ„ฐ์†Œ์Šค ๋น„๊ต์—ฐ๊ตฌ์™€ ๊ฒฌ์ฃผ์–ด ์ฐธ๊ณ ํ•  ๋งŒํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
235 ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ํด๋ ˆ์ž„ ๊ฒ€์ฆ ์‹œ ๋‹ค์–‘ํ•œ ์ง€์‹ ์†Œ์Šค๋ฅผ ๋น„๊ต ํ‰๊ฐ€ํ•˜์—ฌ, ํ˜„์‹ค ์„ธ๊ณ„์˜ ์ฆ๊ฑฐ ๋ถ€์กฑ ๋ฌธ์ œ์™€ ๋ฐ์ดํ„ฐ์…‹ ์„ค๊ณ„ ํ•œ๊ณ„๋ฅผ ์ถ”๊ฐ€์ ์œผ๋กœ ๊ณ ์ฐฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
fact verification์—์„œ zero- and few-shot generalization ๋ฌธ์ œ ๋ถ„์„์„ ํ†ตํ•ด, ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ๊ณผ ๋ชจ๋ธ์˜ ์ „์ด ๊ฐ€๋Šฅ์„ฑ ํ•œ๊ณ„๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
235๋Š” ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ์—์„œ ๋ฐ์ดํ„ฐ ์†Œ์Šค์™€ ๊ฒ€์ƒ‰ ๊ธฐ๋ฒ•๋ณ„ ์„ฑ๋Šฅ์„ ์‹ค์ฆ์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ, 117์˜ TrendFact ๋ฐ FactISR ๋ฒค์น˜๋งˆํฌ์™€ ๋น„๊ต ๊ฐ€๋Šฅํ•œ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฏธ ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰์„ ํ™œ์šฉํ•œ ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ์—์„œ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์œผ๋กœ ํ•ด๊ฒฐํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
235(Comparing knowledge sources...)์€ ๋‹ค์–‘ํ•œ ์ถœ์ฒ˜ ๊ธฐ๋ฐ˜์˜ ๊ณผํ•™์  ์ฃผ์žฅ/ํด๋ ˆ์ž„ ๊ฒ€์ฆ ์ ‘๊ทผ๋ฒ•์„ ์‹คํ—˜์ ์œผ๋กœ ๋น„๊ตํ•˜์—ฌ, 579์˜ NSF-SCIFY๊ฐ€ ์ถ”์ถœํ•œ ์ฃผ์žฅ ๋ฐ์ดํ„ฐ์˜ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ํ•จ๊ป˜ ์กฐ๋งํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
832๋Š” LLM ๊ธฐ๋ฐ˜ ๋‰ด์Šค๋ฅผ ์œ„ํ•œ ํŒฉํŠธ ๊ฒ€์ฆ์ฒด๊ณ„์™€ ํ•˜์ด๋ผํ‚ค ๊ตฌ์กฐ๋ฅผ ์ œ์‹œ, 235์˜ ๊ณผํ•™๋ถ„์•ผ ํฌ๋กœ์Šค ์†Œ์Šค ์‹คํ—˜์„ ์‹ค์ œ ์‘์šฉ๋ถ„์•ผ๋กœ ํ™•์žฅํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ณผํ•™์  ์‚ฌ์‹ค ๊ฒ€์ฆยท์„ค๊ณ„์—์„œ ์‹ฌ๋ณผ๋ฆญ-ํŒจํ„ด ๋งค์นญ ์ ‘๊ทผ์ด ์‹ค์ œ๋กœ ๋ฐ์ดํ„ฐ ๋‚ด ๊ทผ๊ฑฐ์„ฑ์„ ๋†’์ด๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃธ.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •