Multivers: Improving scientific claim verification with weak supervision and full-document context

์ €์ž: David Wadden, Kyle Lo, Lucy Lu Wang, Arman Cohan, Iz Beltagy, Hannaneh Hajishirzi | ๋‚ ์งœ: 2021 | DOI: arXiv:2112.01640 📄 PDF


Essence

Figure 1

Ibuprofen ์ฒญ๊ตฌ๊ฐ€ COVID-19 ์ฆ์ƒ์„ ์•…ํ™”์‹œํ‚จ๋‹ค๋Š” ์ฃผ์žฅ์ด ์˜๋ฃŒ ๋…ผ๋ฌธ ์ดˆ๋ก์œผ๋กœ ๋ฐ˜๋ฐ•๋˜๋Š” ์˜ˆ์‹œ. ๋นจ๊ฐ„์ƒ‰ ๋ฌธ์žฅ์€ ๊ทผ๊ฑฐ์ด์ง€๋งŒ ํŒŒ๋ž€์ƒ‰ ๋งฅ๋ฝ ์—†์ด๋Š” ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํ•ด์„๋  ์ˆ˜ ์—†์Œ

๊ณผํ•™ ์ฒญ๊ตฌ ๊ฒ€์ฆ ์‹œ์Šคํ…œ์ด ์„ ํƒ๋œ ๊ทผ๊ฑฐ ๋ฌธ์žฅ๋งŒ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ์ „์ฒด ๋ฌธ์„œ ๋งฅ๋ฝ์„ ํ™œ์šฉํ•˜๋ฉฐ, ์•ฝํ•œ ๊ฐ๋…(weak supervision)์„ ํ†ตํ•ด ๋ฌธ์žฅ ์ˆ˜์ค€์˜ ์ฃผ์„ ์—†์ด๋„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ๋ชจ๋ธ์„ ์ œ์‹œํ•œ๋‹ค.

Motivation

Achievement

  1. ์„ฑ๋Šฅ ๊ฐœ์„ : 3๊ฐœ ๊ณผํ•™ ์ฒญ๊ตฌ ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์…‹(COVIDFact, HealthVer, SCIFACT)์—์„œ ๋‘ ๊ฐœ์˜ SOTA ๊ธฐ์ค€์„  ๋Œ€๋น„ ํ‰๊ท  11% ํ–ฅ์ƒ(์ถ”์ƒํ™” F1 ๊ธฐ์ค€). ์†Œ์ˆ˜-์ƒท ๋ฐ ์˜-์ƒท ์„ค์ •์—์„œ ๊ฐ๊ฐ 14%, 26% ๊ฐœ์„ 
  2. ์•ฝํ•œ ๊ฐ๋…์˜ ํšจ๊ณผ: ๊ณ ์ •๋ฐ€ ํœด๋ฆฌ์Šคํ‹ฑ์œผ๋กœ ์ƒ์„ฑ๋œ ์•ฝํ•˜๊ฒŒ ๋ ˆ์ด๋ธ”๋œ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต ์‹œ ์˜-์ƒท ๋„๋ฉ”์ธ ์ ์‘ ์„ฑ๋Šฅ์ด 2๋ฐฐ ์ด์ƒ ์ฆ๊ฐ€
  3. ํšจ์œจ์„ฑ: ๋น„๊ต ๊ธฐ์ค€์„  ์ค‘ ํ•˜๋‚˜(VERT5ERINI, T5-3B)๋ณด๋‹ค 10๋ฐฐ ์ด์ƒ ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ์šฐ์›”ํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: MULTIVERS๋Š” ์ „์ฒด ๋ฌธ์„œ ๋งฅ๋ฝ์„ ํ™œ์šฉํ•˜๊ณ  ์•ฝํ•œ ๊ฐ๋…์œผ๋กœ ํ•™์Šต ๊ฐ€๋Šฅํ•œ ์‹ค์šฉ์  ์„ค๊ณ„๋ฅผ ํ†ตํ•ด ๊ณผํ•™ ์ฒญ๊ตฌ ๊ฒ€์ฆ์˜ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ ๊ฒฌ๊ณ ํ•œ ์—ฐ๊ตฌ์ด๋ฉฐ, ํŠนํžˆ ์ „๋ฌธ ๋ถ„์•ผ์˜ ์ €์ž์› ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ์˜ ๊ธฐ์—ฌ๊ฐ€ ๋ˆˆ์— ๋ˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Multivers๋Š” ํŒฉํŠธ์ฒดํ‚น ์•ฝํ•œ ๊ฐ๋… ๊ธฐ๋ฐ˜ ๋ฐ ์„œ์ˆ  ๋ถ„์„ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•ด Pelican์˜ claim decomposition/๊ฒ€์ฆ ๋ฐฉ๋ฒ•์˜ ๊ธฐ์ดˆ์  ๋ฐฐ๊ฒฝ์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
567 ๋…ผ๋ฌธ์€ ์•ฝํ•œ ๊ฐ๋… ๊ธฐ๋ฐ˜ LLM ๊ณผํ•™ ์ฃผ์žฅ ๊ฒ€์ฆ์˜ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ์–ด 711์˜ ์ฃผ์žฅ ๊ฒ€์ฆ ์‹œ์Šคํ…œ์— ์‹ฌํ™”๋œ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ณตํ•ฉ์  ๊ณผํ•™์  ํŒฉํŠธ์ฒดํ‚น ๋ฌธ์ œ๋ฅผ ํ”„๋กœ๊ทธ๋žจ ๊ธฐ๋ฐ˜ ์ถ”๋ก ์œผ๋กœ ์ ‘๊ทผํ•˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ, ๋‹ค๋ฅธ ๋ฐฉ์‹์˜ ์ž๋™ ํŒฉํŠธ์ฒดํ‚น ์ „๋žต์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Multivers๋Š” ์•ฝํ•œ ๊ฐ๋… ๊ธฐ๋ฐ˜ ํŒฉํŠธ์ฒดํ‚น์— ์ดˆ์ ์„ ๋‘๋‚˜, ProToCo์™€ ๋น„๊ตํ•ด ๋ฌธ์žฅ๊ฐ„ ๋…ผ๋ฆฌ ์ผ๊ด€์„ฑ๊ณผ ๋งฅ๋ฝ ํ™œ์šฉ ๋ฐฉ์‹์—์„œ ์ฐจ๋ณ„์„ฑ์„ ๋ณด์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์•ฝํ•œ ๊ฐ๋… ๊ธฐ๋ฐ˜์˜ ์‚ฌ์‹ค ๊ฒ€์ฆ ํ”„๋ ˆ์ž„์›Œํฌ๋Š”, LLM ํ™˜๊ฐ ์™„ํ™”์™€ ๋ฐ˜๋Œ€๋˜๋Š” ๋ฌธ์ œ ์„ค์ •์—์„œ ๊ทผ๋ณธ์ ์ธ ์†”๋ฃจ์…˜ ์ฐจ์ด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
567์€ ์•ฝํ•œ ์ฆ๊ฑฐ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉ์‹์„ ์‹คํ—˜ํ•˜์—ฌ, 235์˜ ๋ฐ์ดํ„ฐ์†Œ์Šค ๋น„๊ต์—ฐ๊ตฌ์™€ ๊ฒฌ์ฃผ์–ด ์ฐธ๊ณ ํ•  ๋งŒํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์•ฝํ•œ ๊ฐ๋…ํ•˜์˜ ์ฆ๊ฑฐ ๋ฐ ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ ์‹œ์Šคํ…œ ์—ฐ๊ตฌ๋กœ, 500์˜ RAG ๊ธฐ๋ฐ˜ ์ž๋™ ์ฆ๊ฑฐ ์‹๋ณ„/ํ™˜๊ฐ ์™„ํ™” ์ ‘๊ทผ๋ฒ•๊ณผ ๋น„๊ต๋˜๋Š” ์•ฝ์ง€๋„ ํ™œ์šฉ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Multivers๋Š” ์ฆ๊ฑฐ๊ฐ€ ์•ฝํ•œ ํ™˜๊ฒฝ์—์„œ ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ ๋ชจ๋ธ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ํƒ๊ตฌํ•ด ํ˜„์‹ค์  ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ ๋…ผ์˜๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
PaperQA ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ์ฃผ์žฅ์— ๋Œ€ํ•œ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ ๋ฐฉ์‹์œผ๋กœ Multivers์˜ ์ „์ฒด๋งฅ๋ฝ ์ฆ๊ฑฐ ํ™œ์šฉ ๊ฐœ๋…์„ ๋”์šฑ ๊ณ ๋„ํ™”ํ•œ ์‹ค์ œ์  ํ™•์žฅ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ProToCo๋Š” ์–ธ์–ด๋ชจ๋ธ ์ผ๊ด€์„ฑ ์ œ์•ฝ๊ณผ ์†Œ์ˆ˜์ƒ˜ํ”Œ ํ™˜๊ฒฝ์—์„œ ์‚ฌ์‹ค๊ฒ€์ฆ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ์ดˆ์ ์„ ๋‘์–ด, Multivers์˜ ์•„์ด๋””์–ด๋ฅผ ํ™•์žฅํ•œ ํ˜•ํƒœ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์•ฝํ•œ ๊ฐ๋… ๊ธฐ๋ฐ˜ ์‚ฌ์‹ค ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์ด zero/few-shot ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๊ฐ•ํ™” ์‹คํ—˜์— ํ™œ์šฉ๋˜์–ด, ๋ฐœ์ „ ๋ฐฉํ–ฅ์„ ํƒ์ƒ‰ํ•˜๋Š” ๋ฐ ์ข‹์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณผํ•™์  ์ฃผ์žฅ ํŒฉํŠธ ๊ฒ€์ฆ์„ ์•ฝํ•œ ์ง€๋„ ๋ฐ์ดํ„ฐ๋กœ ๋ณด์™„ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ ์šฉํ•˜์—ฌ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŒจ๋Ÿฌ๋””ยทํ’์ž ํƒ์ง€์— ์•ฝ์ง€๋„ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ ๋ฐœ์ „ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
567์€ ์•ฝํ•œ ์ง€๋„ ๋ฐฉ๋ฒ•์„ ํ™œ์šฉํ•œ ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ค๋ฃจ์–ด, 685์˜ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๋ฐ ๊ฒ€์ฆ ์ ‘๊ทผ๋ฒ•์˜ ํ™•์žฅ์„ ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Explainable biomedical claim verification with large language models ๋…ผ๋ฌธ์€ claim verification์—์„œ ์„ค๋ช…๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ•์กฐํ•˜๋ฉฐ, Multivers ๊ฐœ๋…์˜ ํ™•์žฅ์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
500๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์ฆ๊ฑฐ ์ˆ˜์ง‘ ๋ฐ ํŒฉํŠธ์ฒดํฌ๋ฅผ ๋‹ค๋ฃจ์–ด, 567๋ฒˆ ์‹œ์Šคํ…œ์˜ ์ตœ๊ทผ ๋„๊ตฌ์  ํ™•์žฅ ๋ฐ ๋ฐœ์ „ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์•ฝํ•œ ์ฆ๊ฑฐ(supervision)๋ฅผ ํ™œ์šฉํ•œ ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์„ ํ™•์žฅํ•œ ๋…ผ๋ฌธ์œผ๋กœ, SciClaimHunt์˜ ํ™œ์šฉ ๊ฐ€๋Šฅ ๋ฒ”์œ„๋ฅผ ๋„“ํ˜€์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Multivers๋Š” ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ํŒฉํŠธ์ฒดํ‚น ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋Š” ์•ฝํ•œ ๊ฐ๋… ์‹ ํ˜ธ ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ์„œ DEFAME์˜ ํ…์ŠคํŠธ ๊ฒ€์ฆ ๋ถ€๋ถ„์„ ๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •