Robust claim verification through fact detection

์ €์ž: Nazanin Jafari, James Allan | ๋‚ ์งœ: 2024 | DOI: arXiv:2407.18367 📄 PDF


Essence

Figure 2

FactDetect ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š”: ๋ฌธ๊ตฌ ๋งค์นญ(Phrase Matching) โ†’ ์งˆ๋ฌธ ์ƒ์„ฑ(Question Generation) โ†’ ์งง์€ ์‚ฌ์‹ค ์ƒ์„ฑ(Short Fact Generation)

๋ณธ ๋…ผ๋ฌธ์€ ์ฆ๊ฑฐ(evidence)์—์„œ ์ถ”์ถœํ•œ ๊ฐ„๊ฒฐํ•œ ์‚ฌ์‹ค(short facts)์„ ํ†ตํ•ด ์ฃผ์žฅ ๊ฒ€์ฆ(claim verification)์˜ ๊ฒฌ๊ณ ์„ฑ๊ณผ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” FactDetect ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต๊ณผ LLM ๊ธฐ๋ฐ˜ ์ œ๋กœ์ƒท ํ”„๋กฌํ”„ํŒ…์—์„œ ๋ชจ๋‘ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ์ „๋žต์ด๋‹ค.

Motivation

Achievement

  1. ๊ฐ๋… ํ•™์Šต ๋ชจ๋ธ ์„ฑ๋Šฅ: SciFact, HealthVer, SciFact-Open ๋ฐ์ดํ„ฐ์…‹์—์„œ F1 ์Šค์ฝ”์–ด ๊ธฐ์ค€ 15% ํ–ฅ์ƒ ๋‹ฌ์„ฑ
  2. ์ œ๋กœ์ƒท LLM ์„ฑ๋Šฅ: ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต ๊ธฐ๋ฐ˜ FactDetect(AugFactDetect)๋ฅผ ํ”„๋กฌํ”„ํŠธ์— ์ฆ๊ฐ•ํ•˜์—ฌ ์„ธ ๊ฐ€์ง€ ๊ณผํ•™ ์ฃผ์žฅ ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ‰๊ท  17.3% ์„ฑ๋Šฅ ํ–ฅ์ƒ (๊ธฐ์กด ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ชจ๋ธ ๋Œ€๋น„ ํ†ต๊ณ„์ ์œผ๋กœ ์œ ์˜๋ฏธ)
  3. ์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ: ์ž๋™ ์ƒ์„ฑ๋œ ์งง์€ ์‚ฌ์‹ค์ด ๋ช…์‹œ์ ์ธ ๊ทผ๊ฑฐ ์ œ์‹œ๋กœ ๋ชจ๋ธ์˜ ์ถ”๋ก  ๊ณผ์ •์„ ๋ณด๋‹ค ํˆฌ๋ช…ํ•˜๊ฒŒ ํ•จ

How

Figure 2

FactDetect์˜ ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋‹จ๊ณ„

Originality

Limitation & Further Study

Evaluation

์ดํ‰: FactDetect๋Š” ๊ณผํ•™ ์ฃผ์žฅ ๊ฒ€์ฆ์˜ ๋ณต์žก์„ฑ์„ ๋‹จ์ˆœํ•˜๊ณ  ๋ช…ํ™•ํ•œ ์‚ฌ์‹ค ์ถ”์ถœ์„ ํ†ตํ•ด ํ•ด๊ฒฐํ•˜๋Š” ์‹ค์šฉ์ ์ธ ์ ‘๊ทผ์ด๋ฉฐ, ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต๊ณผ LLM ํ”„๋กฌํ”„ํŒ… ๋ชจ๋‘์—์„œ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ค€๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ž๋™ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์˜ ์‹ ๋ขฐ๋„ ๊ฒ€์ฆ, ๊ณ„์‚ฐ ํšจ์œจ์„ฑ, ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ ํ‰๊ฐ€๊ฐ€ ํ–ฅํ›„ ๊ฐœ์„  ๊ณผ์ œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํŒฉํŠธ์ฒดํ‚น์˜ ๋ฐ˜์ฆ ์ฆ๊ฑฐ ๊ฒฐ์—ฌ ํ•œ๊ณ„๋ฅผ ๋ถ„์„ํ•˜์—ฌ, FactDetect ๊ฐ™์€ ์ฆ๊ฑฐ ์ค‘์‹ฌ ๊ฒ€์ฆ ๋ฐฉ๋ฒ•๋ก ์˜ ํ•„์š”์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
332 ๋…ผ๋ฌธ์€ ํ”„๋กœ๊ทธ๋žจ ์ฃผ๋„ํ˜• ๋ณตํ•ฉ ์ฃผ์žฅ ํŒฉํŠธ์ฒดํ‚น ๊ธฐ๋ฒ•์„ ์†Œ๊ฐœํ•˜์—ฌ 685์˜ fact detection ๊ธฐ๋ฐ˜ ์ฆ๊ฑฐ ์ถ”์ถœ ์ ‘๊ทผ์— ๊ธฐ์ˆ ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
880์€ ๋ฉ”๋””์ปฌ ์ฃผ์žฅ ๊ฒ€์ฆ ๋ถˆ๊ฐ€ ์›์ธ์„ ๋ถ„์„ํ•œ ์—ฐ๊ตฌ์—ฌ์„œ, 685์—์„œ ์‚ฌ์‹ค ์ถ”์ถœ ๊ธฐ๋ฐ˜ ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์˜ ํ•„์š”์„ฑ๊ณผ ํƒ€๋‹น์„ฑ์„ ๊ฒ€์ฆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
057์€ ๋ฐ˜์ž๋™ ํ‚ค์›Œ๋“œ ๊ธฐ๋ฐ˜ ๋‰ด์Šค ๊ณผํ•™ ํŒฉํŠธ์ฒดํ‚น ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ, 685์˜ ์ž๋™ํ™”๋œ ์ฃผ์žฅ ๊ฒ€์ฆ๊ณผ ๊ฐ™์€ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
claim verification ๋ชจ๋ธ์˜ ๊ฐ•๊ฑด์„ฑ ๋ฐ fact detection ์ ‘๊ทผ๋ฒ•์„ ์ œ๊ณตํ•˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ ์„œ๋กœ ๋‹ค๋ฅธ fact verification ์ „๋žต์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์‚ฌ์‹ค ๊ฒ€์ฆ์—์„œ ๋‹ค์–‘ํ•œ ๋…ผ๋ฆฌ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ†ตํ•ด ๊ฒฌ๊ณ ์„ฑ ํ–ฅ์ƒ์„ ๊พ€ํ•˜๋Š” ๋Œ€์•ˆ์  ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์ฃผ์žฅ์„ ์„ธ๋ถ„ํ™”ยท๊ฒ€์ฆํ•˜๋Š” ClaimVer ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด, ํšจ์œจ์  ์‚ฌ์‹ค ๊ฒ€์ฆ ๋ฐฉ๋ฒ•๋ก ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
567์€ ์•ฝํ•œ ์ง€๋„ ๋ฐฉ๋ฒ•์„ ํ™œ์šฉํ•œ ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ค๋ฃจ์–ด, 685์˜ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ๋ฐ ๊ฒ€์ฆ ์ ‘๊ทผ๋ฒ•์˜ ํ™•์žฅ์„ ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Robust claim verification through fact detection ๋…ผ๋ฌธ์€ ํ˜„์‹ค์  ์ฆ๊ฑฐ ๊ฒฐํ• ์ƒํ™ฉ์—์„œ๋„ ์‹ ๋ขฐ๋„ ๋†’์€ ์‚ฌ์‹คํ™•์ธ ์ ‘๊ทผ์„ ๋‹ค๋ฃจ๊ณ  ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋‰ด์Šค ์ฃผ์žฅ ํŒฉํŠธ๊ฒ€์ฆ์—์„œ ๊ณ„์ธต์  ์ฆ๊ฑฐ์ถ”๋ก ์„ ํƒ๊ตฌํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์— ๊ฒฌ๊ณ ํ•œ ๊ฒ€์ฆ ํ”„๋ ˆ์ž„์›Œํฌ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
685๋ฒˆ ๋…ผ๋ฌธ์€ ํŒฉํŠธ(์‚ฌ์‹ค) ๊ฒ€์ถœ ๊ธฐ๋ฐ˜์˜ ๊ฐ•๊ฑดํ•œ ๊ฒ€์ฆ ๋ฐฉ์‹์„ ํƒ๊ตฌํ•˜์—ฌ, 317๋ฒˆ ๋…ผ๋ฌธ์˜ NLI ๊ฐœ์„ ์— ์‹ค๋ฌด์ ์œผ๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
685๋Š” ์ฆ๊ฑฐ ๊ธฐ๋ฐ˜ ์‚ฌ์‹ค ์ถ”์ถœ์„ ํ†ตํ•œ ์ฃผ์žฅ ๊ฒ€์ฆ ๊ฒฌ๊ณ ์„ฑ ๊ฐ•ํ™” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜์—ฌ, 880์˜ ๊ฒ€์ฆ ๊ฐ€๋Šฅ์„ฑ ๋ถ„์„ ๊ฒฐ๊ณผ๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Robust claim verification through fact detection ๋…ผ๋ฌธ์€ LLM์˜ ์ฃผ์„(ํŒฉํŠธ ํƒ์ง€) ๋Šฅ๋ ฅ์ด ์‹ค์ œ ๊ฒ€์ฆ ์—…๋ฌด์— ์–ด๋А ์ •๋„ ๋„์›€์ด ๋˜๋Š”์ง€ ์‚ฌ๋ก€ ์ค‘์‹ฌ์œผ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •