Towards LLM-based Fact Verification on News Claims with a Hierarchical Step-by-Step Prompting Method

์ €์ž: Xuan Zhang, Wei Gao | ๋‚ ์งœ: 2023 | DOI: N/A 📄 PDF


Essence

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต(ICL) ๋Šฅ๋ ฅ์„ ๋‰ด์Šค ํด๋ ˆ์ž„ ๊ฒ€์ฆ์— ํ™œ์šฉํ•˜๋˜, ๊ณ„์ธต์  ๋‹จ๊ณ„๋ณ„ ํ”„๋กฌํ”„ํŒ…(HiSS) ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด ํด๋ ˆ์ž„์„ ์„ธ๋ถ€ ํด๋ ˆ์ž„์œผ๋กœ ๋ถ„ํ•ดํ•˜๊ณ  ๊ฒ€์ƒ‰ ์—”์ง„ ๊ธฐ๋ฐ˜์˜ ์ฆ๊ฑฐ ์ˆ˜์ง‘์„ ํ†ตํ•ด ์‚ฌ์‹ค ํ™•์ธ์˜ ์ •ํ™•๋„์™€ ์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์ธ ์—ฐ๊ตฌ์ด๋‹ค.

Motivation

Achievement

Figure 1

๊ทธ๋ฆผ 1: Vanilla CoT ํ”„๋กฌํ”„ํŒ… ๊ธฐ๋ฐ˜ ํด๋ ˆ์ž„ ๊ฒ€์ฆ์˜ ์˜ˆ์‹œ. ์ƒ์„ฑ๋œ CoT๊ฐ€ "nukes"์— ๊ด€ํ•œ ํ•„์ˆ˜ ์‚ฌ๊ณ  ๋ˆ„๋ฝ๊ณผ ์ฆ๊ฑฐ ์—†๋Š” ์‚ฌ์‹ค ํ™˜๊ฐ์œผ๋กœ ์ธํ•ด ์ž˜๋ชป๋œ ํŒ๋‹จ์— ๋„๋‹ฌํ•œ๋‹ค.

  1. LLM์˜ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต ๋Šฅ๋ ฅ ์ž…์ฆ: ๋‹จ 4-shot ์‹œ์—ฐ ์˜ˆ์ œ๋งŒ์œผ๋กœ๋„ LLM์ด ๋Œ€๋ถ€๋ถ„์˜ ์ง€๋„ํ•™์Šต ๋ฐฉ๋ฒ•์„ ๋Šฅ๊ฐ€ํ•  ์ˆ˜ ์žˆ์Œ์„ ํ™•์ธํ•˜์˜€์œผ๋ฉฐ, ์ด๋Š” LLM์ด ํ—ˆ์œ„์ •๋ณด ๋Œ€์‘์˜ ์œ ๋งํ•œ ๋„๊ตฌ์ž„์„ ์‹œ์‚ฌํ•œ๋‹ค.
  2. ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ: RAWFC์™€ LIAR ๋‘ ๊ฐ€์ง€ ๊ณต๊ฐœ ๋ฏธ์ •๋ณด ๋ฐ์ดํ„ฐ์…‹์—์„œ HiSS ํ”„๋กฌํ”„ํŒ…์ด ๊ธฐ์กด์˜ ์™„์ „ ์ง€๋„ํ•™์Šต ๋ฐฉ์‹์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ๋งคํฌ๋กœ ํ‰๊ท  F1์—์„œ ํ‰๊ท  4.95% ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ•˜๊ณ  ์†Œ์ˆ˜-์ƒท ๋‰ด์Šค ํด๋ ˆ์ž„ ๊ฒ€์ฆ์—์„œ ์ƒˆ๋กœ์šด ์ตœ์ฒจ๋‹จ ์„ฑ๊ณผ๋ฅผ ์ˆ˜๋ฆฝํ–ˆ๋‹ค.
  3. ํ–ฅ์ƒ๋œ ์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ: ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ๋” ์„ธ๋ถ„ํ™”๋˜๊ณ  ๋”ฐ๋ผ๊ฐ€๊ธฐ ์‰ฌ์šด ์„ค๋ช…์„ ์ž๋™ ํ‰๊ฐ€์™€ ์ธ๊ฐ„ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ์ž…์ฆํ–ˆ๋‹ค.

How

Figure 2

๊ทธ๋ฆผ 2: ์ œ์•ˆ๋œ HiSS ๋ชจ๋ธ์˜ ๊ฐœ์š”. ์›๋ณธ ์ธ๊ฐ„ ์ž…๋ ฅ์€ ๋นจ๊ฐ„์ƒ‰ ๋ฐฐ๊ฒฝ์œผ๋กœ ํ‘œ์‹œ๋œ๋‹ค.

Hierarchical Step-by-Step (HiSS) ํ”„๋กฌํ”„ํŒ…์˜ ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ํ”„๋กœ์„ธ์Šค:

  1. ํด๋ ˆ์ž„ ๋ถ„ํ•ด(Claim Decomposition)
    • LLM์— ๋ณต์žกํ•œ ํด๋ ˆ์ž„์„ ๊ฒ€์ฆํ•˜๊ธฐ ๋” ์‰ฌ์šด ์„ธ๋ถ€ ํด๋ ˆ์ž„๋“ค๋กœ ๋ถ„ํ• ํ•˜๋„๋ก ์ง€์‹œ
    • ๋ช…์‹œ์  ๋ฐ ์•”์‹œ์  ๊ฒ€์ฆ ๋Œ€์ƒ์ (check-worthy points)์„ ์ฒ ์ €ํžˆ ์ƒ์„ฑํ•˜๋„๋ก ์œ ๋„
    • ์˜ˆ: "Donald Trump has said he loves war, 'including with nukes'"๋ฅผ 2๊ฐœ์˜ ์„ธ๋ถ€ ํด๋ ˆ์ž„์œผ๋กœ ๋ถ„ํ•ด
  2. ์„ธ๋ถ€ ํด๋ ˆ์ž„ ๊ฒ€์ฆ(Subclaim Verification)
    • ๊ฐ ์„ธ๋ถ€ ํด๋ ˆ์ž„์— ๋Œ€ํ•ด LLM์ด ๋‹จ๊ณ„์ ์œผ๋กœ ์ผ๋ จ์˜ ์งˆ๋ฌธ์„ ์ƒ์„ฑํ•˜๊ณ  ๋‹ต๋ณ€
    • ๊ฐ ์งˆ๋ฌธ๋งˆ๋‹ค ์™ธ๋ถ€ ์ง€์‹(๊ฒ€์ƒ‰ ์—”์ง„)์˜ ํ•„์š”์„ฑ์„ ๋ช…์‹œ์ ์œผ๋กœ ํŒ๋‹จํ•˜๋„๋ก ์ง€์‹œ
    • ์‹ ๋ขฐ๋„ ํ‰๊ฐ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ๋‹ต๋ณ€์˜ ์‹ ๋ขฐ์„ฑ ๊ฒ€์ฆ
    • ์ตœ์ข…์ ์œผ๋กœ ๊ฐ ์„ธ๋ถ€ ํด๋ ˆ์ž„์˜ ์‚ฌ์‹ค์„ฑ์„ ํŒ๋‹จํ•˜๊ณ  ์ „์ฒด ํด๋ ˆ์ž„์˜ ์ตœ์ข… ๋ผ๋ฒจ ๊ฒฐ์ •

ํ•ต์‹ฌ ์„ค๊ณ„ ์›์น™:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜์˜ ๋‰ด์Šค ํด๋ ˆ์ž„ ๊ฒ€์ฆ์—์„œ ์‹ค๋ฌด ์ง€ํ–ฅ์  ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, ๊ณ„์ธต์  ๋ถ„ํ•ด์™€ ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ์ฆ๊ฑฐ ํ†ตํ•ฉ์„ ํ†ตํ•ด LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์‹คํšจ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚จ ์˜์˜ ์žˆ๋Š” ์—ฐ๊ตฌ์ด๋‹ค. ๋‹ค๋งŒ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ๊ณผ ์–ธ์–ด๋กœ์˜ ํ™•์žฅ์„ฑ ๊ฒ€์ฆ๊ณผ ๋น„์šฉ ํšจ์œจ์„ฑ ๊ฐœ์„ ์ด ํ–ฅํ›„ ๊ณผ์ œ๋กœ ๋‚จ์•„์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๋‹ค๋ฅธ ์ ‘๊ทผ
Missing counter-evidence ๋…ผ๋ฌธ์€ fact-checking ์‹œ์Šคํ…œ์˜ ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜๋ฉฐ, LLM ๊ธฐ๋ฐ˜ hierarchical prompt ๋ฐฉ์‹์˜ ์žฅ๋‹จ์ ์„ ๋ณด์™„์ ์œผ๋กœ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘˜ ๋‹ค LLM์„ ์ด์šฉํ•œ ์ž๋™ ์‚ฌ์‹ค ๊ฒ€์ฆ์ด์ง€๋งŒ, 332๋ฒˆ์€ ํ”„๋กœ๊ทธ๋žจ ๊ธฐ๋ฐ˜ ๊ฐ€์ด๋“œ, 832๋ฒˆ์€ ๊ณ„์ธต์  ํ”„๋กฌํ”„ํŒ…๊ณผ ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ๋ฐฉ์‹์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ˆ˜ํ•™ ์ฆ๋ช… ๋Šฅ๋ ฅ ํ‰๊ฐ€์™€ ํŽ™ํŠธ ๊ฒ€์ฆ/ํŒฉํŠธ ํ™•์ธ ๋Šฅ๋ ฅ์˜ ํ•œ๊ณ„๋ฅผ ๋น„๊ต ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์–ด, LLM์˜ ๋…ผ๋ฆฌ์  ์ถ”๋ก  ๋ฒ”์œ„ ํ•œ๊ณ„๋ฅผ ์ž…์ฒด์ ์œผ๋กœ ์กฐ๋งํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
832๋Š” ๋‰ด์Šค ๋„๋ฉ”์ธ์—์„œ ์‚ฌ์‹ค ๊ฒ€์ฆ์„ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ LLM-์ง€์‹ ๋ชจ๋ธ๋กœ ์ ‘๊ทผํ•˜์—ฌ, 183๊ณผ ์œ ์‚ฌ ๋ฌธ์ œ์— ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Factkg ๋…ผ๋ฌธ์€ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ํŒฉํŠธ ๊ฒ€์ฆ ๋ชจ๋ธ์„ ์ œ์•ˆํ•ด์„œ, LLM์˜ ๊ณ„์ธต์  ์ฆ๊ฑฐ์ˆ˜์ง‘ ์ ‘๊ทผ์„ ๊ตฌ์กฐ์  ์˜๋ฏธ ์ถ”๋ก ์œผ๋กœ ํ™•๋Œ€ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํ˜‘๋ ฅํ˜• ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™œ์šฉํ•œ ๊ณผํ•™์  ํด๋ ˆ์ž„ ๊ฒ€์ฆ์„ ๋‹ค๋ฃจ์–ด ๋‰ด์Šค ํŒฉํŠธ์ฒดํ‚น๊ณผ ๋น„์Šทํ•œ ๋ฌธ์ œ ์ ‘๊ทผ๋ฒ•์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ณต์žกํ•œ ํŒฉํŠธ ํ™•์ธ์„ ์œ„ํ•œ ์ฆ๊ฑฐ์„ฑ๊ณผ ์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ ํ–ฅ์ƒ ๊ธฐ๋ฒ•์„ LLM ๊ธฐ๋ฐ˜์œผ๋กœ ํƒ๊ตฌํ•œ ๋…ผ๋ฌธ์œผ๋กœ, ๊ณ„์ธต์  ๋‹จ๊ณ„๋ณ„ ํŒฉํŠธ์ฒดํ‚น๊ณผ ์—ฐ๊ณ„๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
832๋Š” LLM ๊ธฐ๋ฐ˜ ๋‰ด์Šค๋ฅผ ์œ„ํ•œ ํŒฉํŠธ ๊ฒ€์ฆ์ฒด๊ณ„์™€ ํ•˜์ด๋ผํ‚ค ๊ตฌ์กฐ๋ฅผ ์ œ์‹œ, 235์˜ ๊ณผํ•™๋ถ„์•ผ ํฌ๋กœ์Šค ์†Œ์Šค ์‹คํ—˜์„ ์‹ค์ œ ์‘์šฉ๋ถ„์•ผ๋กœ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋‰ด์Šค ์ฃผ์žฅ ํŒฉํŠธ๊ฒ€์ฆ์—์„œ ๊ณ„์ธต์  ์ฆ๊ฑฐ์ถ”๋ก ์„ ํƒ๊ตฌํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์— ๊ฒฌ๊ณ ํ•œ ๊ฒ€์ฆ ํ”„๋ ˆ์ž„์›Œํฌ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Sciclaimhunt ๋…ผ๋ฌธ์€ ์„ธ๋ถ€์  ๊ณผํ•™ ์ฃผ์žฅ ๊ฒ€์ฆ ๋ฌธ์ œ์— LLM๊ณผ ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ํ”„๋กฌํ”„ํŠธ ๋ฐฉ์‹(832์˜ ๋ฐฉ๋ฒ•๋ก ) ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Towards LLM-based Fact Verification on News Claims ๋…ผ๋ฌธ์—์„œ ๋‹จ๊ณ„์  ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฐ˜ ์ฆ๊ฑฐ ๊ฒ€์ฆ ๋ฐฉ์‹์„ ํ™œ์šฉํ•˜์—ฌ ๋…ผ๋ฌธ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์žฌํ˜„ ํ‰๊ฐ€ ๋ฐฉ์‹์—๋„ ์˜๊ฐ์„ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •