Augmenting the veracity and explanations of complex fact checking via iterative self-revision with llms

์ €์ž: Xiaocheng Zhang, Xi Wang, Yifei Lu, Jianing Wang, Zhuangzhuang Ye, Mengjiao Bao, Peng Yan, Xiaohong Su | ๋‚ ์งœ: 2024 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

Figure 1

TrendFact์˜ ์ˆ˜์น˜ ์ถ”๋ก ์„ ํฌํ•จํ•˜๋Š” ์‚ฌ์‹ค ๊ฒ€์ฆ ์˜ˆ์ œ: ๆ•…ๅฎฎ(์ž๊ธˆ์„ฑ)์˜ ๋‚˜์ด์— ๊ด€ํ•œ ์ฃผ์žฅ๊ณผ ๊ฒ€์ฆ ๊ณผ์ •

๋ณธ ๋…ผ๋ฌธ์€ ์ค‘๊ตญ์–ด ๊ธฐ๋ฐ˜์˜ ์ฒซ ๋ฒˆ์งธ ํฌ๊ด„์  ์‚ฌ์‹ค ๊ฒ€์ฆ ๋ฒค์น˜๋งˆํฌ์ธ TrendFact๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ์„ค๋ช… ์ƒ์„ฑ ์ผ๊ด€์„ฑ(ECS)๊ณผ ํ•ซ์ŠคํŒŸ ์ธ์‹ ๋Šฅ๋ ฅ(HPA)์„ ํ‰๊ฐ€ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฉ”ํŠธ๋ฆญ์„ ๋„์ž…ํ•œ๋‹ค. ์ถ”๊ฐ€์ ์œผ๋กœ ๋™์  ์ฆ๊ฑฐ ์ฆ๊ฐ•๊ณผ ์˜ํ–ฅ๋„ ์ ์ˆ˜ ๊ธฐ๋ฐ˜ ๋ฐ˜๋ณต์  ์ž๊ธฐ ์„ฑ์ฐฐ์„ ๊ฒฐํ•ฉํ•œ FactISR ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์˜ ์‚ฌ์‹ค ๊ฒ€์ฆ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

Motivation

Achievement

Figure 2

TrendFact ๊ตฌ์ถ• ํ”„๋กœ์„ธ์Šค: ์ฃผ์žฅ ์ˆ˜์ง‘, ํ•„ํ„ฐ๋ง, ์ฆ๊ฐ•, ์ฆ๊ฑฐ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๊ตฌ์ถ• ๋ฐ ๋‹ค๋‹จ๊ณ„ ์ƒ˜ํ”Œ ๊ฒ€ํ† 

  1. TrendFact ๋ฒค์น˜๋งˆํฌ:
    • ์ค‘๊ตญ์–ด ๊ธฐ๋ฐ˜ ์ฒซ ํฌ๊ด„์  ์‚ฌ์‹ค ๊ฒ€์ฆ ๋ฒค์น˜๋งˆํฌ
    • ์ฆ๊ฑฐ ๊ฒ€์ƒ‰, ์‚ฌ์‹ค ๊ฒ€์ฆ, ์„ค๋ช… ์ƒ์„ฑ, HPA ํ‰๊ฐ€ ๋ชจ๋‘ ์ง€์›
    • 5๊ฐœ ๋„๋ฉ”์ธ(๊ณต์ค‘๋ณด๊ฑด, ๊ณผํ•™, ์‚ฌํšŒ, ์ •์น˜, ๋ฌธํ™”) ์ปค๋ฒ„
    • ๋‹จ์ผ ์ฆ๊ฑฐ ์ƒ˜ํ”Œ 85%, ๋‹ค์ค‘ ์ฆ๊ฑฐ ์ƒ˜ํ”Œ 15% ํฌํ•จ
  2. ์ƒˆ๋กœ์šด ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ:
    • ECS (Explanation Consistency Score): ์ƒ์„ฑ๋œ ์„ค๋ช…์ด ๊ฒ€์ฆ ๊ฒฐ๊ณผ์™€์˜ ์ผ๊ด€์„ฑ ํ‰๊ฐ€
    • HCPI (Hotspot Claim Perception Index): ์‹œ์Šคํ…œ์ด ๊ณ ์˜ํ–ฅ๋„ ์‚ฌ๊ฑด ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ ํ‰๊ฐ€
  3. FactISR ํ”„๋ ˆ์ž„์›Œํฌ:
    • ๊ธฐ์กด RAG(Retrieval Augmented Generation)์˜ ์„ฑ๋Šฅ ์ €ํ•˜ ๊ทน๋ณต
    • ๋™์  ์ฆ๊ฑฐ ์ฆ๊ฐ• + ์˜ํ–ฅ๋„ ์ ์ˆ˜ ๊ธฐ๋ฐ˜ ๋ฐ˜๋ณต ์ž๊ธฐ ์„ฑ์ฐฐ ๊ฒฐํ•ฉ
    • ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋‹ฌ์„ฑ

How

Figure 3

FactISR์˜ ๊ฐœ์š”: ๋ฐ˜๋ณต์  ์ถ”๋ก  ๊ณผ์ •์„ ํ†ตํ•œ ์ฆ๊ฑฐ ๋™์  ์ฆ๊ฐ• ๋ฐ ์ž๊ธฐ ์„ฑ์ฐฐ

TrendFact ๊ตฌ์ถ• ๋ฐฉ๋ฒ•๋ก :

FactISR ๋ฐฉ๋ฒ•๋ก :

ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ ์ •์˜:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: TrendFact ๋ฒค์น˜๋งˆํฌ๋Š” ์ค‘๊ตญ์–ด ๊ธฐ๋ฐ˜ ์‚ฌ์‹ค ๊ฒ€์ฆ์—์„œ ์„ค๋ช… ์ƒ์„ฑ๊ณผ ๊ณ ์˜ํ–ฅ๋„ ์‚ฌ๊ฑด ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ผ๋Š” ์ƒˆ๋กœ์šด ์ฐจ์›์„ ์ถ”๊ฐ€ํ•˜์—ฌ ์˜๋ฏธ ์žˆ๋Š” ๊ธฐ์—ฌ๋ฅผ ํ•˜์ง€๋งŒ, ์ œ์•ˆ๋œ FactISR ๋ฐฉ๋ฒ•์˜ ์ด๋ก ์  ๊นŠ์ด๊ฐ€ ๋ถ€์กฑํ•˜๊ณ  ์˜์–ด ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์™€์˜ ์—ฐ๊ณ„์„ฑ์ด ์ œํ•œ์ ์ด๋ผ๋Š” ์ ์€ ๊ฐœ์„ ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
333์€ ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜์˜ ์‚ฌ์‹ค ๊ฒ€์ฆ ๋ฐ ์ถ”๋ก  ๋ฐฉ๋ฒ•๋ก ์„ ์ •๋ฆฝํ•˜๋ฉฐ, 117์˜ ์„ค๋ช… ์ƒ์„ฑ ๋ฐ ์ฆ๊ฑฐ ํƒ์ƒ‰๊ณผ ๊ฐ™์€ ๋ณตํ•ฉ์  ์‚ฌ์‹ค ๊ฒ€์ฆ ๊ณผ์ œ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋  ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์‚ฌ์‹ค ๊ฒ€์ฆ ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Factkg ๋…ผ๋ฌธ์€ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์œ ๋„ ๊ธฐ๋ฐ˜ ํŒฉํŠธ์ฒดํ‚น์œผ๋กœ, TrendFact์™€ ๋‹ค๋ฅธ ์ž๋™ ํŒฉํŠธ ๊ฒ€์ฆ ์ ‘๊ทผ ๋ฐฉ์‹์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ค‘๊ตญ์–ด ๊ธฐ๋ฐ˜ ๋ณตํ•ฉ ํŒฉํŠธ์ฒดํ‚น ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•๊ณผ ํƒ์ง€ ๋ฉ”ํŠธ๋ฆญ ์ œ์‹œ๋กœ, ์‹ ๋ขฐ์„ฑ ์žˆ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ’์ž ํƒ์ง€ ์‹œ์Šคํ…œ ์ธก๋ฉด์—์„œ ์ถ”๊ฐ€ ์‹œ๊ฐ์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ์‚ฌ์‹ค ๊ฒ€์ฆ์˜ ์ •ํ™•๋„์™€ ์„ค๋ช… ์ผ๊ด€์„ฑ์„ ๋ถ„์„ํ•œ ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
235๋Š” ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ์—์„œ ๋ฐ์ดํ„ฐ ์†Œ์Šค์™€ ๊ฒ€์ƒ‰ ๊ธฐ๋ฒ•๋ณ„ ์„ฑ๋Šฅ์„ ์‹ค์ฆ์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ, 117์˜ TrendFact ๋ฐ FactISR ๋ฒค์น˜๋งˆํฌ์™€ ๋น„๊ต ๊ฐ€๋Šฅํ•œ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐ˜๋ณต์  ์ž๊ธฐ ์„ฑ์ฐฐ์„ ํ™œ์šฉํ•œ ์‚ฌ์‹ค ๊ฒ€์ฆ ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํŒฉํŠธ์ฒดํ‚น ๋ชจ๋ธ์˜ ์‹ ๋ขฐ์„ฑ ๋ฐ ์„ค๋ช…๋ ฅ ๊ฐœ์„ ์„ ์œ„ํ•œ ์ฆ๊ฑฐ ๋ณด๊ฐ• ๋ฐ ๋ฐ˜๋ก€ ์ž๋™ํƒ์ƒ‰ ๊ธฐ๋ฒ• ๋“ฑ ํ˜„์‹ค์  ์‚ฌ์‹ค ๊ฒ€์ฆ ๋ฐฉ์‹ ํ™•์žฅ์„ ๋‹ค๋ฃฌ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ณตํ•ฉ์  ๊ณผํ•™ ์‚ฌ์‹ค ๊ฒ€์ฆ์˜ ํ•ด์„ค ๋ฐ ์„ค๋ช… ๊ฐ€๋Šฅํ•œ ๊ทผ๊ฑฐ ์ œ์‹œ๋กœ, SFAVEL ๋ชจ๋ธ์˜ ์‘์šฉ๋ ฅ์„ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ณต์žกํ•œ ํŒฉํŠธ ํ™•์ธ์„ ์œ„ํ•œ ์ฆ๊ฑฐ์„ฑ๊ณผ ์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ ํ–ฅ์ƒ ๊ธฐ๋ฒ•์„ LLM ๊ธฐ๋ฐ˜์œผ๋กœ ํƒ๊ตฌํ•œ ๋…ผ๋ฌธ์œผ๋กœ, ๊ณ„์ธต์  ๋‹จ๊ณ„๋ณ„ ํŒฉํŠธ์ฒดํ‚น๊ณผ ์—ฐ๊ณ„๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Augmenting the veracity and explanations ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋ณตํ•ฉ ์ฃผ์žฅ ์‚ฌ์‹ค๊ฒ€์ฆ์— ์„ค๋ช…์„ฑ์„ ๊ฐ•ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•ด program-guided reasoning์„ ์‹ฌํ™”์‹œํ‚ต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํŒฉํŠธ์ฒดํ‚น ์„ค๋ช… ์ž๋™ํ™”์™€ justification ํ‘œ์ค€ํ™” ์ด์Šˆ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, TrendFact ๋ฒค์น˜๋งˆํฌ์˜ ํ‰๊ฐ€ ๊ธฐ์ค€ ๋ฐ ํ”„๋ ˆ์ž„์›Œํฌ ๊ณ ๋„ํ™” ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LIDDIA ๋…ผ๋ฌธ์€ ์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์•ฝ๋ฌผ๋ฐœ๊ฒฌ์—์„œ์˜ ๊ฒ€์ฆ์  ์งˆ๋ฌธ, ์ฆ๊ฑฐ ๊ฐ•์กฐ ๋“ฑ ์„ค๋ช… ์ƒ์„ฑ์˜ ์„ธ๋ถ€์ ์ธ ํ™•์žฅ์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
ํŒฉํŠธ์ฒดํ‚น์—์„œ ๋Œ€์กฐ๊ทผ๊ฑฐ(couter-evidence) ํ™œ์šฉ ํ•œ๊ณ„ ๋ฐ ํ˜„์‹ค์  ๋ฌธ์ œ์ ์„ ์ง€์ ํ•ด, ๋™์  ์ฆ๊ฑฐ ์ฆ๊ฐ• ๋ฐฉ์‹์˜ ํ•„์š”์„ฑ๊ณผ ๊ฐœ์„ ์ ์„ ๋น„ํŒ์ ์œผ๋กœ ๋‹ค๋ฃฌ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •