Towards effective extraction and evaluation of factual claims

์ €์ž: Dasha Metropolitansky, Jonathan Larson | ๋‚ ์งœ: 2025 | DOI: arXiv:2502.10855v2 📄 PDF


Essence

Figure 1

Figure 1: Claimify stages

๋ณธ ๋…ผ๋ฌธ์€ LLM์ด ์ƒ์„ฑํ•œ ์žฅ๋ฌธ ์ฝ˜ํ…์ธ ์˜ fact-checking์„ ์œ„ํ•ด factual claim์„ ํšจ๊ณผ์ ์œผ๋กœ ์ถ”์ถœํ•˜๊ณ  ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ํ‘œ์ค€ํ™”๋œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ํŠนํžˆ element-level coverage์™€ outcome-based decontextualization ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์„ ๋„์ž…ํ•˜๊ณ , ์ด๋ฅผ ์ ์šฉํ•˜๋Š” Claimify๋ผ๋Š” LLM ๊ธฐ๋ฐ˜ claim extraction ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: Claimify stages

How

Figure 1

Figure 1: Claimify stages

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ claim extraction ํ‰๊ฐ€์— ๋Œ€ํ•œ ์˜ค๋žซ๋™์•ˆ ํ•„์š”ํ–ˆ๋˜ ํ‘œ์ค€ํ™”๋œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, element-level coverage์™€ outcome-based decontextualization์ด๋ผ๋Š” ํ˜์‹ ์ ์ธ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์„ ๋„์ž…ํ•œ๋‹ค. Claimify ๋ฐฉ๋ฒ•๊ณผ ํ•จ๊ป˜ ์ด๋Ÿฌํ•œ ๊ธฐ์—ฌ๋Š” LLM ๊ธฐ๋ฐ˜ fact-checking ์‹œ์Šคํ…œ์˜ ์‹ ๋ขฐ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ์‹ค์งˆ์ ์ธ ๋„๊ตฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Towards effective extraction and evaluation of factual claims ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ ๋ผ๋ฒจ๋ง/์ถ”์ถœ ์ž๋™ํ™”์˜ ์‹ ๋ขฐ์„ฑยทํšจ๊ณผ์„ฑ ๊ธฐ์ค€ ๋ฐ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ด, 905์˜ LLM ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ๋ผ๋ฒจ ์ •ํ™•๋„ ๋…ผ์˜๋ฅผ ๋’ท๋ฐ›์นจํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
541์€ ํŒฉํŠธ์ฒดํ‚น์—์„œ ๋ฐ˜์ฆ ๊ทผ๊ฑฐ์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•˜๋ฉฐ, 827์˜ ์ฃผ์žฅ ๊ฒ€์ฆ(ํŒฉํŠธ์ฒดํ‚น) ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ด๋ก ์  ๊ทผ๊ฐ„์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
827๋ฒˆ ๋…ผ๋ฌธ์€ ์ฃผ์žฅ ์ถ”์ถœ ๋ฐ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ 124์˜ ํŒฉํŠธ์ฒดํ‚น ์ •๋‹นํ™” ์ž๋™์ƒ์„ฑ ๋…ผ์˜์˜ ๊ธฐ์ดˆ ์ž๋ฃŒ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•™์ˆ  ๋ฌธํ—Œ ๊ธฐ๋ฐ˜ ์ •๋ณด ๊ฒ€์ฆ์„ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
827์ด ์ฃผ์žฅ ์ถ”์ถœ๊ณผ ํ‰๊ฐ€ ์ค‘์‹ฌ์˜ ํ‘œ์ค€ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋Š” ๋ฐ˜๋ฉด 710์€ ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ์— ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ์ฃผ์žฅ ํŒฉํŠธ์ฒดํ‚น์—์„œ Co-planning/Causal reasoning ๋“ฑ ๋‹ค์–‘ํ•œ ์ ‘๊ทผ ๋ฐฉ๋ฒ•์„ ์„œ๋กœ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ƒ์˜ํ•™์  ์‚ฌ์‹ค ์ถ”์ถœ ๋ฐ ๊ฒ€์ฆ์„ LLM ๊ธฐ๋ฐ˜์œผ๋กœ ์–ด๋–ป๊ฒŒ ํ‰๊ฐ€ํ•˜๊ณ  ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๊ตฌ์ฒด์ ์œผ๋กœ ํƒ๊ตฌํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
333์€ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ํŒฉํŠธ ๊ฒ€์ฆ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ด, 827์˜ ์ฃผ์žฅ ์ถ”์ถœ ํ›„ ํ‰๊ฐ€ ๋ฐฉ์‹์„ ํ•œ ๋‹จ๊ณ„ ๋ฐœ์ „์‹œํ‚จ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
124๋ฒˆ ๋…ผ๋ฌธ์€ ํŒฉํŠธ์ฒดํ‚น ๊ฒฐ๊ณผ์˜ ์ •๋‹นํ™” ์ž๋™ ์ƒ์„ฑ์— ์ง‘์ค‘๋˜์–ด ์žˆ์–ด 827์˜ ์ฃผ์žฅ ์ถ”์ถœยทํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์‹œ๋„ˆ์ง€๋ฅผ ์ด๋ฃจ๋ฉฐ ์ฝ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ํ‰๊ฐ€์ž์˜ ์ฃผ์žฅ์„ ํ’ˆ์งˆ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋…ผ๋ฌธ์˜ ์ฃผ์žฅ ์ถ”์ถœ ๋ฐ ํ‰๊ฐ€์™€ ๊ด€๋ จ์ด ๊นŠ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
827์€ ์‚ฌ์‹ค์  ์ฃผ์žฅ ์ถ”์ถœ๊ณผ ํ‰๊ฐ€ ๊ตฌ์กฐ์— ์ดˆ์ ์„ ๋งž์ถ”์–ด 820์˜ ์ง„์‹ค์„ฑ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•์„ ๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ฃผ์žฅ ์ถ”์ถœ ๋ฐ ๊ฒ€์ฆ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ AI ๊ธฐ๋ฐ˜ ๋™๋ฃŒํ‰๊ฐ€ ๋ฐ ์ฝ˜ํ…์ธ  ๊ฒ€์ฆ ์›Œํฌํ”Œ๋กœ์šฐ ์ž๋™ํ™” ๋…ผ์˜์™€ ์‹ค์งˆ์ ์œผ๋กœ ์—ฐ๊ณ„๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ƒ๋ฌผํ•™์  claim์˜ ์ถ”์ถœ๊ณผ ํ‰๊ฐ€ ์ •ํ™•์„ฑ ๊ฐœ์„ ์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, PUFFIN์˜ ๋‹จ์œ„ ํ•ด์„์ด ์ƒ๋ช…๊ณผํ•™ ์ „๋ฐ˜์˜ ์ง€์‹ ์ถ”์ถœ์— ๊ธฐ์—ฌํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •