DEFAME: Dynamic Evidence-based Fact-checking with Multimodal Experts

์ €์ž: Tobias Braun, Mark Rothermel, Marcus Rohrbach, Anna Rohrbach (Technical University of Darmstadt & hessian.AI) | ๋‚ ์งœ: 2025 | DOI: arXiv:2412.10510


Essence

Figure 1

DEFAME์˜ ๊ฐœ์š”: ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํด๋ ˆ์ž„์„ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฆ๊ฑฐ๋กœ ๊ฒ€์ฆํ•˜์—ฌ ์ƒ์„ธํ•œ ์ธ๊ฐ„์นœํ™”์  ๋ณด๊ณ ์„œ๋ฅผ ์ƒ์„ฑ

๋ณธ ๋…ผ๋ฌธ์€ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” ํด๋ ˆ์ž„(์ฃผ์žฅ)์„ ๊ฒ€์ฆํ•˜๋Š” DEFAME์ด๋ผ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŒฉํŠธ์ฒดํ‚น ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•œ๋‹ค. 6๋‹จ๊ณ„ ๋™์  ํŒŒ์ดํ”„๋ผ์ธ์„ ํ†ตํ•ด ์™ธ๋ถ€ ๋„๊ตฌ์™€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์„ ํ™œ์šฉํ•˜์—ฌ ์ฆ๊ฑฐ๋ฅผ ๊ฒ€์ƒ‰ํ•˜๊ณ  ํ‰๊ฐ€ํ•˜๋ฉฐ, ์„ค๋ช… ๊ฐ€๋Šฅํ•œ ๊ฒ€์ฆ ๋ณด๊ณ ์„œ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.

Motivation

Achievement

Figure 2

DEFAME์˜ 6๋‹จ๊ณ„ ํŒŒ์ดํ”„๋ผ์ธ: Plan โ†’ Execute โ†’ Summarize โ†’ Develop โ†’ Judge โ†’ Justify

  1. ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ:
    • AVERITEC์—์„œ 65.6% โ†’ 70.5% (์ •ํ™•๋„ ๊ฐœ์„ )
    • MOCHEG์—์„œ +10.6% ์ •ํ™•๋„ ๊ฐœ์„ 
    • VERITE์—์„œ True/False ์ •ํ™•๋„ +25.9% ๊ฐœ์„ 
  2. ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ• ๋ฐ ์šฐ์ˆ˜์„ฑ ์ž…์ฆ:
    • GPT-4O์˜ ์ง€์‹ ํ•œ๊ณ„(knowledge cutoff) ์ดํ›„์˜ ํด๋ ˆ์ž„์œผ๋กœ ๊ตฌ์„ฑ๋œ CLAIMREVIEW2024+ ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ
    • ์ด ๋ฒค์น˜๋งˆํฌ์—์„œ DEFAME์ด GPT-4O ๊ธฐ์ค€ ๋Œ€๋น„ ํ˜„์ €ํžˆ ์šฐ์ˆ˜ํ•˜๋ฉฐ ์‹œ๊ฐ„์  ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ์‹œ์—ฐ
    • ์ธ๊ฐ„ ํ‰๊ฐ€์ž๋“ค์ด DEFAME์˜ ๋ณด๊ณ ์„œ๋ฅผ GPT-4O ์ถœ๋ ฅ๋ณด๋‹ค ์„ ํ˜ธ

How

Figure 3

CLAIMREVIEW2024+ ๋ฐ์ดํ„ฐ์…‹์˜ ์˜ˆ์‹œ์™€ GPT-4O ๋Œ€๋น„ DEFAME์˜ ํ˜ผ๋™ ํ–‰๋ ฌ

6๋‹จ๊ณ„ ๋™์  ํŒŒ์ดํ”„๋ผ์ธ:

ํ•ต์‹ฌ ์„ค๊ณ„ ์›์น™:

์™ธ๋ถ€ ๋„๊ตฌ ์Šค์œ„ํŠธ:

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.4/5

์ดํ‰: DEFAME์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŒฉํŠธ์ฒดํ‚น์˜ ๋ถ„์‚ฐ๋œ ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ฉํ•˜๋Š” ์ตœ์ดˆ์˜ end-to-end ์†”๋ฃจ์…˜์œผ๋กœ, ๋™์  ๋„๊ตฌ ์„ ํƒ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฆ๊ฑฐ ์ฒ˜๋ฆฌ, ์„ค๋ช… ๊ฐ€๋Šฅํ•œ ๋ณด๊ณ ์„œ ์ƒ์„ฑ ์ธก๋ฉด์—์„œ ๋†’์€ ๋…์ฐฝ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค. ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๊ณ  ์ƒˆ๋กœ์šด ํ‰๊ฐ€ ์„ธํŠธ๋ฅผ ์ œ๊ณตํ•œ ์ ์€ ํ•™๊ณ„์— ์ค‘์š”ํ•œ ๊ธฐ์—ฌ์ด๋‹ค. ๋‹ค๋งŒ ์ฒ˜๋ฆฌ ์‹œ๊ฐ„ ๋ฐ ๋„๋ฉ”์ธ ํŠนํ™” ์„ฑ๋Šฅ์— ๋Œ€ํ•œ ํ‰๊ฐ€๊ฐ€ ์ถ”๊ฐ€๋˜๋ฉด ์‹ค์šฉ์„ฑ์ด ๋”์šฑ ๊ฐ•ํ™”๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
TrustLLM์€ LLM์˜ ์‹ ๋ขฐ์„ฑ์„ ๋‹ค์ฐจ์›์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋ฉฐ, DEFAME๊ฐ€ ๋ชฉํ‘œํ•˜๋Š” ์„ค๋ช… ๊ฐ€๋Šฅํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ํŒฉํŠธ์ฒดํ‚น์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
267์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ทผ๊ฑฐ ๊ธฐ๋ฐ˜ ํŒฉํŠธ์ฒดํ‚น ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, 328์˜ ์˜๋ฃŒ ์ฃผ์žฅ ๊ฒ€์ฆ ์‹œ์Šคํ…œ๊ณผ ๋‹ค์–‘ํ•œ ์†Œ์Šค ํ†ตํ•ฉ ์ธก๋ฉด์—์„œ ๊ธฐ์ˆ ์  ํ† ๋Œ€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
DEFAME๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋™์  ํŒฉํŠธ์ฒดํ‚น ์‹œ์Šคํ…œ์œผ๋กœ, ๋ฐ˜๋ฐ• ์ฆ๊ฑฐ ๋ถ€์žฌ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ์™ธ๋ถ€ ๋„๊ตฌ์™€ ์ฆ๊ฑฐ ๊ฒ€์ƒ‰์„ ํ™œ์šฉํ•˜๋Š” ๋Œ€์•ˆ์  ์ ‘๊ทผ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
FactKG๋Š” ์ง€์‹ ๊ทธ๋ž˜ํ”„๋ฅผ ํ†ตํ•œ ์ถ”๋ก ์œผ๋กœ ์‚ฌ์‹ค์„ ๊ฒ€์ฆํ•˜๋Š” ์ ‘๊ทผ์œผ๋กœ, DEFAME์˜ ๋™์  ์ฆ๊ฑฐ ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŒฉํŠธ์ฒดํ‚น๊ณผ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์„ ์ทจํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Fact-checking complex claims with program-guided reasoning์€ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๊ธฐ๋ฐ˜์˜ ์ฃผ์žฅ ๊ฒ€์ฆ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, DEFAME์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ ‘๊ทผ๊ณผ ์ฐจ๋ณ„ํ™”๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•œ ํŒฉํŠธ์ฒดํ‚น ์ž๋™ํ™” ์—ฐ๊ตฌ๋กœ, ๋ณธ ๋…ผ๋ฌธ๊ณผ ๋‹ค๋ฅด๊ฒŒ ์ฆ๊ฑฐ ํ™œ์šฉ ๋ฒ”์œ„๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
DEFAME ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฆ๊ฑฐ ๊ธฐ๋ฐ˜ ๋™์  ํŒฉํŠธ์ฒดํ‚น ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ด MMSD2.0๊ณผ ๋‹ค๋ฅธ ์‹œ๊ฐ์  ์ ‘๊ทผ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
DEFAME๋Š” ๊ฑด๊ฐ•ยท๊ณผํ•™ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ค์ค‘๋ชจ๋‹ฌ ๊ทผ๊ฑฐ ๊ธฐ๋ฐ˜ ํŒฉํŠธ์ฒดํ‚น์„ ๋‹ค๋ฃจ๋ฉฐ, 424์™€ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ๋กœ ํ™•์žฅํ•œ ์ ‘๊ทผ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Multivers๋Š” ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ํŒฉํŠธ์ฒดํ‚น ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋Š” ์•ฝํ•œ ๊ฐ๋… ์‹ ํ˜ธ ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ์„œ DEFAME์˜ ํ…์ŠคํŠธ ๊ฒ€์ฆ ๋ถ€๋ถ„์„ ๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
541์ด ๋ฐ˜๋ฐ• ์ฆ๊ฑฐ ๋ถ€์žฌ๋กœ ํŒฉํŠธ์ฒดํ‚น์˜ ๋น„ํ˜„์‹ค์„ฑ์„ ๋น„ํŒํ•˜๋Š” ๋ฐ˜๋ฉด, DEFAME๋Š” ๋™์  ์ฆ๊ฑฐ ๊ฒ€์ƒ‰๊ณผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ „๋ฌธ๊ฐ€ ํ™œ์šฉ์œผ๋กœ ์ด ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋ ค๋Š” ์‹ค์šฉ์  ์‹œ์Šคํ…œ์ด๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •