Can large language models detect misinformation in scientific news reporting? arXiv preprint arXiv:2402.14268, 2024.

์ €์ž: Yupeng Cao, Aishwarya Muralidharan Nair, Nastaran Jamalipour Soofi, Elyon Eyimife, K.P. Subbalakshmi | ๋‚ ์งœ: 2024 | DOI: arXiv:2402.14268 📄 PDF


Essence

๊ณผํ•™ ๋‰ด์Šค ๊ธฐ์‚ฌ์˜ ์˜ค๋ณด(misinformation)๋ฅผ ํƒ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ณ , ๊ณผํ•™์  ํƒ€๋‹น์„ฑ ์ฐจ์›(Dimensions of Validity, DoV)์„ ์ •์˜ํ•˜์—ฌ prompt engineering์„ ํ†ตํ•ด ๋ฏธ๋ช…์‹œ์  ์ฃผ์žฅ(explicit claim) ์—†์ด๋„ ์˜ค๋ณด๋ฅผ ๊ฒ€์ถœํ•  ์ˆ˜ ์žˆ๋Š” ์„ธ ๊ฐ€์ง€ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ์•ˆํ•œ๋‹ค.

Motivation

Achievement

Figure 1

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ํ”„๋กœ์„ธ์Šค: ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹, ์›น ๋ฆฌ์†Œ์Šค, LLM ๊ธฐ๋ฐ˜ ์ƒ์„ฑ์„ ํ†ตํ•œ ๊ท ํ˜•์žกํžŒ ์ฝ”ํผ์Šค ์ˆ˜์ง‘

  1. CoSMis(SciNews) ๋ฐ์ดํ„ฐ์…‹ ๊ฐœ๋ฐœ: 2,400๊ฐœ์˜ COVID-19 ๊ด€๋ จ ๋‰ด์Šค(์‹ ๋ขฐ 1,200๊ฐœ, ๋ถ€์‹ ๋ขฐ 1,200๊ฐœ)์™€ CORD-19 ๊ณผํ•™ ์ดˆ๋ก ํŽ˜์–ด๋ง. ์ธ๊ฐ„ ์ž‘์„ฑ(1,200๊ฐœ)๊ณผ LLM ์ƒ์„ฑ(1,200๊ฐœ) ๊ท ํ˜• ํฌํ•จ์œผ๋กœ ์‹ค์ œ ์‹œ๋‚˜๋ฆฌ์˜ค ๋ฐ˜์˜
  2. ๊ณผํ•™์  ํƒ€๋‹น์„ฑ ์ฐจ์›(DoV) ์ •์˜: ๊ณผํ•™ ๋‰ด์Šค์˜ ์˜ค๋ณด๋ฅผ ๋‹ค์ฐจ์›์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ ์ œ์‹œ
  3. 3๊ฐ€์ง€ LLM ํŒŒ์ดํ”„๋ผ์ธ: SERIf(Summarization-Evidence Retrieval-Inference), SIf(Evidence Retrieval ์ œ์™ธ), D2I(Direct-to-Inference) ์•„ํ‚คํ…์ฒ˜๋กœ ์ ์ง„์  ์ฒ˜๋ฆฌ ๋‹จ๊ณ„ ๊ฐ์†Œ ์„ค๊ณ„
  4. ์„ค๋ช…๊ฐ€๋Šฅ์„ฑ ์ œ๊ณต: DoV ๊ธฐ๋ฐ˜ Chain-of-Thought prompting์œผ๋กœ ๋ชจ๋ธ ์˜์‚ฌ๊ฒฐ์ • ๊ณผ์ •์˜ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ํ™•๋ณด

How

Figure 3

์ œ์•ˆ๋œ 3๊ฐ€์ง€ ์•„ํ‚คํ…์ฒ˜: SERIf๋Š” ์š”์•ฝโ†’์ฆ๊ฑฐ ๊ฒ€์ƒ‰โ†’์ถ”๋ก ์˜ 3๋‹จ๊ณ„, SIf๋Š” 2๋‹จ๊ณ„, D2I๋Š” ์ง์ ‘ ์ถ”๋ก ์œผ๋กœ ์ง„ํ–‰

๋ฐฉ๋ฒ•๋ก :

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋‰ด์Šค์˜ ์˜ค๋ณด ํƒ์ง€ ๋ฌธ์ œ๋ฅผ ํ˜„๋Œ€์  ๊ด€์ ์—์„œ ์ ‘๊ทผํ•˜์—ฌ ์‹ค์šฉ์  ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋ช…์‹œ์  ์ฃผ์žฅ ์ถ”์ถœ์ด ํ•„์š” ์—†๋Š” LLM ํŒŒ์ดํ”„๋ผ์ธ์„ ์ œ์•ˆํ–ˆ์œผ๋‚˜, ๋‹ค์ค‘ ๋„๋ฉ”์ธ ์ผ๋ฐ˜ํ™”์™€ ๋” ์ •๋ฐ€ํ•œ ํ‰๊ฐ€ ํ”„๋กœํ† ์ฝœ์„ ํ†ตํ•ด ์ž„ํŒฉํŠธ๋ฅผ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Large Language Models are Zero Shot Hypothesis Proposers ๋…ผ๋ฌธ์€ LLM์˜ ๊ฐ€์„ค ์ƒ์„ฑยทํ‰๊ฐ€ ๋Šฅ๋ ฅ์„ ๋‹ค๋ฃจ์–ด, ๊ณผํ•™ ์˜ค๋ณด ๊ฒ€์ถœ ๋ชจ๋ธ์˜ ๊ฐ€๋Šฅ์„ฑ ๋ฐ ํ•œ๊ณ„ ์ดํ•ด์— ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ๋‰ด์Šค ์˜ค๋ณด ํƒ์ง€๋ฅผ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
832๋Š” ๋‰ด์Šค ๋„๋ฉ”์ธ์—์„œ ์‚ฌ์‹ค ๊ฒ€์ฆ์„ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ LLM-์ง€์‹ ๋ชจ๋ธ๋กœ ์ ‘๊ทผํ•˜์—ฌ, 183๊ณผ ์œ ์‚ฌ ๋ฌธ์ œ์— ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™์  ์˜ค๋ณด ํƒ์ง€ ๋ฐ ์ž๋™ ์˜คํ”ˆ๋„๋ฉ”์ธ ๊ฐ€์„ค ํ™•์ธ์— ๋Œ€ํ•œ LLM ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์„ ์‹ค์ œ ์‹œ์Šคํ…œ์— ์ ์šฉํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ํ—ˆ์œ„ ์ •๋ณด ํƒ์ง€ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ๋กœ, ๋‹ค๋ฅธ ๋„๋ฉ”์ธ์˜ ์˜ค๋ณด๋ฅผ ๋‹ค๋ฃฌ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™์  ์ฃผ์žฅ์˜ ์‹ ๋ขฐ์„ฑ ๊ฒ€์ฆ์„ ์œ„ํ•œ LLM ํ™œ์šฉ ์—ฐ๊ตฌ๋กœ, ์œ ์‚ฌํ•œ ๋ฐฉ๋ฒ•๋ก ์„ ์ ์šฉํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciQAG ๋…ผ๋ฌธ์€ ๊ณผํ•™ ์ฃผ์žฅ์˜ ์‹ ๋ขฐ์„ฑ ๊ฒ€์ฆ์„ ๋‹ค์–‘ํ•œ ๋ฐฉ์‹์˜ ์งˆ๋ฌธ ์‘์šฉ์œผ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ, ์˜ค๋ณด ํƒ์ง€ ์•„ํ‚คํ…์ฒ˜์™€ ํ‰๊ฐ€ ๋ฐฉ์‹ ๋น„๊ต์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์‚ฌ์‹ค ํ™•์ธ ๋ฐ ์˜ค๋ณด ํƒ์ง€ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜์˜ ํ—ˆ์œ„ ์ •๋ณด ํƒ์ง€ ์‹œ์Šคํ…œ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
183์€ ๊ณผํ•™์  ํ—ˆ์œ„์ •๋ณด ํƒ์ง€์—์„œ LLM์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋‹ค๋ฃจ๋ฉฐ 680๊ณผ ์œ ์‚ฌ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ์‹œ๊ฐ์œผ๋กœ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
183๋ฒˆ ๋…ผ๋ฌธ์€ LLM์ด ๊ณผํ•™์  ์ •๋ณด ํ—ˆ์œ„ ์—ฌ๋ถ€๋ฅผ ํšจ์œจ์ ์œผ๋กœ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ๋Œ€๊ทœ๋ชจ ์‹คํ—˜์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ 057๋ฒˆ์˜ ๋ฐ˜์ž๋™ ํŒฉํŠธ์ฒดํ‚น ์‹œ์Šคํ…œ ๊ฒ€์ฆ์— ์ฐธ๊ณ ๋  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
221์€ ๊ณผํ•™ ์ฃผ์žฅ ๊ฒ€์ฆ์—์„œ ํ•ด์„ค๊ฐ€๋Šฅ(Explainable) ๊ทผ๊ฑฐ ์ถ”์ถœ์„ ๋”ํ•ด, 183์˜ LLM ๊ธฐ๋ฐ˜ ์˜ค๋ณด ํƒ์ง€ ์•„ํ‚คํ…์ฒ˜์™€ ๊ฒฐํ•ฉํ•ด ๋ณผ ๋งŒํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณผํ•™ ๋…ผ๋ฌธ ๋‚ด ์ž˜๋ชป๋œ ์ธ์šฉ๊ณผ ํ—ˆ์œ„์ •๋ณด ํƒ์ง€ ์„ฑ๋Šฅ์„ LLM์ด ์–ด๋–ป๊ฒŒ ๋‹ฌ์„ฑํ•˜๋Š”์ง€ ์ง์ ‘ ์‹คํ—˜ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ์‹ ๋ขฐ๊ฐ€๋Šฅํ•œ ๊ณผํ•™์  ๊ฐ€์„ค ๋ฐ ์˜ค๋ณด ํŒ๋ณ„ ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ๋ฐœ๋กœ, scientific news์—์„œ ์˜ค๋ณด ํƒ์ง€ task์˜ ํ™•์žฅ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Can large language models detect misinformation in scientific news ๋…ผ๋ฌธ์€ LLM ์‘์šฉ์—์„œ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ๋ฉฐ, ์‹ ์•ฝ ๊ฐœ๋ฐœ ์‹คํ—˜์˜ ๊ฒฐ๊ณผ ๊ฒ€์ฆ ๋ฐ ์žฌํ˜„์„ฑ ํ‰๊ฐ€์— ์ฐธ๊ณ ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
183์€ LLM์˜ ๊ณผํ•™ ๋…ผ๋ฌธ ์˜ค์ •๋ณด ๊ฐ์ง€ ์—ญํ• ์„ ํ‰๊ฐ€ํ•˜๋ฉฐ, LLM์˜ ๋ฆฌ๋ทฐ ํ•œ๊ณ„์™€ ์—ญํ• ์„ ๋…ผ์˜ํ•˜๋Š” 128๊ณผ ๋น„ํŒ์  ๊ด€์ ์—์„œ ์—ฐ๊ฒฐํ•  ์ˆ˜ ์žˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •