Can large language models detect misinformation in scientific news reporting? arXiv preprint arXiv:2402.14268, 2024.

저자: Yupeng Cao, Aishwarya Muralidharan Nair, Nastaran Jamalipour Soofi, Elyon Eyimife, K.P. Subbalakshmi | 날짜: 2024 | DOI: arXiv:2402.14268 📄 PDF

Essence

과학 뉴스 기사의 오보(misinformation)를 탐지하기 위해 대규모 언어모델(LLM)의 능력을 평가하고, 과학적 타당성 차원(Dimensions of Validity, DoV)을 정의하여 prompt engineering을 통해 미명시적 주장(explicit claim) 없이도 오보를 검출할 수 있는 세 가지 아키텍처를 제안한다.

Motivation

Known: 기존의 과학 fact-checking 방법들은 인간이 뉴스에서 명시적 주장(claim)을 추출해야 하는 번거로운 과정이 필요하며, LLM이 생성한 거짓 정보의 증가로 인해 과학 도메인의 오보 탐지가 더욱 복잡해지고 있음
Gap: 1) 과학 뉴스의 타당성을 정의하는 일반화된 분류체계(taxonomy) 부재, 2) 현실적 시나리오에서 명시적 주장 추출 없이 작동하는 아키텍처 부재, 3) LLM 생성 콘텐츠 혼합 데이터셋 부재
Why: 과학 정보는 비전문가에게 뉴스와 소셜미디어로 전파되므로, 오보의 공중보건 피해가 심각하고(COVID-19, 백신 거부 등), 수동 fact-checking의 확장성 한계
Approach: CoSMis 데이터셋 구축(인간 작성+LLM 생성), DoV 가이드 Chain-of-Thought prompting, 3가지 파이프라인 아키텍처(SERIf, SIf, D2I) 비교 평가

Achievement

데이터셋 구축 프로세스: 공개 데이터셋, 웹 리소스, LLM 기반 생성을 통한 균형잡힌 코퍼스 수집

CoSMis(SciNews) 데이터셋 개발: 2,400개의 COVID-19 관련 뉴스(신뢰 1,200개, 부신뢰 1,200개)와 CORD-19 과학 초록 페어링. 인간 작성(1,200개)과 LLM 생성(1,200개) 균형 포함으로 실제 시나리오 반영
과학적 타당성 차원(DoV) 정의: 과학 뉴스의 오보를 다차원으로 평가하는 프레임워크 제시
3가지 LLM 파이프라인: SERIf(Summarization-Evidence Retrieval-Inference), SIf(Evidence Retrieval 제외), D2I(Direct-to-Inference) 아키텍처로 점진적 처리 단계 감소 설계
설명가능성 제공: DoV 기반 Chain-of-Thought prompting으로 모델 의사결정 과정의 해석 가능성 확보

How

제안된 3가지 아키텍처: SERIf는 요약→증거 검색→추론의 3단계, SIf는 2단계, D2I는 직접 추론으로 진행

방법론:

데이터셋 구축: MM-CoVaR, COVID19-FNIR, COVID-Rumor 등 공개 데이터셋 활용 + 웹 스크래핑 + 과학 키워드 필터링 + 수동 검증 + LLM 기반 신뢰/불신뢰 뉴스 생성
DoV 프레임워크: 과학적 정확성, 맥락 적절성, 출처 인용, 불확실성 표현 등 다차원 평가 기준 설정
Prompt Engineering: Zero-shot, Few-shot, DoV-guided Chain-of-Thought 전략 적용
모델 평가: GPT-3.5, GPT-4, Llama2(7B/13B/70B), Llama3(8B) 비교 테스트
아키텍처 비교: 각 파이프라인의 처리 단계 차이에 따른 성능 변화 분석

Originality

Novel Dataset: 인간 작성과 LLM 생성 콘텐츠의 균형잡힌 혼합으로, 현실의 혼합 오보 생태계 반영
Taxonomy Creation: 과학 오보를 체계적으로 분류하는 DoV 차원 정의 - 기존 연구에서 부재했던 개념적 틀 제시
No Explicit Claim Requirement: 명시적 주장 추출 없이 직접 비교 가능한 아키텍처 제안으로 실용성 향상
Explainability Focus: DoV 기반 CoT prompting으로 '왜 오보인가'에 대한 설명 제공 메커니즘 구축
Comprehensive Architecture Comparison: 3가지 복잡도 수준의 파이프라인 비교로 처리 단계의 영향 분석

Limitation & Further Study

데이터셋 제한: COVID-19 특화 데이터로 다른 과학 도메인(기후, 물리학 등)으로의 일반화 가능성 미검증
LLM 의존성: GPT-3.5/4의 API 비용 문제와 오픈소스 모델(Llama)과의 성능 격차 존재
평가 메트릭: 정확도 기반 평가만 제시, 부분적 오류(partial misinformation)나 문제사항의 심각도 구분 부족
사람-모델 비교 부재: 인간 평가자(과학자, 기자)와 LLM 성능의 직접 비교 필요
후속 연구: 1) 다학제 과학 도메인 확장, 2) Fine-tuning 기반 성능 개선 탐색, 3) 실시간 뉴스 스트림 적용, 4) 멀티모달(이미지+텍스트) 오보 탐지

Evaluation

총평: 이 논문은 과학 뉴스의 오보 탐지 문제를 현대적 관점에서 접근하여 실용적 데이터셋과 명시적 주장 추출이 필요 없는 LLM 파이프라인을 제안했으나, 다중 도메인 일반화와 더 정밀한 평가 프로토콜을 통해 임팩트를 극대화할 수 있는 추가 연구가 필요하다.

같이 보면 좋은 논문

기반 연구

Large Language Models are Zero Shot Hypothesis Proposers

Large Language Models are Zero Shot Hypothesis Proposers 논문은 LLM의 가설 생성·평가 능력을 다루어, 과학 오보 검출 모델의 가능성 및 한계 이해에 도움이 됩니다.

기반 연구

Comparing knowledge sources for open-domain scientific claim verification

과학 뉴스 오보 탐지를 위한 방법론적 기반을 제공하는 연구이다.

다른 접근

Towards LLM-based Fact Verification on News Claims with a Hierarchical Step-by-Step Prompting Method

832는 뉴스 도메인에서 사실 검증을 하이브리드 LLM-지식 모델로 접근하여, 183과 유사 문제에 다른 방법론을 적용합니다.

다른 접근

Large Language Models for Automated Open-domain Scientific Hypotheses Discovery

과학적 오보 탐지 및 자동 오픈도메인 가설 확인에 대한 LLM 기반 접근을 실제 시스템에 적용한 사례입니다.

다른 접근

Grounding fallacies misrepresenting scientific publications in evidence

LLM을 활용한 허위 정보 탐지 능력을 평가하는 유사한 연구로, 다른 도메인의 오보를 다룬다.

다른 접근

Understanding fine-grained distortions in reports of scientific findings

과학적 주장의 신뢰성 검증을 위한 LLM 활용 연구로, 유사한 방법론을 적용한다.

다른 접근

SciQAG: A framework for auto-generated science question answering dataset with fine-grained evaluation

SciQAG 논문은 과학 주장의 신뢰성 검증을 다양한 방식의 질문 응용으로 평가하여, 오보 탐지 아키텍처와 평가 방식 비교에 적합합니다.

다른 접근

When AI Co-Scientists Fail: SPOT—a Benchmark for Automated Verification of Scientific Research

LLM의 사실 확인 및 오보 탐지 능력을 평가하는 관련 연구이다.

다른 접근

SciClaims: An end-to-end generative system for biomedical claim analysis

LLM 기반의 허위 정보 탐지 시스템을 다루는 유사한 연구이다.

다른 접근

Reviewing scientific papers for critical problems with reasoning llms: Baseline approaches and automatic evaluation

183은 과학적 허위정보 탐지에서 LLM의 적용 가능성을 다루며 680과 유사 문제를 다른 시각으로 접근합니다.

후속 연구

aedFaCT: Scientific fact-checking made easier via semi-automatic discovery of relevant expert opinions

183번 논문은 LLM이 과학적 정보 허위 여부를 효율적으로 탐지할 수 있는지를 대규모 실험으로 분석하여 057번의 반자동 팩트체킹 시스템 검증에 참고될 수 있다.

후속 연구

Claimver: Explainable claim-level verification and evidence attribution of text through knowledge graphs

221은 과학 주장 검증에서 해설가능(Explainable) 근거 추출을 더해, 183의 LLM 기반 오보 탐지 아키텍처와 결합해 볼 만합니다.

후속 연구

Grounding fallacies misrepresenting scientific publications in evidence

과학 논문 내 잘못된 인용과 허위정보 탐지 성능을 LLM이 어떻게 달성하는지 직접 실험합니다.

후속 연구

Toward Reliable Scientific Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

LLM 기반 신뢰가능한 과학적 가설 및 오보 판별 프레임워크 개발로, scientific news에서 오보 탐지 task의 확장 사례입니다.

응용 사례

DrugAgent: Automating AI-aided Drug Discovery Programming through LLM Multi-Agent Collaboration

Can large language models detect misinformation in scientific news 논문은 LLM 응용에서 신뢰성 평가 방법을 다루며, 신약 개발 실험의 결과 검증 및 재현성 평가에 참고가 됩니다.

반론/비판

Automatically evaluating the paper reviewing capability of large language models

183은 LLM의 과학 논문 오정보 감지 역할을 평가하며, LLM의 리뷰 한계와 역할을 논의하는 128과 비판적 관점에서 연결할 수 있다.

← 목록으로 돌아가기