Fact-checking complex claims with program-guided reasoning

저자: Liangming Pan, Xiaobao Wu, Xinyuan Lu, Anh Tuan Luu, William Yang Wang, Min‐Yen Kan, Preslav Nakov | 날짜: 2023 | DOI: arXiv:2305.12744 📄 PDF

Essence

복잡한 주장(claim)의 사실 확인을 위해 대규모 언어 모델(LLM)의 인-컨텍스트 학습(in-context learning) 능력을 활용하여 추론 프로그램(reasoning program)을 생성하고, 이를 특화된 하위 태스크 함수들로 순차적으로 실행하는 프로그램 가이드 팩트 체킹(PROGRAMFC) 프레임워크를 제안한다. 이는 설명 가능성과 데이터 효율성을 동시에 만족하면서 복잡한 다단계 추론이 필요한 주장 검증에서 우수한 성능을 달성한다.

Motivation

Known: 기존의 단순 사실 확인(fact-checking) 연구는 단일 문서에서 충분한 정보를 찾을 수 있는 경우가 대부분이었으나, 실제 환경의 주장들은 다중 근거(evidence) 수집과 복잡한 추론을 요구함. 예: "제임스 카메론과 인터스텔라의 감독이 모두 캐나다에서 태어났는가"라는 주장은 감독이 누구인지 파악하고, 각각의 출생지를 확인한 후 논리적 결합이 필요함.
Gap: 기존 그래프 기반 모델(graph-based model)들은 다단계 추론 성능은 우수하나 모델의 추론 과정이 불명확(불설명 가능)하며, 대량의 태스크 특화 학습 데이터를 필요로 함. 따라서 설명 가능성과 데이터 효율성을 동시에 만족하는 방법이 필요함.
Why: 신뢰할 수 있는 팩트 체킹 시스템은 단순히 진위 판정뿐만 아니라 명확한 추론 과정의 설명을 제공하여 사용자의 이해와 신뢰를 얻어야 하며, 인간 주석 작업의 시간·비용·편향을 고려하면 최소한의 학습 데이터로도 작동하는 모델이 필요함.
Approach: LLM의 인-컨텍스트 학습을 활용하여 복잡한 주장을 구조화된 프로그램 형식으로 분해하고, 각 단계를 전문화된 함수(질문 답변, 사실 검증, 논리 추론 등)에 위임하는 방식으로 설명 가능하면서도 데이터 효율적인 팩트 체킹을 구현.

Achievement

Figure 1: PROGRAMFC 모델 개요. 프로그램 생성 단계에서 Codex를 이용해 추론 프로그램을 생성하고, 프로그램 실행 단계에서 각 단계를 특화된 함수(QA 모델, Fact Checker, Logical Reasoner)에 위임

다중 데이터셋에서 우수한 성능 달성: HOVER와 FEVEROUS라는 복잡한 주장 검증 데이터셋에서 7개의 파우 샷(few-shot) 기준 모델들을 능가하며, 특히 추론 깊이(reasoning depth)가 증가할수록 프로그램 가이드 추론의 효과가 증가함을 입증.
설명 가능한 추론 과정: 생성된 프로그램 자체가 명확한 단계별 추론 경로를 제시하므로, 사용자가 모델의 의사결정 과정을 이해하고 디버깅할 수 있음.
유연하고 견고한 아키텍처: 하위 태스크 함수들을 쉽게 교체 가능하여 금 증거(gold evidence), 오픈북(open-book), 클로즈드북(closed-book) 등 다양한 팩트 체킹 환경에 대응 가능하며, 약한 모델을 하위 솔버로 사용해도 상대적으로 견고한 성능 유지.
근거 검색 향상: 오픈 도메인 설정에서 추론 프로그램이 관련 근거의 검색 성능(retrieval)을 개선하는 효과를 확인.

How

Figure 1: 프로그램 생성-실행 패러다임. S1-S4는 순차적 추론 단계를 나타내며, 각 단계는 특정 함수를 호출하고 결과를 변수에 저장

프로그램 생성(Program Generation):
- Codex(또는 GPT-3) 같은 대규모 언어 모델에 인-컨텍스트 학습 프롬프트를 제공
- 입력 주장을 ACTION[ARGUMENT] 형식의 구조화된 프로그램으로 변환
- 각 단계 Si = (fi, Ai, Vi)로 구성: fi는 함수 타입, Ai는 인자, Vi는 반환값 저장 변수
- 소수의 시연(demonstration) 예제만으로 프로그램 생성 가능
프로그램 실행(Program Execution):
- 순차적으로 프로그램의 각 단계를 파싱하고 해석
- 각 단계의 함수 fi를 호출하며, 인자 Ai는 이전 단계의 반환값을 참조 가능
- 질문 답변(QA), 사실 검증(Fact Verification), 논리 추론(Logical Reasoning) 등 특화된 함수 활용
다중 경로 집계(Aggregating Reasoning Paths):
- N개의 다양한 후보 프로그램을 생성하여 모두 실행
- 다수결 투표(majority voting)로 최종 판정 도출
유연한 지식 원천 활용:
- 금 증거 설정: 주어진 근거 문서 사용
- 오픈북: 위키피디아 같은 대규모 코퍼스에서 검색
- 클로즈드북: 모델의 매개변수에 내재된 지식만 활용

Originality

프로그래밍 패러다임의 창의적 적용: 사실 확인에 제어된 자연언어(controlled natural language) 프로그램을 도입하여, 단순 자유형식 설명이 아닌 구조화되고 실행 가능한 형태의 추론 과정을 제시.
LLM 능력의 효율적 활용: 대규모 언어 모델을 프로그램 생성만에 활용하고, 각 하위 태스크는 전문화된 함수에 위임함으로써 LLM의 부담을 줄이면서도 유연성 극대화.
체인-오브-소트(Chain-of-Thought) 확장: 기존 CoT와 달리 단일 LLM이 아닌 다중 전문 모듈 조합으로 확장하여, 더 강력하고 신뢰할 수 있는 추론 프레임워크 구축.
설명성과 효율성의 동시 달성: 기존 방식들이 설명성 또는 효율성 중 하나를 희생했으나, PROGRAMFC는 명확한 프로그램 형태의 설명과 동시에 파우 샷 학습으로 최소 데이터 요구를 실현.

Limitation & Further Study

프로그램 생성의 품질 의존성: 생성된 프로그램의 정확성이 최종 성능에 큰 영향을 미치므로, 불완전하거나 부정확한 프로그램 생성 시 cascade 오류(cascading errors) 발생 가능성. 프로그램 생성 과정의 오류 정정 메커니즘 개발 필요.
하위 태스크 함수의 성능 의존성: 각 하위 태스크 솔버(QA 모델, 사실 검증 모델 등)의 성능이 전체 시스템의 bottleneck이 될 수 있으므로, 더 견고한 하위 함수 개발이 필요.
제한된 함수 라이브러리: 현재는 QA, 사실 검증, 논리 추론 등 기본 함수만 포함되어 있으며, 특정 도메인의 복잡한 추론(수학적 계산, 시간적 추론 등)을 위한 함수 확장이 필요.
다국어 및 도메인 이전성(generalizability): 영어 중심의 평가이며, 다른 언어나 특정 도메인(의료, 법률 등)으로의 이전 가능성 탐색 필요.
후속 연구 방향:
- 자동 프로그램 정정(self-correction) 메커니즘
- 더 복잡한 논리 연산자(예: OR, NOT의 다양한 조합)를 포함한 함수 라이브러리 확장
- 프로그램 생성 오류에 대한 강건성 강화
- 인간-AI 협력 팩트 체킹 시스템으로의 발전

Evaluation

총평: PROGRAMFC는 설명 가능성과 데이터 효율성을 동시에 달성하면서 복잡한 주장의 사실 확인 성능을 현저히 개선하는 혁신적인 프레임워크로, 프로그래밍 패러다임의 창의적 적용과 LLM의 인-컨텍스트 학습 능력을 효과적으로 결합한 점에서 높이 평가된다. 다만, cascade 오류에 대한 강건성 강화와 함수 라이브러리의 확장이 향후 실무 적용의 핵심 과제이다.

같이 보면 좋은 논문

기반 연구

KGValidator: A framework for automatic validation of knowledge graph construction

Fact-checking complex claims with program-guided reasoning 논문은 자동 증거 검증 흐름 및 사실 검증에 있어 448이 취한 LLM 기반 검사 스타일의 이론·방법론적 기반을 구축합니다.

기반 연구

Openscholar: Synthesizing scientific literature with retrieval-augmented lms

332번 논문은 프로그램 기반 과학 팩트체킹 및 추론 프레임워크를 제안하여, 593번의 인용 기반 응답과 신뢰성 측정의 이론적 기초가 됩니다.

기반 연구

Robust claim verification through fact detection

332 논문은 프로그램 주도형 복합 주장 팩트체킹 기법을 소개하여 685의 fact detection 기반 증거 추출 접근에 기술적 토대를 제공합니다.

기반 연구

LLM-based Corroborating and Refuting Evidence Retrieval for Scientific Claim Verification

복잡한 과학적 주장 검증을 위한 프로그램 기반 추론과 결합된 팩트체킹 방법론의 기반을 제시합니다.

기반 연구

Sciclaimhunt: A large dataset for evidence-based scientific claim verification

710에서 다루는 과학 주장 검증의 근간은 332와 같은 프로그램-유도 기반 복잡 주장 팩트체킹 논의에 기초합니다.

기반 연구

SciClaims: An end-to-end generative system for biomedical claim analysis

복잡한 생의학적 주장 자동 팩트체킹과 프로그램 기반 추론에 대한 이론을 제공한다.

다른 접근

Multivers: Improving scientific claim verification with weak supervision and full-document context

Multivers 논문은 약한 감독을 이용해 과학적 주장 검증 성능 향상 방안을 탐색하며, PROGRAMFC 프레임워크와 상이한 기계학습 기반 접근을 보여줍니다.

다른 접근

Towards LLM-based Fact Verification on News Claims with a Hierarchical Step-by-Step Prompting Method

둘 다 복잡 클레임 사실검증에서 LLM 능력을 활용하지만, 332는 프로그램 생성 기반, 832는 계층적 인컨텍스트·검색 프롬프팅 방식을 비교할 수 있습니다.

다른 접근

Investigating zero-and few-shot generalization in fact verification

프로그램 기반 복합 증거 fact-checking 방식으로, 기존 fact verification과 reasoning integration의 차이를 분석할 수 있습니다.

다른 접근

Lean-star: Learning to interleave thinking and proving

Lean-star 논문은 수학적 정리 증명 분야에서 LLM의 in-context 사고 추론을 강조하는 대신, 본 논문은 구조화 프로그램 추론(ProgramFC)으로 복합적 사실 검증을 구현합니다.

다른 접근

Augmenting the veracity and explanations of complex fact checking via iterative self-revision with llms

Factkg 논문은 프로그래밍 유도 기반 팩트체킹으로, TrendFact와 다른 자동 팩트 검증 접근 방식을 보여줍니다.

다른 접근

Enhancing natural language inference performance with knowledge graph for covid-19 automated fact-checking in indonesian language

Fact-checking complex claims with program-guided reasoning은 복잡 주장에 대해 프로그램적 추론을 접목한 대안 방법을 제안합니다.

다른 접근

Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification

프로그래밍 기반 파생 증거 추출에 기반한 복잡한 사실 검증 기법을 다루며, Pelican에서 코드 기반 시각-언어 검증 체계와의 비교가 가능하다.

다른 접근

DEFAME: Dynamic Evidence-based Fact-checking with Multimodal Experts

Fact-checking complex claims with program-guided reasoning은 프로그래밍 기반의 주장 검증 프레임워크로, DEFAME의 멀티모달 접근과 차별화됩니다.

다른 접근

Explainable biomedical claim verification with large language models

332번 논문은 프로그램 기반 reasoning을 활용한 과학적 주장 fact-checking으로, 328번의 SHAP+LLM 기반 검증법의 대안적 접근법을 제공한다.

다른 접근

ChemMiner: A Large Language Model Agent System for Chemical Literature Data Mining

FactKG 논문은 지식그래프 기반으로 복잡한 사실 검증을 자동화하며, 화학 정보 추출과 정제에 응용될 수 있다.

후속 연구

Missing counter-evidence renders nlp fact-checking unrealistic for misinformation

복합·고차적 사실 검증 문제에서 프로그램 가이드드 추론 등 보다 실용적이고 반증 증거가 부족한 환경에 대한 모델 접근법을 제안한다.

후속 연구

Retrieval-Augmented Generation for Large Language Models: A Survey

Retrieval-Augmented Generation(RAG) 기반 팩트체킹 최신 기법과 실제 프로그램 기반 추론 비교가 가능합니다.

후속 연구

Factkg: Fact verification via reasoning on knowledge graphs

FactKG는 그래프 기반 팩트체킹 시스템으로, 프로그램 가이드 기반 접근과의 비교 및 통합 방안 탐색이 가능합니다.

후속 연구

Augmenting the veracity and explanations of complex fact checking via iterative self-revision with llms

Augmenting the veracity and explanations 논문은 LLM 기반 복합 주장 사실검증에 설명성을 강화하는 방법론을 제시해 program-guided reasoning을 심화시킵니다.

후속 연구

Automated justification production for claim veracity in fact checking: A survey on architectures and approaches

프로그램 기반 팩트체킹 자동화 프레임워크를 제시하여, 정당화 설명 생성 기법의 응용과 자동화 가능성을 실증한다.

후속 연구

What makes medical claims (un) verifiable? analyzing entity and relation properties for fact verification

332번 논문은 AI 기반 과학적 사실 검증에서 복잡한 엔티티/관계/증거 기반 추론을 다루며 응용 분석의 범위와 난이도를 확장합니다.

반론/비판

Missing counter-evidence renders nlp fact-checking unrealistic for misinformation

팩트체킹에서 근거 불충분 시 한계와 복잡 주장 검증의 실제 문제를 다루어 서로 보완적으로 이해할 수 있습니다.

← 목록으로 돌아가기