Towards effective extraction and evaluation of factual claims

Motivation

Known: Claim extraction은 long-form content의 fact-checking을 위해 단순한 검증 가능한 주장들을 추출하는 decompose-then-verify 전략의 핵심 단계이다. 기존 연구들은 claim의 바람직한 속성을 식별하고 오류 유형을 분류했으나, claim extraction 평가에 대한 표준화된 접근 방식이 부재했다.
Gap: 기존 claim extraction 평가는 문장 단위의 粗粒度 평가에 의존했으며, element-level의 세밀한 coverage 평가가 부족했다. 또한 decontextualization 평가는 주관적이고 일관성이 낮으며, 실제 fact-checking 성능과의 연관성이 명확하지 않았다. 더불어 ambiguity를 체계적으로 처리하는 claim extraction 방법이 없었다.
Why: Claim 품질은 fact-checking 결과의 신뢰성을 직접 좌우하므로, 부정확하거나 불완전한 claim 추출은 fact-checking 시스템의 효과성을 심각하게 훼손한다. 따라서 claim extraction 방법을 체계적이고 일관되게 평가할 수 있는 표준화된 프레임워크가 필수적이다.
Approach: 논문은 entailment, coverage, decontextualization의 세 가지 핵심 요소를 기반으로 평가 프레임워크를 구성한다. Coverage 평가를 위해 문장을 검증 가능/불가능한 요소로 분해하는 element-level coverage를 제안하고, decontextualization 평가를 위해 fact-checking 시스템의 실제 결과 변화를 측정하는 outcome-based 접근을 도입한다. Claimify는 이 프레임워크를 적용하는 LLM 기반 방법으로, 문맥 내에서 올바른 해석을 확신할 수 없는 경우 claim 추출을 회피한다.

Achievement

Figure 1: Claimify stages

표준화된 평가 프레임워크 제안: entailment, coverage, decontextualization을 명확히 정의하고 자동화된 평가 방법 제시
Element-level coverage 도입: 기존 문장 단위 평가보다 세밀하게 claim의 정보 포함도를 측정하며, 검증 가능/불가능 요소를 구분
Outcome-based decontextualization 평가: fact-checking 시스템의 판정 변화를 기준으로 decontextualization을 객관적으로 평가
Claimify 방법 개발: 모호성을 인식하고 확신할 수 없는 경우 추출을 회피하는 능력을 갖춘 최초의 claim extraction 방법 제시
기존 방법 대비 성능 향상: 제안된 평가 프레임워크에서 Claimify가 기존 방법들을 능가함을 입증

Limitation & Further Study

Element-level coverage 평가를 위한 초기 요소 분해 단계가 여전히 수동 또는 휴리스틱 기반일 가능성
Outcome-based decontextualization 평가는 fact-checking 시스템의 성능에 의존하므로, 취약한 fact-checking 시스템에서는 평가의 신뢰성이 저하될 수 있음
Claimify의 ambiguity 회피 전략이 과도하게 보수적일 수 있어 coverage를 감소시킬 위험
평가 프레임워크의 자동화 방법이 human review를 통해 검증되었지만, 다양한 도메인 및 언어에 대한 일반화 가능성 미확인
후속 연구: element 분해의 자동화, 다국어 및 다양한 도메인에 대한 프레임워크 적용 및 성능 검증 필요