What makes medical claims (un) verifiable? analyzing entity and relation properties for fact verification

Motivation

Known: 선행 연구에 따르면 깔끔하게 추출된 주장이 사용자 생성 콘텐츠의 주장보다 검증에 더 강건하다는 것이 알려져 있음
Gap: 생의학 주장의 어떤 속성이 검증 가능성(verifiability)에 영향을 미치는지에 대한 체계적 이해가 부족하며, 엔티티-관계 주석과 검증 결과를 동시에 포함하는 코퍼스가 존재하지 않음
Why: 사실 검증 시스템의 성능 향상을 위해서는 검증 불가능한 주장의 특성을 파악하는 것이 필수적임
Approach: 훈련된 주석자들이 PubMed에서 증거를 찾는 과정을 관찰하고, 엔티티-관계 패턴과 검증 가능성 간의 연관성을 분석하며, 중중 전문가와 일반인의 주석 품질을 비교

다중 주장을 포함하는 트윗에서 검증 결과의 쌍별 공존 관계

BEAR-FACT 코퍼스 구축: 1,448개의 사실 검증된 생의학 주장, 증거 문서, 구조화된 엔티티/관계 정보를 포함하는 첫 번째 트위터 데이터셋 제시 (30.9%가 검증 불가능)
부정 관계의 검증 어려움: 긍정 관계(예: cause-of)를 포함한 주장이 부정 관계(not-cause-of)보다 더 쉽게 검증되며, 더 높은 비율로 SUPPORTED 판정을 받음을 발견
주석자 행동 패턴: 사용자들이 주로 엔티티를 표준명으로 정규화하고 검색 쿼리에 제약조건을 추가하는 방식으로 검색을 개선함을 관찰
도메인 전문성의 영향 제한: 의료 전문가와 일반인 간 주석 신뢰도에 유의미한 차이가 없음을 확인
검증 가능성 예측: RoBERTa 모델을 미세조정하여 검증 가능한 주장 예측은 .82 F1로 높은 성능을 보였으나, 검증 불가능한 주장 탐지는 .27 F1로 저조함

주장의 관계 및 엔티티 유형에 따른 검증 결과 분포

데이터 구축: BEAR 코퍼스(생의학 엔티티-관계 주석이 포함된 트윗)에서 주장을 포함하며 의료 관계를 가진 646개 문서 선별 → 엔티티-관계-엔티티 삼중항(triplet) 추출 → 수동 필터링 및 문법 수정을 통해 1,532개 주장 확보
주석 과정: 2명의 훈련된 주석자가 PubMed를 사용하여 각 주장에 대해 증거 탐색 → 초기 쿼리(AND 연산자로 연결된 엔티티)에서 시작 → 최대 3분간 쿼리 개선 → 증거 발견 시 PMID 및 관련 문장 기록, 미발견 시 UNVERIFIABLE 레이블 부여
평가 메트릭: 검증 결과 판정에 대한 Cohen's κ 스코어 (완벽한 일치=1.0), 증거 문서 검색에 대한 Jaccard 유사도 계산
모델 실험: RoBERTa 미세조정을 통한 검증 가능성 분류 수행

시간 제약의 영향: 검증 불가능 판정이 3분 시간 제한에 의해 편향될 수 있으며, 실제로는 더 오래 찾으면 증거가 있을 수 있음 (주석자의 'evidence exists confidence' 점수로 부분 보정)
낮은 검증 불가능 예측 성능: 검증 불가능한 주장 탐지의 F1이 .27에 불과해 실제 응용에는 제한적 (검증 가능한 주장은 .82 F1)
코퍼스 규모: 1,532개 중 1,448개만 완성하여 리소스 부족으로 인한 미완성 상태
증거 문서 일치도 저조: 동일 검증 결과에서도 Jaccard 유사도가 0.29에 불과해 주석자 간 증거 선택의 다양성이 높음
후속 연구 방향: (1) 더 정교한 언어모델을 활용한 검증 불가능 판정 개선, (2) 부정 관계 처리를 위한 특화된 방법론 개발, (3) 크라우드소싱 규모 확대를 통한 신뢰도 검증, (4) 다언어 생의학 주장 검증 확대