Explainable biomedical claim verification with large language models

Motivation

Known: 생의학 주장 검증은 미세 조정된 자연어 추론(NLI) 모델을 통해 "Support", "Contradict", "Not Enough Information" 중 하나로 분류하는 표준 파이프라인을 따른다. LLM은 복잡한 의료 문서 처리와 전문 용어 해석에 효과적이다.
Gap: 의료·과학 도메인의 고위험 결정 상황에서 LLM의 투명성, 설명가능성, 신뢰성이 부족하다. 기존 Chain-of-Thought(CoT)는 일반적이며, 최종 분류까지의 의사결정 과정의 불투명성이 남아있다.
Why: 의료 분야의 실제 적용에서는 클리니션과 연구자가 모델의 추론 과정을 이해하고 결정에 참여할 수 있어야 신뢰 가능한 인간-AI 협업이 가능하다.
Approach: CoENLI(Chain of Evidence-based NLI) 프레임워크와 SHAP 설명가능성을 통합한 대화형 검증 시스템 개발. 사용자는 다중 LLM의 비교 분석, 생성된 근거 기반 설명, 단어 수준의 기여도 분석을 통해 최종 판단을 내린다.

How

그림 4: CoENLI 프레임워크의 3단계 추론 과정

시스템 워크플로우:

Step 1: 사용자가 검증할 주장(claim) 선택 → BM25 알고리즘으로 관련 과학 논문 검색
Step 2: 다중 LLM을 CoENLI 프레임워크로 평가 실행
- 의미 기반화: 주장의 핵심 용어 해석
- 증거 기반 평가: 연구에서 관련 사실 추출 후 주장의 각 요소 비교 평가
- 관계 예측: 생성된 해석과 평가를 기반으로 최종 분류
Step 3: SHAP 값으로 생성된 설명문의 단어별 기여도 시각화 (양수: 빨강, 음수: 파랑)
Step 4: 사용자가 분류 결과 검토 및 필요 시 조정, 모델이 조정 사유에 대한 정당화 생성

기술적 구성요소:

BM25 기반 문헌 검색
다중 LLM 통합 (비교 분석 제공)
CoENLI 프롬프트 엔지니어링
SHAP 설명가능성 모듈 (Mistral 모델 기반)

Limitation & Further Study

평가 완성도: 논문의 평가 섹션(Section 3)이 불완전하게 제시되어 NLI4CT, SciFact 벤치마크에서의 정량적 성능 비교 결과가 누락됨
사용성 검증 부재: 사용자 연구(user study)를 계획했으나 결과가 미포함. 실제 임상의나 연구자가 시스템을 사용했을 때의 신뢰도, 의사결정 개선도, 사용 편의성에 대한 평가 필요
확장성 한계: 현재는 NLI4CT와 SciFact 같은 특정 벤치마크에 제한. 다양한 의료 도메인(약물 상호작용, 부작용 예측 등)으로의 일반화 가능성 미검토
SHAP 계산 비용: SHAP 값 계산의 계산량(computational complexity)과 실시간 시스템 적용 가능성에 대한 논의 부재
후속 연구:
- 더 큰 규모의 사용자 연구를 통한 신뢰도 및 의사결정 질 개선 검증
- 더 넓은 의료 주장 유형 및 복잡도에 대한 CoENLI 성능 평가
- 증거 종합(evidence synthesis) 프레임워크로의 통합 및 임상 워크플로우 적용

같이 보면 좋은 논문

기반 연구

HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation

328 논문의 설명가능성 접근에는 399번 논문처럼 증거 중심 질의증강이나 설명적 증명 설계의 원리가 영향을 미칩니다.

기반 연구

Agentreview: Exploring peer review dynamics with llm agents

328번 논문은 바이오메디컬 주장 검증에서 LLM 활용 및 설명성 문제를 다루어, 070번 리뷰 편향 탐지와 같은 메타과학 실험 연구의 기반이 됩니다.

기반 연구

Grounding fallacies misrepresenting scientific publications in evidence

바이오메디컬 주장 검증에 LLM·지식 그래프 활용이라는 동일한 문제의 설명가능성 강조 접근입니다.

기반 연구

DEFAME: Dynamic Evidence-based Fact-checking with Multimodal Experts

267은 멀티모달 근거 기반 팩트체킹 데이터셋 및 프레임워크로, 328의 의료 주장 검증 시스템과 다양한 소스 통합 측면에서 기술적 토대가 됩니다.

다른 접근

Fact-checking complex claims with program-guided reasoning

332번 논문은 프로그램 기반 reasoning을 활용한 과학적 주장 fact-checking으로, 328번의 SHAP+LLM 기반 검증법의 대안적 접근법을 제공한다.

다른 접근

Factkg: Fact verification via reasoning on knowledge graphs

지식 그래프와 LLM을 활용한 바이오메디컬 사실 검증에 초점을 맞추어, FACTKG의 일반적 사실성 검증을 도메인 특화로 확장한 사례입니다.

다른 접근

Claimver: Explainable claim-level verification and evidence attribution of text through knowledge graphs

221은 지식 그래프 기반 설명형 팩트 검증을 제시하여, 328의 LLM+SHAP 중심 접근과 상이한 설명가능성 구현 사례가 됩니다.

다른 접근

What makes medical claims (un) verifiable? analyzing entity and relation properties for fact verification

Explainable biomedical claim verification with large language models 논문은 의생명 주장 검증 문제에서 LLM 기반 설명 가능성에 초점을 맞춰, 880의 검증 가능성 요인분석과 상호보완적 시각을 제공한다.

다른 접근

Scicueval: A comprehensive dataset for evaluating scientific context understanding in large language models

설명 가능한 바이오메디컬 claim 검증이란 시각에서, NER 기반 context 이해와 claim verification을 연계한 실질적 응용을 다룹니다.

다른 접근

A retrieval-augmented knowledge mining method with deep thinking LLMs for biomedical research and clinical support

328 'Explainable biomedical claim verification with large language models'는 이론적 지식 그래프 접근에 집중한 018과 달리, LLM 기반 설명가능성 프레임워크로 과학적 주장 검증 문제를 해결하므로 방법론 비교에 적합합니다.

다른 접근

WaveFormer: Wavelet Embedding Transformer for Biomedical Signals

Explainable biomedical claim verification은 바이오 데이터를 LLM으로 해석하는 접근법을 보여주어 WaveFormer와 신호 해석 맥락에서 비교된다.

후속 연구

Multivers: Improving scientific claim verification with weak supervision and full-document context

Explainable biomedical claim verification with large language models 논문은 claim verification에서 설명가능성을 강조하며, Multivers 개념의 확장에 기여할 수 있다.

후속 연구

Factkg: Fact verification via reasoning on knowledge graphs

333은 과학적 팩트 검증을 위해 지식 그래프 추론을 활용하는데, 328의 LLM 기반 도메인 특화 검증 방법에 보완/확장의 역할을 합니다.

후속 연구

Enhancing natural language inference performance with knowledge graph for covid-19 automated fact-checking in indonesian language

바이오메디컬 영역에서 LLM 활용 팩트체킹 프레임워크 확장 및 다양한 외부 지식 활용법을 다룬다.