Generalization Bias in Large Language Model Summarization of Scientific Research

Motivation

Known: LLM 기반 AI 챗봇은 복잡한 과학 정보를 접근 가능한 용어로 신속하게 요약할 수 있어 과학 소통과 연구 지원의 잠재력을 보유하고 있음
Gap: LLM이 과학 텍스트를 요약할 때 원문의 일반화 수준을 정확하게 유지하는지, 아니면 과도하게 일반화하는지에 대한 체계적 검토가 부족함. 특히 의료 교육·임상 실무에서 LLM 사용이 증가하는 상황에서 이는 부적절한 치료법 처방 등의 위험을 초래할 수 있음
Why: 과학자와 과학 기자도 자주 과학 결과를 과장하는 경향이 있으나, LLM이 이 문제를 완화할지 악화할지 불명확함
Approach: 상위 저널(Science, Nature, NEJM, Lancet 등)의 초록과 전문 200개를 수집하여 10개 주요 LLM의 4,900개 요약을 생성하고, (1) 일반적 진술(generic generalization), (2) 현재형 일반화, (3) 행동 지침적 일반화의 3가지 유형의 과도 일반화를 분석

피험자 선정: 10개 LLM(GPT-3.5/4 Turbo, LLaMA 2 70B/3.3 70B, Claude 2/3.5/3.7 Sonnet, DeepSeek) 테스트. API 또는 웹 UI를 통해 접근하여 온도 설정 제어 능력 검토
텍스트 자료: 과학/의학 저널 초록 200개(각 100개) + 임상 연구 보고서 전문 100개. 초록을 주요 초점으로 설정하여 효율적 테스트
인코딩 체계: 3가지 과도 일반화 유형 정의
- Generic: 한정사(quantifier) 없이 전체 범주에 적용되는 현재형 진술
- 시제 변화: 과거형→현재형 변환으로 인한 시간적 범위 확대
- 행동 지침화: 기술적 진술→처방적 권고로의 전환
프롬프트 변수: (1) 기본 요약 요청, (2) "차근차근 생각하기(step-by-step)" 포함 프롬프트, (3) 부정확함 회피 명시 프롬프트
온도 설정: API 접근 시 온도 0(결정적)으로 400개 요약 수집, UI 접근 시 온도 0.7(기본값) 또는 공개되지 않은 기본값으로 대부분 수집하여 일반 사용자 경험 반영
통계 분석: 로지스틱 회귀 분석으로 원문 vs. LLM 요약의 일반화 결론 포함 확률 비교. 원문 대비 LLM 요약에서 일반화가 증가한 사례를 "전체적 알고리즘적 과도 일반화", 특정 원문에 일반화 없는데 요약에 있는 경우를 "특정적 알고리즘적 과도 일반화"로 정의
복제성 검증: 여러 모델의 재테스트를 통해 응답 안정성 확인

일반화 타당성의 정규범적 기준 부재: 연구는 원문을 규범적 기준으로 삼아 LLM의 이탈을 측정했으나, 원문 자체의 일반화가 과학적으로 정당한지는 평가하지 않음. 일부 과도 일반화는 효과적 과학 소통을 위해 필요할 수 있음
제한된 도메인: 과학·의학 저널 초록과 임상 연구 전문으로 국한. 다른 학문 분야(인문학, 사회과학 등)나 뉴스 기사 요약으로의 확대 필요
인코딩 신뢰도 검증 부족: 세 가지 일반화 유형의 코딩 신뢰도(inter-rater reliability)에 대한 명시적 보고 부재. 특히 "행동 지침화" 판단의 주관성
온도 설정 효과의 부분적 분석: UI 기반 모델의 정확한 온도 설정이 공개되지 않아, 온도 영향에 대한 완전한 분석 제한
프롬프트 효과의 제한적 완화: "차근차근 생각하기" 및 정확성 강조 프롬프트가 과도 일반화를 유의미하게 감소시키지 못함. 더 정교한 프롬프트 설계나 파인튜닝 전략 필요
후속 연구 방향:
- 다양한 학문 분야 및 언어권으로 확대 테스트
- 온도 0.1~1.0 범위에서 세밀한 온도 효과 분석
- 과학적으로 정당한 vs. 부정당한 일반화 구분을 위한 전문가 평가 도입
- 파인튜닝이나 검색 증강 생성(RAG) 등 기술적 완화 전략의 효과성 검증
- LLM 사용자의 과도 일반화 요약에 대한 인지적 영향 조사