Generalization Bias in Large Language Model Summarization of Scientific Research

์ €์ž: Uwe Peters, Benjamin Chin-Yee | ๋‚ ์งœ: 2025-03-28 | DOI: 10.48550/arXiv.2504.00025 📄 PDF


Essence

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์ด ๊ณผํ•™ ์—ฐ๊ตฌ๋ฅผ ์š”์•ฝํ•  ๋•Œ ์›๋ฌธ๋ณด๋‹ค ๊ณผ๋„ํ•˜๊ฒŒ ๊ด‘๋ฒ”์œ„ํ•œ ๊ฒฐ๋ก ์„ ๋„์ถœํ•˜๋Š” ์ฒด๊ณ„์ ์ธ ํŽธํ–ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐ, ์ด๋Š” ๋Œ€๊ทœ๋ชจ ๊ณผํ•™ ์˜ค๋…์˜ ์œ„ํ—˜์„ ์ดˆ๋ž˜ํ•œ๋‹ค. 10๊ฐœ์˜ ์ฃผ์š” LLM์„ ๋Œ€์ƒ์œผ๋กœ 4,900๊ฐœ์˜ ์š”์•ฝ์„ ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ, LLM ์š”์•ฝ์ด ์ธ๊ฐ„ ์ž‘์„ฑ ์š”์•ฝ๋ณด๋‹ค ์•ฝ 5๋ฐฐ ๋” ๋†’์€ ํ™•๋ฅ ๋กœ ๊ณผ๋„ํ•œ ์ผ๋ฐ˜ํ™”๋ฅผ ํฌํ•จํ–ˆ๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: LLM๋ณ„ ์ ‘๊ทผ ๋ฐฉ์‹(API, UI), ํ”„๋กฌํ”„ํŠธ, ์˜จ๋„ ์„ค์ •์— ๋”ฐ๋ฅธ ์š”์•ฝ ๊ฒ€์ƒ‰ ์ˆ˜ ๊ฐœ์š”

  1. ๊ด‘๋ฒ”์œ„ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์  ๊ณผ๋„ ์ผ๋ฐ˜ํ™” ๋ฐœ๊ฒฌ: DeepSeek, ChatGPT-4o, LLaMA 3.3 70B๊ฐ€ ๊ฐ๊ฐ 26~73% ๋ฒ”์œ„์—์„œ ๊ณผ๋„ ์ผ๋ฐ˜ํ™”๋ฅผ ๋‚˜ํƒ€๋ƒˆ์œผ๋ฉฐ, ๋ช…์‹œ์  ์ •ํ™•์„ฑ ์š”์ฒญ ํ”„๋กฌํ”„ํŠธ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ด ํ˜„์ƒ์ด ์ง€์†๋จ
  2. LLM ๋Œ€ ์ธ๊ฐ„ ๋น„๊ต: LLM ์š”์•ฝ์ด ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ์š”์•ฝ(NEJM Journal Watch)๋ณด๋‹ค ๊ด‘๋ฒ”์œ„ํ•œ ์ผ๋ฐ˜ํ™”๋ฅผ ํฌํ•จํ•  ํ™•๋ฅ ์ด ์•ฝ 5๋ฐฐ ๋†’์Œ(OR = 4.85, 95% CI [3.06, 7.70], p < 0.001)
  3. ์—ญ์„ค์  ๋ชจ๋ธ ์„ฑ๋Šฅ ์ถ”์„ธ: ์ƒˆ๋กœ์šด ๋ชจ๋ธ๋“ค(2025๋…„ 3์›” ํ…Œ์ŠคํŠธ)์ด ๊ธฐ์กด ๋ชจ๋ธ๋“ค(2024๋…„ 1์›”)๋ณด๋‹ค ์ผ๋ฐ˜ํ™” ์ •ํ™•๋„์—์„œ ๋” ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์ž„. ์ด๋Š” ๋ชจ๋ธ ์—…๋ฐ์ดํŠธ๊ฐ€ ๋ฐ˜๋“œ์‹œ ๋‹ค์–‘ํ•œ ๊ณผ์ œ์—์„œ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์œผ๋กœ ์ด์–ด์ง€์ง€ ์•Š์Œ์„ ์‹œ์‚ฌ

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์š”์•ฝ์˜ ๊ณผ๋„ ์ผ๋ฐ˜ํ™” ํŽธํ–ฅ์„ ์ฒ˜์Œ์œผ๋กœ ๋Œ€๊ทœ๋ชจ ์‹ค์ฆ์ ์œผ๋กœ ์ž…์ฆํ•œ ์ค‘์š”ํ•œ ์—ฐ๊ตฌ์ด๋ฉฐ, ํŠนํžˆ ์˜๋ฃŒยท๊ณต์ค‘๋ณด๊ฑด ์˜์—ญ์—์„œ์˜ LLM ์‹ ๋ขฐ์„ฑ์— ๋Œ€ํ•œ ์ค‘๋Œ€ํ•œ ์šฐ๋ ค๋ฅผ ์ œ๊ธฐํ•œ๋‹ค. ๋‹ค๋งŒ ์ผ๋ฐ˜ํ™” ํƒ€๋‹น์„ฑ์˜ ๊ทœ๋ฒ”์  ๊ธฐ์ค€ ๋ถ€์žฌ, ์™„ํ™” ์ „๋žต์˜ ํšจ๊ณผ ๊ฒ€์ฆ ๋ฏธํก, ์ธ์ฝ”๋”ฉ ์‹ ๋ขฐ๋„ ๋ณด๊ณ  ๋ถ€์กฑ ๋“ฑ์ด ๊ธฐ์ˆ ์  ๊ฐ•๊ฑด์„ฑ์„ ๋‹ค์†Œ ์ œ์•ฝํ•˜๋ฉฐ, ์ถ”๊ฐ€ ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•œ ๋ณด์™„์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
812 ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋ฌธ์„œ ์š”์•ฝ(Extreme Summarization)์˜ LLM ํ•œ๊ณ„์™€ ์˜ค๋ฅ˜ ์–‘์ƒ์„ ๋ถ„์„ํ•ด, 373์— ์ง€์ ๋œ ๊ณผ๋„ํ•œ ์ผ๋ฐ˜ํ™” ํŽธํ–ฅ์˜ ์›์ธ์„ ๊ทœ๋ช…ํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹ค์ค‘ ๋…ผ๋ฌธ ์š”์•ฝ์„ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์‹ค์ œ ์ง€์‹ ๊ตฌ์กฐํ™”, ํ‰๊ฐ€ ๋ฐฉ์‹์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ๋ฐ ํŽธํ–ฅ ๋ถ„์„์˜ ์‹ค์ฆ ์—ฐ๊ตฌ๊ฐ€ LLM ์š”์•ฝ ์ผ๋ฐ˜ํ™” ํŽธํ–ฅ ๋…ผ๋ฌธ์— ํ‰๊ฐ€ ์ฒด๊ณ„๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฌผ๋ฆฌํ•™ LLM ํ‰๊ฐ€(697)์˜ ๊ทœ์น™ ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ ๋…ผ์˜๊ฐ€ ๊ณผํ•™ ์š”์•ฝ ์ผ๋ฐ˜ํ™” ํŽธํ–ฅ(373)๊ณผ LLM ํ‰๊ฐ€๋ฐฉ์‹ ๋Œ€๋น„์— ์ด๋ก ์  ํ† ๋Œ€๊ฐ€ ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Generalization Bias in Large Language Model Summarization ๋…ผ๋ฌธ์€ LLM์˜ ์ž๋™์ƒ์„ฑ ํ…์ŠคํŠธ์˜ ์งˆ์  ํ•œ๊ณ„์™€ ์ผ๋ฐ˜ํ™” ํŽธํ–ฅ์„ ์‹ค์ฆ์ ์œผ๋กœ ์ธก์ •ํ•˜์—ฌ, ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๊ธฐ๋ฒ•์˜ ์‹ค์ œ ์ ์šฉ๊ณผ ํ•œ๊ณ„๋ฅผ ๋ณด์™„์ ์œผ๋กœ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Generating a structured summary of numerous academic papers ๋…ผ๋ฌธ์€ ๊ณผํ•™๋ฌธํ—Œ ์ž๋™ ์š”์•ฝ์˜ ๋Œ€์ฒด์ ์ธ ์ ‘๊ทผ๋ฒ• ๋ฐ ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋…ผ๋ฌธ ์ž๋™ ์š”์•ฝ์˜ ์ •ํ™•๋„์™€ ํŽธํ–ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•™์ˆ  ๋…ผ๋ฌธ ์š”์•ฝ ์ž๋™ํ™”์˜ ํ’ˆ์งˆ๊ณผ ํ•œ๊ณ„๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์š”์•ฝ์ด ๊ณผ๋„ํ•˜๊ฒŒ ์ผ๋ฐ˜ํ™”๋˜๊ฑฐ๋‚˜ ๋‚ด์šฉ ๋‹ค์–‘์„ฑ์ด ๊ฐ์†Œํ•จ์„ ๊ฐ๊ฐ ์‹ค์ฆ์ ์œผ๋กœ ๋ฐํ˜€, ๊ฒฐ๊ณผ ํ•ด์„๊ณผ ๋ณด์™„ ๋Œ€์ฑ… ๋…ผ์˜๊ฐ€ ์ƒํ˜ธ ๋ณด์™„์ ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ๊ณผํ•™ ๋ฌธํ—Œ ์š”์•ฝ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋‹ค๋ฅธ ์œ ํ˜•์˜ ํŽธํ–ฅ์„ ๋ถ„์„ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ์ƒ์„ฑ ์š”์•ฝ์˜ ๊ณผ๋„ํ•œ ์ผ๋ฐ˜ํ™” ๋ฐ ์˜ค๋ฅ˜๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ๊ณผํ•™์  ์ฃผ์žฅ ์ƒ์„ฑ์—์„œ์˜ ํŽธํ–ฅ๊ณผ ์ •ํ™•์„ฑ์„ ๋ถ„์„ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ ํ•™์ˆ  ๋ฐ์ดํ„ฐ ์š”์•ฝยท์ •๋ ฌ๊ณผ LLM์˜ ์ธ์šฉยท์ง€์‹ ๋‚ด๋ถ€ํ™” ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ๋น„๊ต ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™์  ๋ฐœ๊ฒฌ ๋ฐ ์š”์•ฝ ๊ณผ์ •์—์„œ LLM์˜ ์ถ”๋ก  ํŽธํ–ฅ, ์ผ๋ฐ˜ํ™”, ํ‰๊ฐ€ ๋ฌธ์ œ๋ฅผ ๊ฐ๊ฐ ๋‹ค๋ฅธ ๊ด€์ ์œผ๋กœ ๋ถ„์„ํ•˜๋ฉฐ ์ƒํ˜ธ๋ณด์™„์  ์‹œ๊ฐ์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์ž๋™ํ™” ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ์œ ์‚ฌํ•œ ํ˜‘์—… ๊ตฌ์กฐ๋ฅผ ํƒ๊ตฌํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์š”์•ฝ ๋“ฑ ์ง‘๋‹จ์ง€์„ฑ ํ˜‘๋ ฅ์—์„œ ๋‚˜ํƒ€๋‚˜๋Š” ์ผ๋ฐ˜ํ™” ํŽธํ–ฅ ํ˜„์ƒ๊นŒ์ง€ ์—ฐ๊ตฌ๋ฅผ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
414 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๊ธ€์“ฐ๊ธฐยท์š”์•ฝ ํ™œ์šฉ์ด ์ธ๊ฐ„ ์ž‘์„ฑ๊ณผ ๋น„๊ตํ•ด ๊ตฌ์กฐ์ ยท๋‚ด์šฉ์  ์™œ๊ณก์„ ์œ ๋ฐœํ•จ์„ ์‹ค์ฆ, 373์˜ ๊ฒฐ๋ก (์˜ค๋… ์œ„ํ—˜์„ฑ)์„ ์‚ฌํšŒ์  ์ฐจ์›์—์„œ ํ™•์žฅ ๋ถ„์„ํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLM์˜ ์ž๊ธฐ๊ฐœ์„  ๋ฐ ๊ฒ€์ฆ ๋Šฅ๋ ฅ ์—ฐ๊ตฌ๊ฐ€ ์‹ค์ œ ๊ณผํ•™ ์š”์•ฝ์˜ ์ผ๋ฐ˜ํ™” ํŽธํ–ฅ ์‹ค์‚ฌ๋ก€(Generalization Bias)์™€ ์—ฐ๊ฒฐ๋œ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
Shallow synthesis of knowledge in gpt-generated texts ๋…ผ๋ฌธ์€ LLM์˜ ๊ณผ๋„ํ•œ ์ผ๋ฐ˜ํ™” ๋ฐ ์–•์€ ์ง€์‹ ๊ฒฐํ•ฉ ๊ฒฝํ–ฅ์„ ์‹ค์ฆ์ ์œผ๋กœ ๋ถ„์„ํ•ด Generalization Bias ๋…ผ๋ฌธ์˜ ๊ฒฐ๋ก ์„ ํ™•์žฅํ•˜๊ณ  ๋…ผ์˜์— ๊นŠ์ด๋ฅผ ๋”ํ•œ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ์˜ ๋‹ค๋‹จ๊ณ„/ํ˜‘์—… ๊ธฐ๋ฐ˜ ์ •๋ฐ€ ์š”์•ฝ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด, 373๋ฒˆ ๋…ผ๋ฌธ์˜ ๊ณผ๋„์ผ๋ฐ˜ํ™” ๋ฌธ์ œ์— ๋Œ€ํ•œ ์‹œ์Šคํ…œ์  ๊ฐœ์„ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
OARelatedWork๊ฐ€ ์ „์ฒด ๋…ผ๋ฌธ ๋ณธ๋ฌธ์œผ๋กœ ์š”์•ฝ์„ ์‹œ๋„ํ•˜๋Š”๋ฐ ๋ฐ˜ํ•ด, 373์€ LLM ์š”์•ฝ์˜ ์ผ๋ฐ˜ํ™” ํŽธํ–ฅ ๋ฌธ์ œ ๋“ฑ ํ•œ๊ณ„๋ฅผ ๋น„ํŒ์ ์œผ๋กœ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •