TLDR: Extreme Summarization of Scientific Documents

์ €์ž: Isabel Cachola, Kyle Lo, Arman Cohan, Daniel S. Weld | ๋‚ ์งœ: 2020 | DOI: 10.48550/ARXIV.2004.15011 📄 PDF


Essence

๊ณผํ•™ ๋…ผ๋ฌธ์˜ ๊ทน๋‹จ์  ์š”์•ฝ(TLDR: Too Long; Didn't Read) ์ƒ์„ฑ ๋ฌธ์ œ๋ฅผ ์ œ์‹œํ•˜๊ณ , 5.4K๊ฐœ์˜ TLDR์„ ํฌํ•จํ•œ SCITLDR ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ œ๋ชฉ์„ ๋ณด์กฐ ์‹ ํ˜ธ๋กœ ํ™œ์šฉํ•˜๋Š” CATTS ํ•™์Šต ์ „๋žต์„ ์ œ์•ˆํ•œ๋‹ค.

Motivation

Achievement

์ƒˆ ๊ณผ์ œ์™€ ๋ฐ์ดํ„ฐ์…‹ ์ •์˜: TLDR ์ƒ์„ฑ์„ ์ •์˜ํ•˜๊ณ  3.2K๊ฐœ ๋…ผ๋ฌธ์— 5.4K๊ฐœ TLDR์„ ํฌํ•จํ•œ SCITLDR ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•. ํ˜์‹ ์  ์–ด๋…ธํ…Œ์ด์…˜ ํ”„๋กœํ† ์ฝœ: ์ „์ฒด ๋…ผ๋ฌธ ์ฝ๊ธฐ ๋ถ€๋‹ด ์—†์ด ๋†’์€ ํ’ˆ์งˆ์˜ expert-derived TLDR ์ˆ˜์ง‘ ๊ฐ€๋Šฅ. ํšจ๊ณผ์  ํ•™์Šต ์ „๋žต: CATTS๋Š” ์ œ๋ชฉ์„ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ณด์กฐ ์‹ ํ˜ธ๋กœ ํ™œ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ ์™„ํ™”. ํ‰๊ฐ€ ๊ฐœ์„ : ์ž๋™ ํ‰๊ฐ€์™€ ์ธ๊ฐ„ ํ‰๊ฐ€์—์„œ ๊ฐ•ํ•œ ๋ฒ ์ด์Šค๋ผ์ธ ๋Œ€๋น„ ๊ฐœ์„  ๋‹ฌ์„ฑ ๋ฐ ์ •๋ณด์„ฑ๊ณผ ์‚ฌ์‹ค์„ฑ์— ๋Œ€ํ•œ ์ƒ์„ธ ๋ถ„์„.

How

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 5/5 Overall: 4/5

์ดํ‰: TLDR ์ƒ์„ฑ์„ ์ƒˆ๋กœ์šด ๊ณผ์ œ๋กœ ์ •์˜ํ•˜๊ณ  ํ˜์‹ ์  ์–ด๋…ธํ…Œ์ด์…˜ ํ”„๋กœํ† ์ฝœ๋กœ ๊ณ ํ’ˆ์งˆ ๋‹ค์ค‘ ํƒ€๊ฒŸ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•œ ์ , ๊ทธ๋ฆฌ๊ณ  ์ œ๋ชฉ์„ ํ™œ์šฉํ•œ CATTS ์ „๋žต์ด ๊ธฐ์ˆ ์ ์œผ๋กœ ํƒ€๋‹นํ•˜๊ณ  ์‹ค์ฆ์  ๊ฐœ์„ ์„ ๋ณด์—ฌ์ค€ ์ ์—์„œ ์šฐ์ˆ˜ํ•˜๋‚˜, ๋‹จ์ผ ๋ถ„์•ผ ์ œํ•œ๊ณผ ๋ฐฉ๋ฒ•๋ก ์˜ ๋ณต์žก์„ฑ ๋ถ„์„ ๋ถ€์กฑ์ด ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
707๋ฒˆ SciBERT๋Š” ๊ณผํ•™ ๋…ผ๋ฌธ ํ…์ŠคํŠธ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ๋กœ, 812๋ฒˆ์—์„œ ๊ณผํ•™ ๋…ผ๋ฌธ ์š”์•ฝ์„ ์œ„ํ•œ ๊ธฐ๋ณธ ๋ชจ๋ธ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์–ด ์ด๋ก ์  ๊ธฐ์ดˆ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ฆ๊ฐ• ์–ธ์–ด๋ชจ๋ธ ์„œ๋ฒ ์ด๋Š” ๋…ผ๋ฌธ ์š”์•ฝ ๋ฐ ํ•™์ˆ ๋ฌธ์„œ ์ฒ˜๋ฆฌ์— LLM ๋„๊ตฌ ๊ฒฐํ•ฉ์˜ ์ด๋ก ์ /๊ธฐ์ˆ ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
TLDR(812)์€ ๊ณผํ•™ ๋…ผ๋ฌธ์˜ ๊ทนํ•œ ์š”์•ฝ์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ด, Lay summary ๋Œ€๋Ÿ‰ ์ž๋™ํ™”์˜ ๊ธฐ์ดˆ ์ž๋ฃŒ๋กœ ์ง์ ‘์ ์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
812 ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋ฌธ์„œ ์š”์•ฝ(Extreme Summarization)์˜ LLM ํ•œ๊ณ„์™€ ์˜ค๋ฅ˜ ์–‘์ƒ์„ ๋ถ„์„ํ•ด, 373์— ์ง€์ ๋œ ๊ณผ๋„ํ•œ ์ผ๋ฐ˜ํ™” ํŽธํ–ฅ์˜ ์›์ธ์„ ๊ทœ๋ช…ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MS2๋Š” ์˜๋ฃŒ ์—ฐ๊ตฌ์˜ ๋ฉ€ํ‹ฐ ๋„ํ๋จผํŠธ ์š”์•ฝ ์ž‘์—…์— ํŠนํ™”๋œ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ, SciTLDR๊ณผ ์ƒ์ดํ•œ ๋„๋ฉ”์ธ์—์„œ ์š”์•ฝ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
TLDR ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋…ผ๋ฌธ์˜ ์ž๋™ ์š”์•ฝ์— ๋Œ€ํ•œ ๋‹ค์–‘ํ•œ ์ ‘๊ทผ๋ฒ•์„ ์ œ์•ˆํ•ด SciReviewGen์˜ ์ž๋™ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋Œ€์กฐํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
HLM-Cite ๋…ผ๋ฌธ์€ ์ธ์šฉ ์˜ˆ์ธก์„, TLDR ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ์š”์•ฝ์„ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์—์„œ ์ž๋™ํ™”ํ•˜๋Š” ๋Œ€์•ˆ ์ž‘์—…์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Llms for literature review ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋…ผ๋ฌธ ์š”์•ฝ ์ž๋™ํ™”์˜ ์‹ค์šฉ์  ํ•œ๊ณ„ ๋ฐ ๋Œ€์•ˆ ํ™œ์šฉ ๋ฐฉ๋ฒ•์„ ๋น„ํŒ์ ์œผ๋กœ ๊ฒ€ํ† ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ƒ์„ฑ์ด๋‚˜ ๋ฆฌ๋ทฐ ์‹œ์Šคํ…œ์˜ ํ•œ๊ณ„๋ฅผ ํƒ๊ตฌํ•˜๋Š” AI ์ž‘๋ฌธ ์—ฐ๊ตฌ๋กœ, ์ž๋™ ์š”์•ฝ์˜ ์ ์šฉ ํŒ๋ณ„์— ์ฐธ๊ณ ํ•  ๋งŒํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Surveyforge ๋…ผ๋ฌธ์€ ๊ธด ๋งฅ๋ฝ ๊ตฌ์กฐ์™€ ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜ ์š”์•ฝ์„ ํ†ตํ•ด SciTLDR ๋ฐ TLDR ์ž‘์—…๊ณผ ์ƒํ˜ธ๋ณด์™„์ ์ธ ๋Œ€์•ˆ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
812๋Š” ๊ณผํ•™ ๋ฌธ์„œ ์š”์•ฝ ๋ฐ ๊ฒฐ๊ณผ ๋ถ„์„์—์„œ LLM ํ™œ์šฉ์„ ๊ฐ•์กฐ, 774์˜ ์…€ํ”„-์—๋ณผ๋น™ ๋ฐ”์ด์˜ค์˜ํ•™ ์—์ด์ „ํŠธ ์ ‘๊ทผ๊ณผ ์ƒˆ๋กœ์šด ๋น„๊ต์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Generating a structured summary of numerous academic papers ๋…ผ๋ฌธ์€ ๊ณผํ•™๋ฌธํ—Œ ์ž๋™ ์š”์•ฝ์˜ ๋Œ€์ฒด์ ์ธ ์ ‘๊ทผ๋ฒ• ๋ฐ ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
812๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋…ผ๋ฌธ ์š”์•ฝ ๋“ฑ ๋ฌธํ—Œ ์ •๋ณด ๋ถ„์„ ์ž๋™ํ™” ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ์–ด, Robin ์‹œ์Šคํ…œ์˜ ๋ฌธํ—Œ ์—์ด์ „ํŠธ ์—ญํ•  ๋ฐ ํ•œ๊ณ„์™€ ๋Œ€๋น„ํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
563๋ฒˆ ๋…ผ๋ฌธ์€ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜์˜ ๊ณผํ•™์  ๋ฌธ์„œ ๋‹ค์ค‘ ๋ฌธ์„œ ์š”์•ฝ์— ์ดˆ์ ์„ ๋งž์ถฐ, 812๋ฒˆ ๊ทน๋‹จ์  ์š”์•ฝ(TLDR) ์—ฐ๊ตฌ๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Generating a structured summary of numerous academic papers ๋…ผ๋ฌธ์€ TLDR์™€ ์œ ์‚ฌํ•˜๊ฒŒ ๋Œ€๋Ÿ‰ ๋ฌธ์„œ ๊ทน๋‹จ ์š”์•ฝ์˜ ์‹ค์งˆ์  ํ™•์žฅ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
812๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋…ผ๋ฌธ ๋“ฑ ์žฅ๋ฌธ์„œ ์ถ”์ถœ ์š”์•ฝ์„ ์œ„ํ•œ Extreme Summarization ์ ‘๊ทผ๋ฒ•์„ ์ œ์•ˆํ•˜์—ฌ, 399๋ฒˆ์˜ ํ…Œ์ด๋ธ”-ํ…์ŠคํŠธ ์ฆ๊ฑฐ ๊ฐ•์กฐ ์ „๋žต์— ์‹ค์ œ ๋‹ค์ค‘๋ชจ๋‹ฌ ์š”์•ฝ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋”ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Glimpse๋Š” ๋‹ค์ˆ˜ ๋…ผ๋ฌธ์˜ ์ •๋ณด์  ์š”์•ฝ์— ์ดˆ์ ์„ ๋งž์ถ”์–ด TLDR ์—ฐ๊ตฌ์˜ ์š”์•ฝ ์ „๋žต์„ ์‹ค์งˆ์ ์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
WikiSplit๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ๋Œ€๊ทœ๋ชจ ๊ณผํ•™ ๋ฌธ์„œ ์š”์•ฝ์ž‘์—… ๋ฐ ๋ณต์žก ๋ฌธ์žฅ ๋ถ„ํ• -์žฌํ‘œํ˜„ ์„ฑ๋Šฅ ํ‰๊ฐ€์— ํ™œ์šฉ๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ณผํ•™ ๋…ผ๋ฌธ ์š”์•ฝ ๋“ฑ ์‹ค์ œ ๋…ผ๋ฌธ ๊ธฐ๋ฐ˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ถ”๋ก  ๊ฒฐ๊ณผ ์š”์•ฝ, ํŠนํžˆ LLM์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ง€์‹์„ ์–ด๋–ป๊ฒŒ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
812๋Š” ๊ณผํ•™ ๋ฌธ์„œ ์š”์•ฝ ๋ชจ๋ธ์„ ํ†ตํ•ด 593์˜ RAG ๊ธฐ๋ฐ˜ ํ•™์ˆ  ์‘๋‹ต ์ƒ์„ฑ์˜ ์‹ค์ œ ํ™œ์šฉ/์ ์šฉ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
501์˜ ๋‹ค์ค‘์—์ด์ „ํŠธ ์ฝ”ํŒŒ์ผ๋Ÿฟ์€ 812์—์„œ ๋‹ค๋ฃจ๋Š” AI๋ฅผ ํ™œ์šฉํ•œ ์‹คํ—˜ ์š”์•ฝ, ํ•ด์„, ์ž๋™ํ™”์™€ ์ง์ ‘์ ์ธ ์—ฐ๊ฒฐ์ ์„ ์ง€๋‹Œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •