OARelatedWork: A large-scale dataset of related work sections with full-texts from open access sources

์ €์ž: Martin Docekal, Martin Fajcik, Pavel Smrz | ๋‚ ์งœ: 2024 | DOI: arXiv:2405.01930 📄 PDF


Essence

Figure 1

์ „์ฒด ๊ด€๋ จ ์—…๋ฌด(Related Work) ์„น์…˜์„ ์ธ์šฉ๋œ ๋…ผ๋ฌธ๋“ค๊ณผ ๋Œ€์ƒ ๋…ผ๋ฌธ์˜ ์ „์ฒด ํ…์ŠคํŠธ๋กœ๋ถ€ํ„ฐ ์ƒ์„ฑํ•˜๋Š” ํƒœ์Šคํฌ

๋ณธ ๋…ผ๋ฌธ์€ ์˜คํ”ˆ ์•ก์„ธ์Šค ๋…ผ๋ฌธ์˜ ์ „์ฒด ํ…์ŠคํŠธ๋ฅผ ํฌํ•จํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ๊ด€๋ จ ์—…๋ฌด ์ƒ์„ฑ ๋ฐ์ดํ„ฐ์…‹ OARelatedWork๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, ์ดˆ๋ก(abstract)๋งŒ ์‚ฌ์šฉํ•˜๋Š” ๊ธฐ์กด ๋ฐฉ์‹์—์„œ ๋ฒ—์–ด๋‚˜ ์ „์ฒด ์ฝ˜ํ…์ธ ๋ฅผ ํ™œ์šฉํ•œ ๋‹ค์ค‘ ๋ฌธ์„œ ์š”์•ฝ ์—ฐ๊ตฌ๋ฅผ ์ถ”์ง„ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๋ฌธํ—Œ์˜ ๊ณ„์ธต ๊ตฌ์กฐ ํŒŒ์‹ฑ ์˜ˆ์‹œ: ๋‚ด๋ถ€ ๋ฒˆํ˜ธ ๋งค๊ธฐ๊ธฐ์™€ ์•ต์ปค ์ƒ์„ฑ ๋‹จ๊ณ„

  1. ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: 94,450๊ฐœ์˜ ๊ด€๋ จ ์—…๋ฌด ์„น์…˜๊ณผ 5,824,689๊ฐœ์˜ ๊ณ ์œ  ์ฐธ์กฐ ๋…ผ๋ฌธ์„ ํฌํ•จํ•œ ์ฒซ ๋ฒˆ์งธ ์ „์ฒด ๊ด€๋ จ ์—…๋ฌด ์ƒ์„ฑ ๋ฐ์ดํ„ฐ์…‹ ์™„์„ฑ
  2. ์„ฑ๋Šฅ ํ–ฅ์ƒ ์‹ค์ฆ: ์ถ”์ƒ์  ์š”์•ฝ(abstractive)์˜ ์ถ”์ถœ์  ์ƒํ•œ(extractive upper bound)์ด ์ดˆ๋ก๋งŒ ์‚ฌ์šฉํ•  ๋•Œ ๋Œ€๋น„ ์ „์ฒด ์ฝ˜ํ…์ธ  ์‚ฌ์šฉ ์‹œ ROUGE-2 ๊ธฐ์ค€ 217% ์ฆ๊ฐ€ (PRIMERA ๋ชจ๋ธ 0.08 โ†’ 0.15)
  3. ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ ๊ฐœ์„ : BERTScore์˜ ๊ธธ์ด ์ œํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฉ”ํƒ€-๋ฉ”ํŠธ๋ฆญ(meta-metric) ์ œ์•ˆ ๋ฐ ์ธ๊ฐ„ ํŒ๋‹จ๊ณผ์˜ ์ƒ๊ด€์„ฑ ๊ฒ€์ฆ

How

Figure 3

์—ฐ๊ตฌ ๋„๋ฉ”์ธ์— ๋”ฐ๋ฅธ ๋ฐ์ดํ„ฐ์…‹ ๋ถ„ํฌ์˜ ์ฐจ์ด

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ์˜คํ”ˆ ์•ก์„ธ์Šค ์ž๋ฃŒ๋งŒ์œผ๋กœ ๊ตฌ์ถ•ํ•œ ์ฒซ ๋Œ€๊ทœ๋ชจ ๊ด€๋ จ ์—…๋ฌด ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ์„œ ํ•™์ˆ  ์š”์•ฝ ๋ถ„์•ผ์— ์‹ค์งˆ์  ๊ธฐ์—ฌ๋ฅผ ํ•˜๋ฉฐ, ์ „์ฒด ์ฝ˜ํ…์ธ  ํ™œ์šฉ์˜ ์ด์ ์„ ๊ฐ•๋ ฅํžˆ ์ž…์ฆํ•œ ์ ์ด ์ฃผ์š” ๊ฐ•์ ์ด๋‹ค. ๋‹ค๋งŒ ์ž๋™ ํŒŒ์ดํ”„๋ผ์ธ์˜ ์ •ํ™•์„ฑ ๊ฒ€์ฆ๊ณผ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์— ๋Œ€ํ•œ ํ™•์žฅ์„ฑ ํ‰๊ฐ€๊ฐ€ ๋ณด์™„๋˜์–ด์•ผ ํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹ค์ค‘๋ฌธ์„œ ์š”์•ฝ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์˜ ์ดˆ๊ธฐ ๋ชจ๋ธ์ด๋ฉด์„œ, ์ „์ฒด ํ…์ŠคํŠธ ์š”์•ฝ์˜ ํ•„์š”์„ฑ๊ณผ ํ•œ๊ณ„๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
581 ๋…ผ๋ฌธ์€ ๊ด€๋ จ ์—ฐ๊ตฌ์˜ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ์ž๋™ ๊ตฌ์ถ• ๋…ธํ•˜์šฐ๋ฅผ ์ œ์‹œํ•˜์—ฌ, 520์˜ ๊ณผํ•™ ์—ฐ๊ตฌ ํ•ต์‹ฌ์ •๋ณด ์ถ”์ถœยท๊ตฌ์กฐํ™”์˜ ์›์ฒœ ๋ฐ์ดํ„ฐ์™€ ๊ธฐ์ˆ ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
581๋ฒˆ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ๊ด€๋ จ ์—ฐ๊ตฌ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•ด, 752๋ฒˆ์˜ GPT-4 ๊ด€๋ จ ์—ฐ๊ตฌ ์ž‘๋ฌธ ํ€„๋ฆฌํ‹ฐ ํ‰๊ฐ€์™€ ๋ฐ์ดํ„ฐ์  ๊ธฐ๋ฐ˜์„ ๊ณต์œ ํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
581์˜ ๋Œ€๊ทœ๋ชจ ์—ฐ๊ตฌ ๊ด€๋ จ ๋ฐ์ดํ„ฐ์…‹์€ 145์˜ ๋…ผ๋ฌธ ๊ณ„๋ณด ๊ธฐ๋ฐ˜ ์ž๋™ํ™” ๋ฐฉ๋ฒ•๋ก ์— ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค์ˆ˜ ๋…ผ๋ฌธ ๊ธฐ๋ฐ˜์˜ ๊ตฌ์กฐํ™”๋œ ์š”์•ฝ์ด๋ผ๋Š” ๊ณตํ†ต ๋ชฉํ‘œ๋ฅผ ๊ฐ–์ง€๋งŒ, OARelatedWork๋Š” ๊ด€๋ จ์—ฐ๊ตฌ ์ƒ์„ฑ์— ์ง‘์ค‘ํ•˜๋Š” ๋ฐ˜๋ฉด, ๋ณธ ๋…ผ๋ฌธ์€ ์ „๋ฐ˜์ ์ธ ๊ตฌ์กฐํ™” ์š”์•ฝ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
OARelatedWork: A large-scale dataset of related work sections ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ์š”์•ฝ ๋ฐ ๋ฆฌ๋ทฐ ๋ฐ์ดํ„ฐ์…‹์ด๋ผ๋Š” ์‹ค์งˆ์  ์ž์›์„ ์ œ๊ณต, lay summary ์ƒ์„ฑ ์ž๋™ํ™” ๋…ผ์˜(907)์— ์‹ค์ œ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋Œ€์•ˆ์„ ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ํ•™์ˆ  ๋…ผ๋ฌธ ์ •๋ณด ์ž๋™ ์ถ”์ถœ ๋ฐ ๋ฆฌ๋”๋ณด๋“œ ์ƒ์„ฑ์„ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ ๊ตฌํ˜„ํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
713์ด ๋ฌธ๋งฅ์ดํ•ด NER ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค๋ฉด, 581์€ ๋…ผ๋ฌธ์˜ '๊ด€๋ จ ์—ฐ๊ตฌ' ์„น์…˜ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•œ ์ด์ข… NLU ๋ฒค์น˜๋งˆํฌ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋…ผ๋ฌธ ๊ด€๋ จ ์—…๋ฌด ์ž๋™ ์š”์•ฝ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•๊ณผ ๊ฐ™์ด, LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ์ฃผ์žฅยทํ…์ŠคํŠธ ๊ตฌ์กฐํ™” ๋ฐ ๋ฐ์ดํ„ฐ์…‹ ํ™•์žฅ ๋ฐฉ์‹์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
581 ๋…ผ๋ฌธ์€ ๊ด€๋ จ์—ฐ๊ตฌ ์„น์…˜ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์œผ๋กœ ๊ตฌ์„ฑ, 742์™€ ์œ ์‚ฌ ๋ชฉ์ ์ด์ง€๋งŒ ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ ์ ‘๊ทผ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
581๋ฒˆ ๋…ผ๋ฌธ์€ S2ORC ๊ฐ™์€ ๋ฐ์ดํ„ฐ์…‹์˜ ์ž๋™ ๋ ˆ์ด๋ธ”๋ง ๋ฐ ํ™œ์šฉ์„ ๊ตฌ์ฒดํ™”ํ•˜์—ฌ, 913๋ฒˆ ์ธ์šฉ/ํ‘œ/๋„ํ‘œ ์ฃผ์„ ์ฒ˜๋ฆฌ์™€ ์‹ค์ œ ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ์ด์–ด์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
573(Neural Related Work Summarization)์€ ๊ด€๋ จ์—ฐ๊ตฌ ์„น์…˜ ์š”์•ฝ์„ ์œ„ํ•œ ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•ด, 581์—์„œ ์ œ๊ณตํ•˜๋Š” ๋ฐ์ดํ„ฐ์…‹ ํ™œ์šฉ์— ์‹ฌํ™”๋œ ์‘์šฉ ๋ฐฉ๋ฒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
OARelatedWork๋Š” citation-related section ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ, 150์˜ ์ธ์šฉ์ถ”์ฒœ ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„์—์„œ ์‹ค์ œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์‹ค์งˆ์  ๋ฐ์ดํ„ฐ์™€ ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ฏธ๋ž˜ ์—ฐ๊ตฌ๋ฐฉํ–ฅ, ๊ด€๋ จ ์—ฐ๊ตฌ ๋“ฑ ๋…ผ๋ฌธ ์š”์•ฝ ๋ฐ ์ƒ์„ฑ ์ž‘์—…์—์„œ ์ „์ฒด ๋…ผ๋ฌธ ๊ธฐ๋ฐ˜ ์š”์•ฝ ๋ฐฉ์‹์„ ํ™•์žฅ ์ ์šฉํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์„ ํ™œ์šฉํ•œ ๋…ผ๋ฌธ ์„ค๋ฌธ(์„œ๋ฒ ์ด) ์ž๋™ํ™” ๋“ฑ ์ „์ฒด ํ…์ŠคํŠธ ํ™œ์šฉ ์ •์„ฑ์  ์š”์•ฝ์˜ ์‹ค์งˆ์  ํ™•๋Œ€ ์‚ฌ๋ก€๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SurveyX๋Š” OARelatedWork ๋ฐ์ดํ„ฐ์…‹ ๋ฐฉ์‹๊ณผ ํก์‚ฌํ•˜๊ฒŒ ํ•™์ˆ  ์„œ๋ฒ ์ด ์„น์…˜ ์ƒ์„ฑ ์ž๋™ํ™” ๋ฐ ๋‹ค์ค‘ ๋ฌธ์„œ ์š”์•ฝ ์—ฐ๊ตฌ๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ณผํ•™๋…ผ๋ฌธ โ€˜related workโ€™ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ๋ฐ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด Sci-LLM ์˜์—ญ์˜ ์‹ค์ œ ํ‰๊ฐ€์™€ ์ ์šฉ๋ฌธ์ œ๋ฅผ ๊ตฌ์ฒดํ™”ํ•จ.
๋ฐ˜๋ก /๋น„ํŒ
OARelatedWork๊ฐ€ ์ „์ฒด ๋…ผ๋ฌธ ๋ณธ๋ฌธ์œผ๋กœ ์š”์•ฝ์„ ์‹œ๋„ํ•˜๋Š”๋ฐ ๋ฐ˜ํ•ด, 373์€ LLM ์š”์•ฝ์˜ ์ผ๋ฐ˜ํ™” ํŽธํ–ฅ ๋ฌธ์ œ ๋“ฑ ํ•œ๊ณ„๋ฅผ ๋น„ํŒ์ ์œผ๋กœ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
๊ณผํ•™ ๋…ผ๋ฌธ์˜ ํ‰๊ฐ€ ๋ฐ ์ธ์šฉ ๋ถ„์„์—์„œ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ์˜์กด์„ฑ๊ณผ ์‹ค์ œ ๋‚ด์šฉ ๊ฒ€์ฆ์˜ ๊ท ํ˜• ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋ฏ€๋กœ, 'Clever Hans' ํ˜„์ƒ๊ณผ ๋ฐ˜๋Œ€ ์‚ฌ๋ก€๋ฅผ ํ•จ๊ป˜ ๊ณ ๋ คํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •