Scidqa: A deep reading comprehension dataset over scientific papers

์ €์ž: Shruti Singh, Nandan Sarkar, Arman Cohan | ๋‚ ์งœ: 2024 | DOI: 10.18653/v1/2024.emnlp-main.1163 📄 PDF


Essence

Figure 1

Figure 1: An instance in the SciDQA dataset. The ques-

์ด ๋…ผ๋ฌธ์€ OpenReview์˜ ํ”ผ์–ด ๋ฆฌ๋ทฐ์—์„œ ์ถ”์ถœํ•œ ์งˆ๋ฌธ๊ณผ ์ €์ž ๋‹ต๋ณ€์„ ๊ธฐ๋ฐ˜์œผ๋กœ 2,937๊ฐœ์˜ QA ์Œ์œผ๋กœ ๊ตฌ์„ฑ๋œ SCIDQA ๋ฐ์ดํ„ฐ์…‹์„ ์ œ์‹œํ•œ๋‹ค. ๊ธฐ์กด scientific QA ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋‹ฌ๋ฆฌ ํ‘œ๋ฉด์  ์ •๋ณด๊ฐ€ ์•„๋‹Œ ์‹ฌ์ธต์  ์ดํ•ด๋ฅผ ์š”๊ตฌํ•˜๋Š” ์งˆ๋ฌธ๋“ค์„ ํฌํ•จํ•˜๋ฉฐ, ๊ทธ๋ฆผยทํ‘œยท์ˆ˜์‹ยท๋‹ค๋ฌธ์„œ ์ถ”๋ก  ๋“ฑ์„ ํฌํ•จํ•œ ๋ณต์žกํ•œ ๊ณผํ•™ ๋ฌธํ—Œ ์ดํ•ด ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค.

Motivation

Achievement

Figure 2

Figure 2: Dataset curation pipeline for SCIDQA. LLM-

๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: ํ”ผ์–ด ๋ฆฌ๋ทฐ ๊ธฐ๋ฐ˜ ์ž์—ฐ ํŒŒ์ƒ QA ์Œ 2,937๊ฐœ ๊ตฌ์„ฑ, ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹ ๋Œ€๋น„ ํ‰๊ท  ์งˆ๋ฌธ ๊ธธ์ด 23.92 ๋‹จ์–ด, ๋‹ต๋ณ€ ๊ธธ์ด 104.67 ๋‹จ์–ด๋กœ ์ƒ๋‹นํžˆ ๊ธธ๊ณ  ๋ณต์žกํ•จ / ํ’ˆ์งˆ ๊ด€๋ฆฌ: 7,000๊ฐœ ์ธ์Šคํ„ด์Šค ๊ฒ€ํ† ๋กœ 41% ๊ด€๋ จ์„ฑ ๋‹ฌ์„ฑ, ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€ 2๋ช…์ด 85% inter-annotator agreement ํ™•๋ณด / ๋ฐ์ดํ„ฐ์…‹ ๋‹ค์–‘์„ฑ: ์•ฝ 11%์˜ ์งˆ๋ฌธ์ด ๋‹ค์ค‘ ๋ฌธ์„œ ์ถ”๋ก  ํ•„์š”, ๊ทธ๋ฆผยทํ‘œยท์ˆ˜์‹ ์ดํ•ด ํฌํ•จ / LLM ํ‰๊ฐ€: ์—ฌ๋Ÿฌ LLM์˜ ์„ฑ๋Šฅ ํŽธ์ฐจ ์‹๋ณ„ ๋ฐ ๋ฒค์น˜๋งˆํฌ ๊ฒฐ๊ณผ ์ œ์‹œ

How

Figure 2

Figure 2: Dataset curation pipeline for SCIDQA. LLM-

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: SCIDQA๋Š” scientific QA ๋ฒค์น˜๋งˆํ‚น ๋ถ„์•ผ์—์„œ ์˜๋ฏธ ์žˆ๋Š” ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค. ํ”ผ์–ด ๋ฆฌ๋ทฐ ๊ธฐ๋ฐ˜์˜ ์ž์—ฐ ํŒŒ์ƒ ๋ฐ์ดํ„ฐ, domain experts ๊ฐ„์˜ ์‹ค์ œ ์ƒํ˜ธ์ž‘์šฉ, ๊ทธ๋ฆฌ๊ณ  ์‹ฌ์ธต ์ดํ•ด๋ฅผ ์š”๊ตฌํ•˜๋Š” ์„ค๊ณ„๊ฐ€ ๊ฐ•์ ์ด๋‹ค. ๋‹ค๋งŒ ๊ทœ๋ชจ๊ฐ€ ์ œํ•œ์ ์ด๊ณ  ML/DL ๋ถ„์•ผ์—๋งŒ ๊ตญํ•œ๋˜์–ด ์žˆ์œผ๋ฉฐ, annotation ๋น„์šฉ์œผ๋กœ ์ธํ•œ ์™„์ „์„ฑ ๋ถ€์กฑ์ด ์•ฝ์ ์ด๋‹ค. ์ „๋ฐ˜์ ์œผ๋กœ high-quality ๋ฆฌ์†Œ์Šค๋กœ์„œ ๊ณผํ•™ ๋…ผ๋ฌธ ์ดํ•ด ์—ฐ๊ตฌ๋ฅผ ์ด‰์ง„ํ•  ์ž ์žฌ๋ ฅ์ด ์ถฉ๋ถ„ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SciBERT๋Š” ๊ณผํ•™ ๋…ผ๋ฌธ ๊ธฐ๋ฐ˜ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ๋กœ, Scidqa์™€ ๊ฐ™์€ ๊ณผํ•™ ํ…์ŠคํŠธ QA ๋ฒค์น˜๋งˆํฌ์— ํ•„์ˆ˜์ ์ธ ์–ธ์–ด๋ชจ๋ธ ์ธํ”„๋ผ ์—ญํ• ์„ ํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SciReviewGen์€ ๋‹ค์ค‘ ๋ฌธ์„œ ์š”์•ฝ ๋ฐ ์งˆ์˜์‘๋‹ต๊ณผ ๊ด€๋ จ๋œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•˜์—ฌ, Scidqa์˜ ์‹ฌ์ธต ๊ณผํ•™ ํ…์ŠคํŠธ ์ดํ•ด ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
715๋ฒˆ ๋…ผ๋ฌธ์€ ๋ฆฌ๋ทฐ์˜ ๊นŠ์€ ์ดํ•ด๋ฅผ ์œ„ํ•œ ์ฝ๊ธฐ ๋ฐ ์ดํ•ด ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•˜๋ฉฐ, 739๋ฒˆ์˜ ๋ฆฌ๋ทฐ ์ฝ”๋ฉ˜ํŠธ ์˜๋„ ๋ถ„์„๊ณผ ์—ฐ๊ฒฐ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Scidqa ๋ฒค์น˜๋งˆํฌ๊ฐ€ ๋‹ค์ค‘ ๋ฌธ์„œยท๋ณต์žกํ•œ ๊ณผํ•™ ํ…์ŠคํŠธ ์ดํ•ด๋ฅผ ๋‹ค๋ฃฌ๋‹ค๋ฉด, SciFIBench๋Š” ์ด๋ฅผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ทธ๋ฆผ ์˜์—ญ๊นŒ์ง€ ํ™•์žฅํ•˜์—ฌ ์—ฐ๊ฒฐ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์  ๋…ํ•ด์™€ ์งˆ์˜์‘๋‹ต ๊ธฐ๋Šฅ์ด ๊ฒฐํ•ฉ๋œ ๋‹จ๋ฐฑ์งˆ-์•ฝ๋ฌผ ์ƒํ˜ธ์ž‘์šฉ ๊ธฐ๋ฐ˜์˜ ์งˆ๋ฌธ ์‘๋‹ต ๋ฒค์น˜๋งˆํฌ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์–ธ์–ด๋ชจ๋ธ์˜ ๋…ํ•ด ์ดํ•ด ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋„์ „์ ์ธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜๋Š” ๊ด€๋ จ ๋…ผ๋ฌธ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciBench(706)๋Š” ๋Œ€ํ•™ ์ˆ˜์ค€์˜ ๊ณผํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ๋ ฅ ํ‰๊ฐ€์šฉ ๋ฒค์น˜๋งˆํฌ๋กœ, SCIDQA์™€ ๋‹ฌ๋ฆฌ ๋ฌธ์ œ ์œ ํ˜• ๋ฐ ๋ฒ”์œ„์— ์ฐจ๋ณ„์„ฑ์ด ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
715๋Š” ๊ณผํ•™์  ์‹ฌ์ธต ์ฝ๊ธฐ ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ, 488์˜ SciQA์™€ ๋‹ฌ๋ฆฌ ์ž์—ฐ์–ด ์งˆ์˜ ์‘๋‹ต์˜ ๋‚œ์ด๋„๋ฅผ ๋ณ„๋„๋กœ ์‹คํ—˜ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciPIP๋Š” LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋…ผ๋ฌธ ์•„์ด๋””์–ด ์ œ์‹œ ๋ฐ ์งˆ์˜์‘๋‹ต์— ์ดˆ์ ์„ ๋‘์–ด, Scidqa์˜ ๋…ผ๋ฌธ ์ถ”๋ก ํ˜• QA์™€ ๋‹ค๋ฅธ ๊ด€์ ์˜ ๊ณผํ•™ ๋ฌธ์„œ ์ž๋™ํ™” ๋ฐฉ๋ฒ•๋ก ์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
715๋Š” ๊ณผํ•™ ๋…ผ๋ฌธ ๊ธฐ๋ฐ˜ ๋”ฅ ๋ฆฌ๋”ฉ ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ์…‹ ์ œ๊ณต์— ์ง‘์ค‘ํ•˜๋ฉฐ, 730์˜ ์ž๋™ QA ์Œ ์ƒ์„ฑ ์ ‘๊ทผ๊ณผ ๋น„๊ต๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋…ผ๋ฌธ ๊ธฐ๋ฐ˜ ๋”ฅ ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ, openscholar์™€ ์œ ์‚ฌํ•œ QA ํ…Œ์Šคํฌ์—์„œ ๋ชจ๋ธ ๊ฒ€์ฆ์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Scicueval ๋…ผ๋ฌธ์€ SCIDQA์™€ ๋‹ฌ๋ฆฌ ๊ณผํ•™ ๋ถ„์•ผ LLM QA์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€์— ์ค‘์ ์„ ๋‘์–ด ๋ฌธํ•ญ ๊ตฌ์„ฑ ๋ฐ ํ‰๊ฐ€ ์ง€ํ‘œ์—์„œ ๋Œ€์กฐ ์ž๋ฃŒ๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ง€๊ตฌ๊ณผํ•™ ๋˜๋Š” ํ™˜๊ฒฝ๊ณผํ•™ ๋ถ„์•ผ์˜ LLM ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ๋ฒค์น˜๋งˆํฌ ์—ฐ๊ตฌ์ด๋‹ค
ํ›„์† ์—ฐ๊ตฌ
SciFIBench ์—ญ์‹œ ๋…ผ๋ฌธ ๋‚ด ๊ทธ๋ฆผยท๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ํ•ด์„ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด, ํ…์ŠคํŠธ QA๋ฅผ ๋„˜์–ด์„  ๊ณผํ•™์  ๋ฌธํ—Œ ์ดํ•ด๋ ฅ ์ธก์ •์„ ํ™•์žฅํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Scholawrite๋Š” ์‹ค์ œ ํ•™์ˆ  ๊ธ€์“ฐ๊ธฐ ํ”„๋กœ์„ธ์Šค์˜ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์— ์ดˆ์ ์„ ๋งž์ถ”์–ด, ์‹ฌ์ธต ๋…ผ๋ฌธ ์ดํ•ด ๋ฐ ์งˆ์˜์‘๋‹ต ๋ชจ๋ธ์˜ ์‹ค์ œ ์ ์šฉ์„ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Select, read, and write ๋…ผ๋ฌธ์€ SCIDQA์—์„œ ์ œ์‹œํ•œ ๋‹ค๋ฌธ์„œ/๋‹คํ‘œ ๋“ฑ ๋ณต์žก ์งˆ๋ฌธ์‘๋‹ต์„ ํ’€๊ธฐ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ ์‘์šฉ์‚ฌ๋ก€๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Scidqa๋Š” ๊ณผํ•™ ๋…ผ๋ฌธ ๋‚ด ์‹ฌ์ธต์  ํ…์ŠคํŠธโ€“๊ทธ๋ฆผ ๋งฅ๋ฝ ๋ถ„์„์„ ํ†ตํ•ด ์บก์…˜ ์ƒ์„ฑ ๋ชจ๋ธ ํ‰๊ฐ€ ๊ด€์ ์—์„œ MLBCAP์˜ ํ™•์žฅ ์‘์šฉ์‚ฌ๋ก€๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •