SciQAG: A framework for auto-generated science question answering dataset with fine-grained evaluation

์ €์ž: Yuwei Wan, Yixuan Liu, Aswathy Ajith, Clara Grazian, Bram Hoex, Wenjie Zhang, Chunyu Kit, Tong Xie, Ian Foster | ๋‚ ์งœ: 2024 | DOI: arXiv:2405.09939 📄 PDF


Essence

Figure 1

SciQAG ํ”„๋ ˆ์ž„์›Œํฌ: ๊ณผํ•™ ๋ฌธํ—Œ์œผ๋กœ๋ถ€ํ„ฐ QA ์ƒ์„ฑ (์ ์„ ์€ ์„ ํƒ์  ๋ฏธ์„ธ์กฐ์ •)

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์„ ํ™œ์šฉํ•˜์—ฌ ๊ณผํ•™ ๋…ผ๋ฌธ์œผ๋กœ๋ถ€ํ„ฐ ์ž๋™์œผ๋กœ ๊ณ ํ’ˆ์งˆ์˜ ๊ฐœ๋ฐฉํ˜• ์งˆ์˜์‘๋‹ต ์Œ(188,042๊ฐœ QA ์Œ, 24๊ฐœ ๊ณผํ•™ ๋ถ„์•ผ)์„ ์ƒ์„ฑํ•˜๊ณ , ์„ธ๋ฐ€ํ•œ ํ‰๊ฐ€ ์ง€ํ‘œ(RACAR)๋กœ ํ’ˆ์งˆ์„ ํ•„ํ„ฐ๋งํ•˜๋Š” SciQAG ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค.

Motivation

Achievement

Figure 2

GPT-4 ์ ์ˆ˜์™€ ์ „๋ฌธ๊ฐ€ ์ฃผ์„ ์ ์ˆ˜ ๊ฐ„์˜ Spearman/Pearson ์ƒ๊ด€๊ณ„์ˆ˜

  1. ๋Œ€๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: 22,743๊ฐœ ๊ณผํ•™ ๋…ผ๋ฌธ์—์„œ 188,042๊ฐœ์˜ QA ์Œ์„ ์ƒ์„ฑํ•˜๊ณ , SciQAG-24D ๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ (24๊ฐœ ๊ณผํ•™ ๋ถ„์•ผ ์ปค๋ฒ„)
  2. ์‹ ๋ขฐ์„ฑ ์žˆ๋Š” ํ‰๊ฐ€ ์ง€ํ‘œ ๊ฐœ๋ฐœ: RACAR ์ง€ํ‘œ์™€ GPT-4 ๊ธฐ๋ฐ˜ ์ž๋™ ํ‰๊ฐ€๊ฐ€ ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€ ํ‰๊ฐ€์™€ ๋†’์€ ์ƒ๊ด€๊ณ„์ˆ˜(Spearman/Pearson > 0.7)๋ฅผ ๋ณด์ž„์œผ๋กœ์จ ์ž๋™ํ™” ํ‰๊ฐ€์˜ ํƒ€๋‹น์„ฑ ๊ฒ€์ฆ
  3. ๋ฏธ์„ธ์กฐ์ • ํšจ๊ณผ ์ž…์ฆ: SciQAG ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋ฏธ์„ธ์กฐ์ •ํ•œ LLM์ด (a) ๋ฏธ์ง€์˜ SciQAG ํ…Œ์ŠคํŠธ ์…‹, (b) SciQ ๋ฒค์น˜๋งˆํฌ, (c) ์‹ค์ œ ๊ณผํ•™ ๊ณผ์ œ ์—์„œ ๋ชจ๋‘ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์‹œํ˜„

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: SciQAG๋Š” ํ์‡„ํ˜• ๊ฐœ๋ฐฉํ˜• ๊ณผํ•™ QA ์ž๋™ ์ƒ์„ฑ์˜ ์‹ค์งˆ์  ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ•˜๋ฉฐ, 188K ๊ทœ๋ชจ์˜ ๋‹คํ•™์ œ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์‹ ๋ขฐ์„ฑ ์žˆ๋Š” ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•˜๋Š” ์ ์—์„œ ๊ฐ€์น˜ ์žˆ๋Š” ๊ธฐ์—ฌ์ด๋‹ค. ๋‹ค๋งŒ ์ƒ์„ฑ ํ’ˆ์งˆ ๋ณด์ฆ์˜ ๊ทผ๋ณธ์  ํ•œ๊ณ„์™€ ํ‰๊ฐ€ ์ง€ํ‘œ์˜ LLM ์˜์กด์„ฑ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
730 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋…ผ๋ฌธ์œผ๋กœ๋ถ€ํ„ฐ ์ž๋™ ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœํ•˜์—ฌ ๋…ผ๋ฌธ ์•„์ด๋””์–ด ํƒ์ƒ‰์˜ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
087 ๋…ผ๋ฌธ์€ ์†์„ฑ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋…ผ๋ฌธ ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ์…‹์„ ๋‹ค๋ฃจ์–ด, 730 ๋…ผ๋ฌธ์˜ ์ž๋™ ์งˆ์˜์‘๋‹ต ์Œ ์ƒ์„ฑ์˜ ์ „๊ฑฐ์™€ ๋ฒค์น˜๋งˆํฌ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ํƒ์‚ฌ ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋‹ค์ธต์  ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„์˜ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•œ๋‹ค
๋‹ค๋ฅธ ์ ‘๊ทผ
SciQAG๋Š” ํ•™๊ณ„ ๋‚ด ์ƒˆ๋กœ์šด ๊ณผํ•™ QA ์…‹ ์ƒ์„ฑ์œผ๋กœ PubMedQA๋ณด๋‹ค ๋‹ค์–‘ํ•œ ์ ‘๊ทผ ๋ฐ ๊ณผ๋ชฉ์„ ๋‹ค๋ฃจ์–ด ๋น„๊ต ์ฝ๊ธฐ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
494 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ์•„์ด๋””์–ด ๋ฐ ์ฐฝ์˜์„ฑ ํ‰๊ฐ€์— ์ดˆ์ ์„ ๋‘” ๋Œ€์•ˆ์  ์ž๋™ํ™” ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
715๋Š” ๊ณผํ•™ ๋…ผ๋ฌธ ๊ธฐ๋ฐ˜ ๋”ฅ ๋ฆฌ๋”ฉ ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ์…‹ ์ œ๊ณต์— ์ง‘์ค‘ํ•˜๋ฉฐ, 730์˜ ์ž๋™ QA ์Œ ์ƒ์„ฑ ์ ‘๊ทผ๊ณผ ๋น„๊ต๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciQAG ๋…ผ๋ฌธ์€ ๊ณผํ•™ ์ฃผ์žฅ์˜ ์‹ ๋ขฐ์„ฑ ๊ฒ€์ฆ์„ ๋‹ค์–‘ํ•œ ๋ฐฉ์‹์˜ ์งˆ๋ฌธ ์‘์šฉ์œผ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ, ์˜ค๋ณด ํƒ์ง€ ์•„ํ‚คํ…์ฒ˜์™€ ํ‰๊ฐ€ ๋ฐฉ์‹ ๋น„๊ต์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciQAG ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋…ผ๋ฌธ์˜ ๊ทผ๊ฑฐ ๊ธฐ๋ฐ˜ ๋ฌธ๋‹ต ์‹œ์Šคํ…œ์„ ์ œ์‹œํ•˜์—ฌ, BioKGBench์˜ ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์™€ ๋‹ค๋ฅธ ๋ฐฉ์‹์˜ ์‚ฌ์‹ค ๊ฒ€์ฆ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ์˜ํ•™ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ตฌ์ถ• ๋ฐ ์ถ”๋ก ์„ ์œ„ํ•œ ๋”ฅ๋Ÿฌ๋‹ ์ ‘๊ทผ๋ฒ•์„ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
602๋Š” ๋…ผ๋ฌธ ๊ธฐ๋ฐ˜ ์งˆ์˜์‘๋‹ต์„ RAG ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๊ตฌํ˜„, 730์ด ์ƒ์„ฑํ•œ QA ๋ฐ์ดํ„ฐ๋ฅผ ์‹ค์ œ ์‹œ์Šคํ…œ์— ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
722 ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์งˆ์˜์‘๋‹ต ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ 730์˜ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ๊ณผํ•™ QA ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์˜์—ญ๊นŒ์ง€ ํ™•์žฅํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
713 ๋…ผ๋ฌธ์€ ๋” ๊ด‘๋ฒ”์œ„ํ•œ ๊ณผํ•™์  ์งˆ์˜์‘๋‹ต ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์„ ๋ชฉํ‘œ๋กœ ํ•˜์—ฌ SciQAG์˜ ๋ฐ์ดํ„ฐ ์ž๋™ํ™” ํ๋ฆ„์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •