ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering

์ €์ž: Xiuying Chen, Tairan Wang, Taicheng Guo, Kehan Guo, Juexiao Zhou, Haoyang Li, Mingchen Zhuge, Jรผrgen Schmidhuber, Xin Gao, Xiangliang Zhang | ๋‚ ์งœ: 2024 | DOI: arXiv:2407.16931 📄 PDF


Essence

Figure 1

Figure 1: BoolQ(์ผ๋ฐ˜ ๋„๋ฉ”์ธ), KGQA(ํ…œํ”Œ๋ฆฟ ๊ธฐ๋ฐ˜ ํ™”ํ•™), ScholarChemQA(์‹ค์ œ ๋…ผ๋ฌธ ๊ธฐ๋ฐ˜) ๋น„๊ต

ํ™”ํ•™ ํ•™์ˆ  ๋…ผ๋ฌธ์œผ๋กœ๋ถ€ํ„ฐ ๊ตฌ์„ฑ๋œ ์ฒซ ๋Œ€๊ทœ๋ชจ ํ™”ํ•™ QA ๋ฐ์ดํ„ฐ์…‹ ScholarChemQA๋ฅผ ์ œ์‹œํ•˜๊ณ , ๋ถˆ๊ท ํ˜•ํ•œ ๋ผ๋ฒจ ๋ถ„ํฌ์™€ ๋Œ€๋Ÿ‰์˜ ๋ฏธํ‘œ์ง€ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” QAMatch ๋ชจ๋ธ์„ ์ œ์•ˆํ•˜์—ฌ LLM์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

Motivation

Achievement

Figure 2

Figure 2: (a) ๋ฐ์ดํ„ฐ ํฌ๋กค๋ง ํ”„๋กœ์„ธ์Šค (b) ScholarChemQA์˜ ์ฃผ์ œ ๋ถ„ํฌ (c) ๋ผ๋ฒจ ๋น„์œจ ๊ด€๊ณ„

  1. ์ฒซ ํ™”ํ•™ ํ•™์ˆ  QA ๋ฐ์ดํ„ฐ์…‹: ํ™”ํ•™ ๋…ผ๋ฌธ ์•ฝ 100๋งŒ ๊ฑด์—์„œ 40k ์ธ์Šคํ„ด์Šค ์ˆ˜์ง‘, 1,050๊ฐœ ์ˆ˜๋™ ์ฃผ์„(yes 65.8%, no 21.2%, maybe 13.0%) + 4k ์ถ”๊ฐ€ ๋ณ€ํ™˜ ์งˆ๋ฌธ ํฌํ•จ. ์‹ค์ œ ์—ฐ๊ตฌ ๋ฌธ์ œ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ธฐ์ดˆ ๊ฐœ๋…๋ถ€ํ„ฐ ๋ณต์žกํ•œ ํ™”ํ•™ ๊ณผ์ •๊นŒ์ง€ ๋‹ค์–‘ํ•œ ์ฃผ์ œ ํฌํ•จ.
  2. LLM ํ•œ๊ณ„ ๊ทœ๋ช…: GPT-3.5๋Š” 54%, GPT-4๋Š” 60% ์ •๋„์˜ ์ •ํ™•๋„๋งŒ ๋‹ฌ์„ฑํ•˜์—ฌ ๋„๋ฉ”์ธ ํŠนํ™” ๋ชจ๋ธ์˜ ํ•„์š”์„ฑ ์ž…์ฆ. LLM๋“ค์ด ๋ณต์žกํ•œ ํ™”ํ•™ ์šฉ์–ด์™€ ์‹ฌ์ธต ์˜๋ฏธ ๋ถ„์„ ๋Šฅ๋ ฅ์˜ ๋ถ€์กฑ์„ ๋“œ๋Ÿฌ๋ƒ„.
  3. QAMatch ๋ชจ๋ธ์˜ ์šฐ์ˆ˜์„ฑ: ์œ ์‚ฌ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ๊ณผ GPT-3.5/GPT-4๋ฅผ ๋ชจ๋‘ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ ๋‹ฌ์„ฑ. ์ž‘๊ณ  ํšจ์œจ์ ์ด๋ฉด์„œ๋„ ๋†’์€ ์ •ํ™•๋„ ์ œ๊ณต.

How

Figure 3

Figure 3: QAMatch์˜ ์ง€๋„ํ•™์Šต(label rebalancing) ๋ฐ ๋ฐ˜์ง€๋„ํ•™์Šต ๊ตฌ์กฐ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ScholarChemQA๋Š” ํ•™์ˆ  ํ™”ํ•™ ๋ถ„์•ผ์˜ ์ง„์ •ํ•œ QA ๋ฒค์Œ์„ ์ œ๊ณตํ•˜๊ณ , QAMatch๋Š” ๋ฐ˜์ง€๋„ํ•™์Šต๊ณผ ๋ผ๋ฒจ ๋ถˆ๊ท ํ˜•์„ ๋‹ค๋ฃจ๋Š” ์‹ค์šฉ์  ์†”๋ฃจ์…˜์„ ์ œ์‹œํ•œ๋‹ค. ํ™”ํ•™ ๋ถ„์•ผ๋ฟ ์•„๋‹ˆ๋ผ ๋„๋ฉ”์ธ ํŠนํ™” QA ์—ฐ๊ตฌ์˜ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•˜๋Š” ์˜๋ฏธ ์žˆ๋Š” ๊ธฐ์—ฌ์ด๋‚˜, ๋ฐ์ดํ„ฐ์…‹ ๊ทœ๋ชจ์™€ ๋ชจ๋ธ ๊ธฐ๋ฒ•์˜ ์ผ๋ฐ˜ํ™” ๊ฒ€์ฆ ์ธก๋ฉด์—์„œ ๋ณด์™„์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
020์€ 701์—์„œ ํ™”ํ•™ ํ•™์ˆ  ์ง€์‹๊ทธ๋ž˜ํ”„ ๋ฐ QA ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ๊ด€๊ณ„ํ˜• ๊ธฐ๊ณ„ํ•™์Šต ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
PubMedQA ๋…ผ๋ฌธ์€ ScholarChemQA ๋“ฑ ๊ณผํ•™ QA ๋ฐ์ดํ„ฐ์…‹์˜ ์„ค๊ณ„์™€ ํ‰๊ฐ€ ๋ฐฉ์‹์— ์žˆ์–ด ๋Œ€ํ‘œ์ ์ธ ์ „ํ†ต์  ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ QA ๋ฐ์ดํ„ฐ์…‹์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํ…Œ์ด๋ธ”๊ณผ ํ…์ŠคํŠธ ํ˜ผํ•ฉ ์งˆ์˜์‘๋‹ต์˜ ๊ธฐ์ดˆ๊ฐ€ ๋˜๋Š” ๋ฐ์ดํ„ฐ์…‹์ด๋‚˜ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
MedBioLM ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ์ƒ๋ช…๊ณผํ•™ ๋ถ„์•ผ QA ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์œ„ํ•œ ํŒŒ์ธํŠœ๋‹ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ์–ด, ScholarChemQA ๋ฐ์ดํ„ฐ์…‹ ๊ฐœ๋ฐœ๊ณผ QAMatch ๋ชจ๋ธ ์—ฐ๊ตฌ์— ๊ธฐ์ดˆ๊ฐ€ ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
701์€ ํ™”ํ•™ ๋ถ„์•ผ์—์„œ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๊ธฐ๋ฐ˜ QA ์‹œ์Šคํ…œ์„ ๋‹ค๋ฃจ๋ฉฐ, 055์˜ ์˜๋ฃŒ์˜์ƒ ์ ์šฉ๊ณผ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SciCode ๋…ผ๋ฌธ์€ ๊ณผํ•™ ์—ฐ๊ตฌ์—์„œ ์ฝ”๋“œ ์ž‘์„ฑ ๋Šฅ๋ ฅ LLM ํ‰๊ฐ€๋ฅผ ์ค‘์ ์ ์œผ๋กœ ๋‹ค๋ฃจ๋ฉฐ, ํ™”ํ•™ QA์™€ ๋‹ฌ๋ฆฌ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์ค‘์‹ฌ AI ๋ฌธ์ œ ํ•ด๊ฒฐ์˜ ๋‹ค๋ฅธ ์‘์šฉ์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘ ๋…ผ๋ฌธ ๋ชจ๋‘ ์ƒ์˜ํ•™/ํ™”ํ•™ ๋ถ„์•ผ์˜ ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์งˆ์˜์‘๋‹ต์„ ๋‹ค๋ฃจ์ง€๋งŒ, 018์€ RAG์™€ ๋”ฅ์”ฝํ‚น LLMs๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
701์ด LLM์„ ํ™”ํ•™๋ฌธํ—Œ ๊ธฐ๋ฐ˜ QA ๋ฐ์ดํ„ฐ์…‹ ๊ฒ€์ฆ์— ์“ด๋‹ค๋ฉด, 500์€ LLM ๊ธฐ๋ฐ˜ ์‚ฌ์‹ค์ฆ๊ฑฐ(์ฝ”๋กœ๋ณด๋ ˆ์ด์…˜) ๊ฒ€์ฆ ๊ด€์ ์—์„œ ๋ฐ์ดํ„ฐ ๋ฐ ๊ฒ€์ฆํ”„๋ ˆ์ž„์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•™์ˆ  ๋…ผ๋ฌธ ๊ธฐ๋ฐ˜์˜ ๊ณผํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋Œ€์•ˆ์  ๋ฒค์น˜๋งˆํฌ ์—ฐ๊ตฌ์ด๋‹ค
๋‹ค๋ฅธ ์ ‘๊ทผ
ScholarChemQA(701)๋Š” ์ƒ์˜ํ•™ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์˜์—ญ์˜ QA ๋ฒค์น˜๋งˆํฌ๋กœ, MedAgentGym์ด ๋‹ค๋ฃจ๋Š” ์ฝ”๋“œ ์ค‘์‹ฌ ์‹คํ—˜ ํ™˜๊ฒฝ๊ณผ ๋ณ„๊ฐœ๋กœ ์ฃผ์š” reference๊ฐ€ ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
701์˜ ๊ณผํ•™ QA ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ๋ชจ๋ธ์€ 057์˜ ๊ณผํ•™์  ํŒฉํŠธ์ฒดํ‚น์„ ์œ„ํ•œ ์ž๋™ํ™” ํ”„๋ ˆ์ž„์›Œํฌ์™€ ํ•จ๊ป˜ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ScholarChemQA ๋…ผ๋ฌธ์€ ์ธ์šฉ๊ณผ ํ™”ํ•™ ๋„๋ฉ”์ธ์—์„œ LLM์˜ ์งˆ๋ฌธ์‘๋‹ต ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜์—ฌ LLM์ด ํ•™์ˆ  ์ธ์šฉ ๋„คํŠธ์›Œํฌ์™€ ์–ด๋–ป๊ฒŒ ์ƒํ˜ธ์ž‘์šฉํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์ดํ•ด์— ๋„์›€์ด ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
701์˜ ChemQA ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ํ‰๊ฐ€ ๋ฐฉ์‹์„ 209์˜ ChemAgent๊ฐ€ ์ž๊ธฐ ๊ฐฑ์‹ ํ˜• LLM ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๊ตฌํ˜„์œผ๋กœ ํ™•์žฅํ•˜์—ฌ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ChemGymRL ๋…ผ๋ฌธ์€ ํ™”ํ•™ ์‹คํ—˜ ์ž๋™ํ™”๋ฅผ ์œ„ํ•œ RL ํ™˜๊ฒฝ์„ ๊ตฌ์ถ•ํ•˜์—ฌ, ScholarChemQA์—์„œ ์ƒ์„ฑ๋œ QA ๋ฐ์ดํ„ฐ๋ฅผ ์‹ค์ œ ๊ณผํ•™ ์‹คํ—˜์— ์ ์šฉํ•˜๋Š” ๋ฐฉ์•ˆ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ScholarChemQA ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ์ถœ์ฒ˜์˜ ํ†ตํ•ฉ์  ์งˆ์˜์‘๋‹ต์ด ํ•„์š”ํ•œ ์˜์—ญ(์ƒ๋ช…๊ณผํ•™)์— 295์˜ multi-source QA ๋ฐฉ์‹์ด ์ ํ•ฉํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
701๋ฒˆ ๋…ผ๋ฌธ์€ ํ™”ํ•™ ๋ถ„์•ผ ๊ฒ€์ƒ‰-์ฆ๊ฐ• ์งˆ์˜์‘๋‹ต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ฐœ๋ฐœํ•˜์—ฌ, 404๋ฒˆ HiPerRAG์˜ ๋Œ€๊ทœ๋ชจ ๊ณผํ•™ RAG ์‹œ์Šคํ…œ์„ ์‹ค์งˆ์ ์œผ๋กœ ์‘์šฉํ•˜๋Š” ์˜ˆ์‹œ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ํ™”ํ•™ ๋…ผ๋ฌธ QA ๋ฐ ๋ฐ์ดํ„ฐ์…‹ ๊ฐ€๊ณต ์—ญ๋Ÿ‰์ด ๊ตฌ์กฐ-์ธ์‹ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM(MatterChat)์˜ ์„ฑ๋Šฅ ๋ฐ ์‹ค์ œ ํ™”ํ•™ ๋ฌธํ—Œ ๊ธฐ๋ฐ˜ ์‘์šฉ ์‚ฌ๋ก€๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
701์€ ํ™”ํ•™ QA ๋ฌธ์„œ ์ถ”๋ก ์—์„œ LLM๊ณผ ๋„๋ฉ”์ธ ํŠนํ™” ํˆด์˜ ํ˜‘๋ ฅ์  ์„ฑ๊ณผ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, 3126์˜ heterogeneous agent ํ”„๋ ˆ์ž„์›Œํฌ ์‹ค์šฉ์„ฑ ํ‰๊ฐ€์— ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •