Language agents achieve superhuman synthesis of scientific knowledge

์ €์ž: Michael D. Skarlinski, Sam Cox, Jon M. Laurent, James D. Braza, Michaela Hinks, Michael J. Hammerling, Manvitha Ponnapati, Samuel G. Rodriques, Andrew D. White | ๋‚ ์งœ: 2024-09-26 | DOI: 10.48550/arXiv.2409.13740 📄 PDF


Essence

LLM(Large Language Model)์˜ ํ™˜๊ฐ(hallucination) ๋ฌธ์ œ๋ฅผ ๊ทน๋ณตํ•œ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ PaperQA2๋ฅผ ๊ฐœ๋ฐœํ•˜์—ฌ, ๊ณผํ•™ ๋ฌธํ—Œ ๊ฒ€์ƒ‰, ์š”์•ฝ, ๋ชจ์ˆœ ํƒ์ง€ ์ž‘์—…์—์„œ ๋ฐ•์‚ฌ ์ˆ˜์ค€์˜ ๊ณผํ•™์ž๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

Motivation

Achievement

Figure 1: PaperQA2์˜ ์—์ด์ „ํŠธ ๋„๊ตฌ ๊ตฌ์„ฑ(A)๊ณผ ์„ธ ๊ฐ€์ง€ ์ž‘์—…์—์„œ์˜ ์„ฑ๋Šฅ ๋น„๊ต(B)

PaperQA2์˜ ์•„ํ‚คํ…์ฒ˜์™€ ํ•ต์‹ฌ ์„ฑ๋Šฅ ์ง€ํ‘œ

  1. ๋ฌธํ—Œ ๊ฒ€์ƒ‰ ์ž‘์—…(Question Answering): PaperQA2๋Š” LitQA2์—์„œ 85.2% ยฑ 1.1%์˜ ์ •๋ฐ€๋„(precision)๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ๋ฐ•์‚ฌ ์ˆ˜์ค€ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€์˜ 73.8% ยฑ 9.6%๋ฅผ ์ดˆ์›”ํ•˜๋Š” ์ดˆ์ธ๊ฐ„ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ (p = 0.0036). ์ •ํ™•๋„(accuracy)๋Š” 66.0% ยฑ 1.2%๋กœ ์ธ๊ฐ„์˜ 67.7% ยฑ 11.9%์™€ ํ†ต๊ณ„์ ์œผ๋กœ ์œ ์˜๋ฏธํ•œ ์ฐจ์ด ์—†์Œ.
  2. ์ธ์šฉ ์š”์•ฝ ์ž‘์—…(Cited Summarization): Wikipedia ์Šคํƒ€์ผ์˜ ๊ณผํ•™ ์ฃผ์ œ ์š”์•ฝ์„ ์ž‘์„ฑํ•˜์—ฌ ๊ธฐ์กด ์ธ๊ฐ„ ์ž‘์„ฑ Wikipedia ๊ธฐ์‚ฌ๋ณด๋‹ค ์œ ์˜๋ฏธํ•˜๊ฒŒ ๋†’์€ ์ •ํ™•๋„ ๋‹ฌ์„ฑ.
  3. ๋ชจ์ˆœ ํƒ์ง€ ์ž‘์—…(Contradiction Detection): ์ƒ๋ฌผํ•™ ๋…ผ๋ฌธ์—์„œ ํ‰๊ท  2.34 ยฑ 1.99๊ฐœ์˜ ๋ชจ์ˆœ์„ ์‹๋ณ„ํ•˜๋ฉฐ, ์ด ์ค‘ 70%๊ฐ€ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€์— ์˜ํ•ด ๊ฒ€์ฆ๋จ. ๊ธฐ์กด ๋…ผ๋ฌธ์˜ ZNF804A rs1344706 ์œ ์ „์žํ˜•๊ณผ ์ •์‹ ๋ถ„์—ด์ฆ์˜ ๊ด€๊ณ„์— ๋Œ€ํ•œ ์ƒ์ถฉํ•˜๋Š” ์ฃผ์žฅ๋“ค์„ ์ž๋™์œผ๋กœ ๋ฐœ๊ฒฌ.

How

Figure 2: LitQA2 ๋ฒค์น˜๋งˆํฌ ์˜ˆ์‹œ(A), PaperQA2 ์„ฑ๋Šฅ ๋น„๊ต(B), ๊ตฌ์„ฑ ์š”์†Œ ๋ถ„์„(C), ํŒŒ์ดํ”„๋ผ์ธ ๋‹จ๊ณ„๋ณ„ DOI ํšŒ์ƒ๋ฅ (D)

์ •๋Ÿ‰์  ํ‰๊ฐ€ ๋ฐ ์ƒ์„ธ ์„ฑ๋Šฅ ๋ถ„์„

RAG(Retrieval-Augmented Generation) ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ์„ค๊ณ„

์„ฑ๋Šฅ ์ตœ์ ํ™”

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋ฌธํ—Œ ํ•ฉ์„ฑ์—์„œ LLM์˜ ์ดˆ์ธ๊ฐ„ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ์„ ์—„๊ฒฉํ•œ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ ์ž…์ฆํ•œ ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋กœ, LitQA2 ๋ฒค์น˜๋งˆํฌ์™€ PaperQA2 ์‹œ์Šคํ…œ์˜ ์„ค๊ณ„๊ฐ€ ์‹ค์งˆ์  ๊ฐ€์น˜ ๋†’์Œ. ๋‹ค๋งŒ ๋ชจ์ˆœ ํƒ์ง€์˜ ์‹ ๋ขฐ๋„ ํ•œ๊ณ„์™€ ๋„๋ฉ”์ธ ํŽธํ–ฅ์„ ๊ทน๋ณตํ•˜๊ณ , ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ๊ฐœ์„ ํ•œ๋‹ค๋ฉด ๊ณผํ•™ ์—ฐ๊ตฌ ์ธํ”„๋ผ๋กœ์„œ์˜ ๊ฐ€๋Šฅ์„ฑ์ด ๋”์šฑ ๊ฐ•ํ™”๋  ๊ฒƒ์œผ๋กœ ํŒ๋‹จ๋จ.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
PaperQA๋Š” ๊ณผํ•™ ๋ฌธํ—Œ ๊ฒ€์ƒ‰ ๋ฐ ์š”์•ฝ์„ ์œ„ํ•œ ์ดˆ๊ธฐ retrieval-augmented LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋กœ, PaperQA2 ๊ฐœ๋ฐœ์˜ ๊ธฐ์ˆ ์  ์ถœ๋ฐœ์ ์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Llms for literature review ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜์˜ ๋ฌธํ—Œ ๋ฆฌ๋ทฐ ์ž๋™ํ™”์™€ ํ™˜๊ฐ ๊ฐ์†Œ์— ์ง‘์ค‘ํ•˜์—ฌ, ์š”์•ฝ ๋ฐ ๋ชจ์ˆœ ํƒ์ง€ ์‘์šฉ ์ธก๋ฉด์˜ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ์‚ฌํšŒ๊ณผํ•™ ์—ฐ๊ตฌ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์ ‘๊ทผ๋ฒ•์˜ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ScholarCopilot ๋…ผ๋ฌธ์€ LLM์„ ํ™œ์šฉํ•œ ํ•™์ˆ ๋ฌธํ—Œ ๋ถ„์„ ๋ฐ ์š”์•ฝ ๋ถ„์•ผ์˜ ์ตœ์‹  ์‘์šฉ ์—ฐ๊ตฌ๋กœ PaperQA2 ์„ฑ๋Šฅ ๋น„๊ต์— ์œ ์šฉํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Language agents achieve superhuman synthesis ๋…ผ๋ฌธ์€ PaperQA์˜ retrieval-augmented ์—์ด์ „ํŠธ ๊ฐœ๋…์„ ๊ณ ๋„ํ™”ํ•˜์—ฌ ๋ฐ•์‚ฌ ์ˆ˜์ค€ ๊ณผํ•™ ์š”์•ฝ๊ณผ ๋ชจ์ˆœ ํƒ์ง€๊นŒ์ง€ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
527์˜ AI ์•ˆ์ „์„ฑ๊ณผ ํ•ด์„๊ฐ€๋Šฅ์„ฑ ๋…ผ์˜๋Š” 457์—์„œ LLM ํ™˜๊ฐ ๋ฐฉ์ง€ ๋ฐ ์‹ ๋ขฐ์„ฑ ํ™•๋ณด ์—์ด์ „ํŠธ ๊ฐœ๋ฐœ์˜ ํ•ต์‹ฌ ์ด์Šˆ๋ฅผ ๋”์šฑ ์‹ฌ์ธต์ ์œผ๋กœ ๊ณ ์ฐฐํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
457๋ฒˆ ๋…ผ๋ฌธ์€ AI ๊ธฐ๋ฐ˜ ์ž๋™ ์ง€์‹ ํ•ฉ์„ฑ ๋„๊ตฌ์˜ ์‹ค์ œ ํ™œ์šฉ ํšจ๊ณผ์™€ ์ž ์žฌ๋ ฅ, ๋„์ „๊ณผ์ œ ๋“ฑ์„ ์‹ฌ์ธต์ ์œผ๋กœ ๋ถ„์„ํ•ด ๋„๊ตฌ๋ณ„ ํŠน์„ฑ์„ ํ™•์žฅ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
PaperQA2 ๋“ฑ ์‹ค์ œ ๋„๋ฉ”์ธ(๊ณผํ•™ ๋ฌธํ—Œ ๋ถ„์„)์— ๋Œ€๊ทœ๋ชจ LLM์„ ์ ์šฉํ•ด ์ธ๊ฐ„๋ณด๋‹ค ๋‚˜์€ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ์„ ์‹ค์ฆํ–ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •