Futuregen: Llm-rag approach to generate the future work of scientific article

์ €์ž: Ibrahim Al Azher, Venkata Devesh Reddy Seethi, Akhil Pandey Akella, Hamed Alhoori | ๋‚ ์งœ: 2025 | DOI: N/A 📄 PDF


Essence

๊ณผํ•™ ๋…ผ๋ฌธ์˜ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ(Future Work) ์„น์…˜์„ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ(RAG), LLM ํ”ผ๋“œ๋ฐฑ ๋ฉ”์ปค๋‹ˆ์ฆ˜, LLM-as-a-judge ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ฉํ•œ ์ ‘๊ทผ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. ์ด ์—ฐ๊ตฌ๋Š” ACL๊ณผ NeurIPS ๋…ผ๋ฌธ ์•ฝ 5,500ํŽธ์œผ๋กœ๋ถ€ํ„ฐ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ž๋™ ์ถ”์ถœยท์ƒ์„ฑํ•˜๋ฉฐ, GPT-4o mini ๊ธฐ๋ฐ˜ RAG ๋ฐฉ์‹์ด ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.

Motivation

Achievement

Figure 1

์‹œ์Šคํ…œ ์•„ํ‚คํ…์ฒ˜ ๋ฐ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ

  1. ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: ACL 2023-2024(4,562ํŽธ), NeurIPS(1,000ํŽธ) ๋…ผ๋ฌธ์œผ๋กœ๋ถ€ํ„ฐ ์ €์ž-์ž‘์„ฑ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ๊ณผ OpenReview ํ”ผ์–ด ๋ฆฌ๋ทฐ์˜ ์žฅ๊ธฐ ๋ชฉํ‘œ๋ฅผ ํฌํ•จํ•œ ํฌ๊ด„์  ground truth ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ
  2. RAG ๊ธฐ๋ฐ˜ ์ƒ์„ฑ ์„ฑ๋Šฅ ํ–ฅ์ƒ: ์ƒ์œ„ 3๊ฐœ ์„น์…˜ vs. ์ „์ฒด ๋‚ด์šฉ ์ž…๋ ฅ ๋น„๊ต, ๊ด€๋ จ ๋…ผ๋ฌธ ๊ฒ€์ƒ‰์„ ํ†ตํ•œ ๋งฅ๋ฝ ๊ฐ•ํ™”๋กœ ์ƒ์„ฑ๋œ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์˜ ๊นŠ์ด์™€ ๊ด€๋ จ์„ฑ ๊ฐœ์„ 
  3. LLM ํ”ผ๋“œ๋ฐฑ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ํšจ๊ณผ: ๋ฐ˜๋ณต์  ๊ฐœ์„  ๋ฃจํ”„๋ฅผ ํ†ตํ•ด ์ƒ์„ฑ ํ…์ŠคํŠธ์˜ ์œ ์ฐฝ์„ฑ, ์ผ๊ด€์„ฑ, ๋…์ฐฝ์„ฑ ํ–ฅ์ƒ, ์ถ”๊ฐ€ ํ•™์Šต ์—†์ด ํ’ˆ์งˆ ๊ฐœ์„  ๋‹ฌ์„ฑ
  4. ๊ฐ•๊ฑดํ•œ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ: ๊ธฐ์กด NLP ์ง€ํ‘œ(ROUGE, BLEU, BERTScore)์™€ LLM ๊ธฐ๋ฐ˜ ํ‰๊ฐ€(์ฐฝ์˜์„ฑ, ์‹คํ˜„๊ฐ€๋Šฅ์„ฑ, ์ผ๊ด€์„ฑ, ํ™˜๊ฐ ํƒ์ง€)๋ฅผ ๊ฒฐํ•ฉํ•œ ๋‹ค์ธต ํ‰๊ฐ€ ์ฒด๊ณ„ ์ œ์‹œ

How

Figure 2

LLM-as-a-Judge ํ‰๊ฐ€ ํ”„๋กฌํ”„ํŠธ

Figure 3

๋ฐ˜๋ณต์  ๊ฐœ์„  ํ”„๋กฌํ”„ํŠธ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์ž๋™ ์ƒ์„ฑ์ด๋ผ๋Š” ๋ฏธ๊ฐœ์ฒ™ ์˜์—ญ์— ๋Œ€ํ•ด RAG, LLM ํ”ผ๋“œ๋ฐฑ, ๋‹ค์ธต ํ‰๊ฐ€๋ฅผ ํ†ตํ•ฉํ•œ ์ฒด๊ณ„์ ์ธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋ฉฐ, 5,500์—ฌ ํŽธ์˜ ๋…ผ๋ฌธ ๋ฐ์ดํ„ฐ์…‹๊ณผ ํ•จ๊ป˜ ๊ณต๊ฐœํ•˜์—ฌ ํ•™์ˆ  ๊ณต๋™์ฒด์— ์‹ค์งˆ์  ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค. ๋‹ค๋งŒ ๋‹จ์ผ LLM ๋ชจ๋ธ ์ค‘์‹ฌ์˜ ์‹คํ—˜๊ณผ ํ•™๋ฌธ ๋ถ„์•ผ์˜ ์ œํ•œ, ์ƒ์„ฑ ๊ฒฐ๊ณผ์˜ ์‹ค์ œ ์˜ํ–ฅ๋ ฅ ์ธก์ • ๋ถ€์กฑ์ด ์ œํ•œ ์š”์†Œ์ด๋‚˜, ์ „๋ฐ˜์ ์œผ๋กœ ์˜๋ฏธ ์žˆ๋Š” ํ•™์ˆ  ๊ธฐ์—ฌ๋ฅผ ์ œ๊ณตํ•˜๋Š” ์šฐ์ˆ˜ํ•œ ์—ฐ๊ตฌ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
3391 'Retrieval-Augmented Generation for Large Language Models' ๋…ผ๋ฌธ์€ RAG ๊ฐœ๋…์˜ ์ „๋ฐ˜์  ์ดํ•ด์™€ ์ตœ์‹  ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋™ํ–ฅ์„ ์งš์–ด์ฃผ์–ด, 366 Futuregen ๋ฐฉ์‹์˜ RAG ์„ค๊ณ„์— ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
RAG ๊ธฐ๋ฐ˜ ํ…์ŠคํŠธ ์ƒ์„ฑ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์„ ํ–‰ ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ(RAG) ๊ธฐ๋ฐ˜ ํ•™์ˆ  ๋…ผ๋ฌธ ์ƒ์„ฑ์˜ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
RAG์™€ LLM ํ†ตํ•ฉ ๋ฐ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ข…ํ•ฉ์ ์œผ๋กœ ๋‹ค๋ฃจ๋ฏ€๋กœ, 366 ๋…ผ๋ฌธ์˜ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€๋จ.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
366์˜ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ(RAG) ๋ฐฉ์‹์€ 018์—์„œ ์ œ์‹œํ•œ ์ƒ์˜ํ•™ ์ง€์‹ ๋งˆ์ด๋‹ ๋ฐ RAG ๊ธฐ๋ฐ˜ ์ถ”๋ก  ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์ด๋ก ์ ์œผ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™๋…ผ๋ฌธ์—์„œ Retrieval-Augmented Generation ๊ธฐ๋ฒ•์„ ๋‹ค์–‘ํ•œ ๋ฐฉ์‹์œผ๋กœ ์ ์šฉํ•˜๋ฏ€๋กœ, Future Work ์ž๋™ ์ƒ์„ฑ๊ณผ ๊ฐ™์€ downstream task์™€์˜ ์‘์šฉ ๋น„๊ต์— ์ ํ•ฉํ•จ.
๋‹ค๋ฅธ ์ ‘๊ทผ
473 'Large Language Models for Automated Open-domain Scientific Hypothesis Generation' ๋…ผ๋ฌธ์€ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ์งˆ๋ฌธ ์ƒ์„ฑ์ด๋ผ๋Š” ๋ชฉ์ ์— ๋Œ€ํ•ด LLM ๊ธฐ๋ฐ˜์˜ ํ•˜์ดํฌ์‹œ์Šค ์ž๋™ ์ƒ์„ฑ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•ด ๋‘ ๋…ผ๋ฌธ์„ ๋น„๊ตํ•˜๋ฉด RAG vs ์ƒ๋žตํ˜• ๋ฐฉ๋ฒ•๋ก ์˜ ์ฐจ์ด๋ฅผ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ธฐ๋ฐ˜ ํ•™์ˆ  ๋ฆฌ๋ทฐ ์‹œ์Šคํ…œ์˜ ํšจ์šฉ์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ๊ณผํ•™์  ๊ธ€์“ฐ๊ธฐ ์ง€์›์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
RAG ์—์ด์ „ํŠธ๋ฅผ ํ™œ์šฉํ•œ ๊ตฌ์กฐํ™”-๋น„๊ตฌ์กฐํ™” ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ์˜ ๋Œ€์•ˆ์  ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์•ˆํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ๊ณผํ•™ ๋…ผ๋ฌธ ๋‚ด์šฉ ์ž๋™ ์ƒ์„ฑ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•™์ˆ  ๋ฌธ์„œ ์ž๋™ ์ƒ์„ฑ์„ ์œ„ํ•œ ๋‹ค๋ฅธ LLM ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
3388 ๋…ผ๋ฌธ์€ ์ž„ํŒฉํŠธ๊ฐ€ ๋†’์€ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์˜ˆ์ธก ๋ฐ ์ƒ์„ฑ, ํ‰๊ฐ€์— LLM๊ณผ RAG ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์„ ์จ์„œ ์œ ์‚ฌํ•œ LLM-RAG ๊ณผํ•™ ์‘์šฉ์˜ ๋Œ€์•ˆ์„ ๋ณด์—ฌ์คŒ.
ํ›„์† ์—ฐ๊ตฌ
366์˜ LLM-RAG ๊ธฐ๋ฐ˜ ๋ฏธ๋ž˜์—ฐ๊ตฌ ์ž๋™์ƒ์„ฑ์€ 675์˜ RAG ์„œ๋ฒ ์ด ๋ฐ ์‘์šฉ ์‚ฌ๋ก€๋“ค์„ ๋ฐ”ํƒ•์œผ๋กœ ์ถ”๊ฐ€ ์‹คํ—˜ ํ™•์žฅ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋…ผ๋ฌธ์˜ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์ž๋™์ƒ์„ฑ ๋“ฑ ๋…ผ๋ฌธ ๋‚ด์šฉ์˜ ์š”์•ฝ ๋ฐ ํ™•์žฅ์  ์ƒ์„ฑ์œผ๋กœ LLM ๊ธฐ๋ฐ˜ ๋ฌธํ—Œ ์š”์•ฝ ์ž๋™ํ™”์™€ ์ƒํ˜ธ๋ณด์™„์ ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ฏธ๋ž˜ ์—ฐ๊ตฌ๋ฐฉํ–ฅ, ๊ด€๋ จ ์—ฐ๊ตฌ ๋“ฑ ๋…ผ๋ฌธ ์š”์•ฝ ๋ฐ ์ƒ์„ฑ ์ž‘์—…์—์„œ ์ „์ฒด ๋…ผ๋ฌธ ๊ธฐ๋ฐ˜ ์š”์•ฝ ๋ฐฉ์‹์„ ํ™•์žฅ ์ ์šฉํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
RAG ๊ธฐ๋ฐ˜ ๊ณผํ•™๋…ผ๋ฌธ Future Work ์ƒ์„ฑ ๋“ฑ ์‹ค์ œ RAG-LLM ํ†ตํ•ฉ์˜ ์‚ฌ๋ก€์—ฐ๊ตฌ๋กœ, 034์˜ ์„œ๋ฒ ์ด ๋‚ด์šฉ์„ ๊ตฌ์ฒด์  ์‘์šฉ์— ์—ฐ๊ฒฐํ•  ์ˆ˜ ์žˆ์Œ.
์‘์šฉ ์‚ฌ๋ก€
005์˜ ์žฅ๋ฌธ๋งฅ LLM ๊ตฌ์ถ• ๋ฐ ํ‰๊ฐ€ ์„œ๋ฒ ์ด๋Š” 366์—์„œ ๋ฏธ๋ž˜ ์—ฐ๊ตฌ ์ž๋™์ƒ์„ฑ์— ๋กฑ์ปจํ…์ŠคํŠธ LLM ํ™œ์šฉ ์‚ฌ๋ก€๋กœ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
018์˜ RAG ๋ฐ LLM ํ™œ์šฉ ๊ธฐ์ˆ ์€ 366์—์„œ ๊ณผํ•™ ๋…ผ๋ฌธ์˜ ๋ฏธ๋ž˜ ์„น์…˜ ์ž๋™์ƒ์„ฑ ๋“ฑ ์‘์šฉ ์‚ฌ๋ก€๋กœ ์—ฐ๊ฒฐ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •