LLM4SR: A Survey on Large Language Models for Scientific Research

์ €์ž: Ziming Luo, Zonglin Yang, Zexin Xu, Wei Yang, Xinya Du | ๋‚ ์งœ: 2025-01-08 | DOI: 10.48550/arXiv.2501.04306 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ๋…ผ๋ฌธ์—์„œ ๋‹ค๋ฃจ๋Š” ๊ณผํ•™ ์—ฐ๊ตฌ ํŒŒ์ดํ”„๋ผ์ธ์˜ ์ฒด๊ณ„์  ๊ฐœ์š”. ์ˆœํ™˜ ๊ณผ์ •์€ ๊ณผํ•™์  ๊ฐ€์„ค ๋ฐœ๊ฒฌ, ์‹คํ—˜ ๊ณ„ํš ๋ฐ ์‹คํ–‰, ๋…ผ๋ฌธ ์ž‘์„ฑ, ๋…ผ๋ฌธ ์‹ฌ์‚ฌ๋กœ ๊ตฌ์„ฑ๋จ

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ๊ณผํ•™ ์—ฐ๊ตฌ์˜ ์ „ ์ฃผ๊ธฐ(๊ฐ€์„ค ๋ฐœ๊ฒฌ, ์‹คํ—˜ ๊ณ„ํš, ๋…ผ๋ฌธ ์ž‘์„ฑ, ๋™๋ฃŒ ์‹ฌ์‚ฌ)์— ์–ด๋–ป๊ฒŒ ์ ์šฉ๋˜๊ณ  ์žˆ๋Š”์ง€๋ฅผ ์ตœ์ดˆ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ•œ ์ข…ํ•ฉ ์„œ๋ฒ ์ด์ด๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๊ฐ ์—ฐ๊ตฌ ๋‹จ๊ณ„๋ณ„ LLM์˜ ๋…ํŠนํ•œ ์—ญํ• , ๊ณผ์ œ๋ณ„ ๋ฐฉ๋ฒ•๋ก , ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ข…ํ•ฉ์ ์œผ๋กœ ์ •๋ฆฌํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: ๋…ผ๋ฌธ์˜ ์ฃผ์š” ๋‚ด์šฉ ํ๋ฆ„ ๋ฐ ๋ถ„๋ฅ˜. ๊ณผํ•™์  ๊ฐ€์„ค ๋ฐœ๊ฒฌ, ์‹คํ—˜ ๊ณ„ํš ๋ฐ ์‹คํ–‰, ๋…ผ๋ฌธ ์ž‘์„ฑ, ๋™๋ฃŒ ์‹ฌ์‚ฌ์˜ 4๊ฐœ ์ฃผ์š” ์˜์—ญ๊ณผ ๊ฐ ์˜์—ญ์˜ ์„ธ๋ถ€ ๋ฐฉ๋ฒ•๋ก  ๋ฐ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋‚˜์—ดํ•จ

  1. ์ตœ์ดˆ์˜ ํ†ตํ•ฉ ๋ถ„์„ ํ”„๋ ˆ์ž„์›Œํฌ: ๊ณผํ•™ ์—ฐ๊ตฌ ์ „ ์ฃผ๊ธฐ์— ๊ฑธ์นœ LLM ์‘์šฉ์„ ํฌ๊ด„์ ์œผ๋กœ ๋ถ„์„ํ•œ ์ฒซ ๋ฒˆ์งธ ์„œ๋ฒ ์ด๋กœ, ๊ธฐ์กด ๋‹จํŽธ์  ๊ด€์ ๋“ค์„ ํ†ตํ•ฉ
  2. 4๋Œ€ ํ•ต์‹ฌ ์˜์—ญ ์ฒด๊ณ„ํ™”:
    • ๊ณผํ•™์  ๊ฐ€์„ค ๋ฐœ๊ฒฌ(ยง2): ๋ฌธํ—Œ ๊ธฐ๋ฐ˜ ๋ฐœ๊ฒฌ(LBD), ๊ท€๋‚ฉ์  ์ถ”๋ก ์œผ๋กœ๋ถ€ํ„ฐ ํ˜„๋Œ€ LLM ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก (SciMON, MOOSE, FunSearch, ChemReasoner, AIScientist ๋“ฑ)์œผ๋กœ ์ง„ํ™”
    • ์‹คํ—˜ ๊ณ„ํš ๋ฐ ์‹คํ–‰(ยง3): ์‹คํ—˜ ์„ค๊ณ„ ์ตœ์ ํ™”(HuggingGPT, CRISPR-GPT, ChemCrow, Coscientist), ์ž๋™ํ™”๋œ ์‹คํ—˜ ํ”„๋กœ์„ธ์Šค(๋ฐ์ดํ„ฐ ์ค€๋น„, ์‹คํ–‰, ๋ถ„์„)
    • ๋…ผ๋ฌธ ์ž‘์„ฑ(ยง4): ์ธ์šฉ ํ…์ŠคํŠธ ์ƒ์„ฑ(AutoCite, BACO), ๊ด€๋ จ ์—ฐ๊ตฌ ์ƒ์„ฑ(LitLLM, HiReview), ์ „์ฒด ๋…ผ๋ฌธ ์ดˆ์•ˆ ์ž‘์„ฑ(AutoSurvey, AI Scientist)
    • ๋™๋ฃŒ ์‹ฌ์‚ฌ(ยง5): ์ž๋™ํ™”๋œ ์‹ฌ์‚ฌ ์ƒ์„ฑ(ReviewRobot, Reviewer2), LLM ๋ณด์กฐ ์‹ฌ์‚ฌ ์›Œํฌํ”Œ๋กœ์šฐ(์š”์•ฝ, ์˜ค๋ฅ˜ ๊ฐ์ง€, ์‹ฌ์‚ฌ๋ฌธ ์ž‘์„ฑ ์ง€์›)
  3. ์ƒ์„ธํ•œ ๋ฐฉ๋ฒ•๋ก  ์นดํƒˆ๋กœ๊ทธ: ๊ฐ ์˜์—ญ๋ณ„๋กœ 20๊ฐœ ์ด์ƒ์˜ ์ฃผ์š” ์‹œ์Šคํ…œ๊ณผ ๋ฐฉ๋ฒ•๋ก ์„ ๋ถ„๋ฅ˜, ์ •๋ฆฌ
  4. ๋ฒค์น˜๋งˆํฌ ๋ฐ ํ‰๊ฐ€ ์ฒด๊ณ„: SciMON, Tomato, DiscoveryBench, TaskBench, CiteBench, MOPRD ๋“ฑ ๋‹ค์–‘ํ•œ ํ‰๊ฐ€ ๊ธฐ์ค€ ์ œ์‹œ

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ์ด ์„œ๋ฒ ์ด๋Š” ๊ธ‰์†ํžˆ ๋ฐœ์ „ํ•˜๋Š” LLM ๊ธฐ์ˆ ์ด ๊ณผํ•™ ์—ฐ๊ตฌ์˜ ๋ชจ๋“  ๋‹จ๊ณ„์— ์–ด๋–ป๊ฒŒ ํ˜์‹ ์„ ๊ฐ€์ ธ์˜ค๊ณ  ์žˆ๋Š”์ง€๋ฅผ ์ตœ์ดˆ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ์ •๋ฆฌํ•œ ์ค‘์š”ํ•œ ์ž‘์—…์ด๋‹ค. 100๊ฐœ ์ด์ƒ์˜ ๊ด€๋ จ ์‹œ์Šคํ…œ์„ ๋ถ„์„ํ•˜๊ณ  4๊ฐœ ์˜์—ญ๋ณ„๋กœ ์ƒ์„ธํžˆ ๋ถ„๋ฅ˜ํ•˜์—ฌ, ์—ฐ๊ตฌ์ž๋“ค์ด LLM์„ ์ž์‹ ์˜ ์—ฐ๊ตฌ์— ์‹ค์ œ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์‹ค์งˆ์  ๋กœ๋“œ๋งต์„ ์ œ๊ณตํ•œ๋‹ค. ๋‹ค๋งŒ LLM์˜ ๊ณผํ•™์  ์ •ํ™•์„ฑ ๊ฒ€์ฆ ๋ฉ”์ปค๋‹ˆ์ฆ˜, ๋„๋ฉ”์ธ๋ณ„ ํŠนํ™” ํ‰๊ฐ€ ๊ธฐ์ค€์˜ ๋ถ€์กฑ, ์ธ๊ฐ„-AI ํ˜‘๋ ฅ์— ๋Œ€ํ•œ ๊นŠ์ด ์žˆ๋Š” ๋…ผ์˜๊ฐ€ ๋ณด๊ฐ•๋˜๋ฉด ๋”์šฑ ์™„์„ฑ๋„ ๋†’์€ ๊ฐ€์ด๋“œ๊ฐ€ ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Retrieval-Augmented Generation(RAG)์— ๊ด€ํ•œ ์ด๋ก ์  ๋ถ„์„์€ ๊ณผํ•™์—ฐ๊ตฌ LLM ์ ์šฉ(506)์—์„œ ์‹ ๋ขฐ๋„ยท์ง€์‹ ์ ‘๊ทผ ๋ฐฉ์‹ ๋…ผ์˜์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
697์˜ LLM ๋ฌผ๋ฆฌ์ถ”๋ก  ๋ถ„์•ผ ๋Šฅ๋ ฅํ‰๊ฐ€ ๋ฌธ์ œ์˜ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์ด์ž ์ „์ฒด ํ˜„ํ™ฉ์„ 506์ด ์„œ๋ฒ ์ด ํ˜•ํƒœ๋กœ ํญ๋„“๊ฒŒ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
031๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ๊ณผ์ •์—์„œ LLM์˜ ๊ฐ€์„ค ์ƒ์„ฑ๊ณผ ๊ทธ ๋ฐฉ๋ฒ•๋ก  ๋ฆฌ๋ทฐ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, 506๋ฒˆ ๊ณผํ•™์—ฐ๊ตฌ ์ „์ฃผ๊ธฐ LLM ์ ์šฉ ์ข…ํ•ฉ ๋ฆฌ๋ทฐ์˜ ๊ธฐ์ดˆ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM4SR(506)์€ ๊ณผํ•™ ๋ถ„์•ผ์—์„œ์˜ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ํ™œ์šฉ ๋ฐ ํ™•์žฅ์„ฑ์„ ๋‹ค๋ฃจ์–ด, 342์˜ ํ™˜๊ฒฝ๊ณผํ•™ ์‘์šฉ ๋…ผ์˜์— ์ด๋ก ์  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๋“ฑ ์ตœ์‹  AI ๋„๊ตฌ๊ฐ€ ์—ฐ๊ตฌํ‰๊ฐ€, ์ƒ์‚ฐ์„ฑ ์ง€ํ‘œ ๋“ฑ ๊ณผํ•™ ์ „ ์ฃผ๊ธฐ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋ถ„์„ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€ํ˜•์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ž์œจ๊ณผํ•™ ์—์ด์ „ํŠธ ์„œ๋ฒ ์ด๋กœ, ๊ฐ ๋…ผ๋ฌธ์ด LLM์˜ ๊ณผํ•™์  ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋‹ค๋ฅธ ๊ด€์ (๋‹จ์ˆœ ์ž๋™ํ™” vs. ์—์ด์ „ํŠธํ™”)์—์„œ ์กฐ๋งํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ ํŠนํ™” LLM ์„œ๋ฒ ์ด๋กœ์„œ, ๋„๋ฉ”์ธ๋ณ„ ๋ชจ๋ธยท๋ฐ์ดํ„ฐ์…‹ยท์ ์šฉ ์‚ฌ๋ก€๋ฅผ ํญ๋„“๊ฒŒ ๋ถ„์„ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ์—ฐ๊ตฌ ์ฃผ๊ธฐ ๋‚ด LLMยท์—์ด์ „ํŠธ ํ™œ์šฉ ์ „์ฒด๋ฅผ ๋ถ„์„ํ•œ ์„œ๋ฒ ์ด๋กœ, ์‚ฌ๋ก€๋ณ„ ์‚ฌ์šฉ ํ˜„ํ™ฉ๊ณผ ๋„์ „๊ณผ์ œ๋ฅผ ์ด๋ก ์ ์œผ๋กœ ์ •๋ฆฌํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM4SR ๋…ผ๋ฌธ์€ LLM์ด ๊ณผํ•™์  ์—ฐ๊ตฌ์—์„œ ์–ด๋–ป๊ฒŒ ํ™œ์šฉ๋˜๊ณ  ํ‰๊ฐ€๋˜๋Š”์ง€ ์„ธ๋ถ€์ ์œผ๋กœ ๋‹ค๋ฃจ์–ด, NLP ์ค‘์‹ฌ ์„œ๋ฒ ์ด์˜ ๋‚ด์šฉ์„ ๊ณผํ•™์  ๋ฌธ๋งฅ์— ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
506๋ฒˆ ๋…ผ๋ฌธ์€ LLM์„ ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ ์ฃผ๋„ ๊ณผํ•™์  ํƒ๊ตฌ ์ž๋™ํ™”์˜ ์„ธ๋ถ€ ์—ฐ๊ตฌ ํŠธ๋ Œ๋“œ๋ฅผ ์ถ”๊ฐ€์ ์œผ๋กœ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ดˆ๊ธฐ ๋ฒ„์ „ AI Scientist ๋…ผ๋ฌธ์€ LLM์„ ์ „์ฃผ๊ธฐ ๊ณผํ•™ ์—ฐ๊ตฌ์— ์ ์šฉํ•œ ์‹ค์ œ ์ž๋™ํ™” ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•˜์—ฌ, ์„œ๋ฒ ์ด์˜ ๋‚ด์šฉ๊ณผ ์‹ค์ œ ๊ตฌํ˜„ ์˜ˆ์‹œ๋ฅผ ์—ฐ๊ณ„ํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
352 ๋…ผ๋ฌธ์€ 506์˜ ์„œ๋ฒ ์ด์—์„œ 'Agentic Science'๋ผ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์„ ๋„์ž…ํ•ด ์ž๋™ํ™”์˜ ์ด๋ก ์  ์ง€ํ‰์„ ๋„“ํž™๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
RAG ๊ธฐ์ˆ ์— ๋Œ€ํ•œ ํฌ๊ด„์  ๋ถ„์„์€ ๊ณผํ•™ ์—ฐ๊ตฌ ๊ฐ ๋‹จ๊ณ„๋ณ„ ์‹ค์งˆ์  LLM ์ ์šฉ ์‚ฌ๋ก€ ๋ฐ ์‹ ๋ขฐ์„ฑ ํ•œ๊ณ„ ๋ถ„์„(506)๊ณผ ๊ธด๋ฐ€ํžˆ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ํ•™์ˆ  ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ๋ฒค์น˜๋งˆํฌ๊ฐ€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์—ฐ๊ตฌ ์ „์ฒด ์›Œํฌํ”Œ๋กœ์šฐ ํ‰๊ฐ€์— ์–ด๋–ป๊ฒŒ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLM ๋“ฑ AI ์—์ด์ „ํŠธ๊ฐ€ ์‹ค์ œ ์—ฐ๊ตฌ ํ˜„์žฅ์— ์–ด๋–ป๊ฒŒ ์ฑ„ํƒยท์‚ฌ์šฉ๋˜๋Š”์ง€ ๋Œ€๊ทœ๋ชจ ํ˜„์žฅ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •