LLM4SR: A Survey on Large Language Models for Scientific Research

Motivation

Known:
- 1970년대 이래 자동화된 수학자(Automated Mathematician), BACON 등 컴퓨터 보조 연구 시스템 존재
- 최근 AlphaFold, OpenFold 같은 특정 과제 자동화 시스템이 과학 진전을 수천 배 가속
- GPT-4, LLaMA 등 대규모 언어 모델의 급속한 발전
Gap:
- 기존 LLM 서베이들은 모델 아키텍처나 데이터셋 같은 기술적 측면만 다룸 (Zhang et al. 260개 LLM 검토)
- 다른 서베이들은 계획(planning)이나 자동화(automation) 같은 일반적 능력만 초점
- 과학 연구 프로세스 전체 맥락에서 LLM의 역할을 통합적으로 분석한 연구 부재
Why:
- 과학 커뮤니티가 LLM의 혁신적 잠재력에 주목하면서, 연구 주기 전반에 걸친 체계적 분석 필요
- 각 연구 단계의 특수한 요구사항과 LLM 적용 가능성을 명확히 해야 함
Approach:
- 과학 연구 파이프라인의 4가지 핵심 단계별로 LLM 응용 사례 분류
- 각 단계별 방법론, 벤치마크, 평가 방법, 도전과제, 향후 방향 제시

Achievement

그림 2: 논문의 주요 내용 흐름 및 분류. 과학적 가설 발견, 실험 계획 및 실행, 논문 작성, 동료 심사의 4개 주요 영역과 각 영역의 세부 방법론 및 벤치마크를 나열함

최초의 통합 분석 프레임워크: 과학 연구 전 주기에 걸친 LLM 응용을 포괄적으로 분석한 첫 번째 서베이로, 기존 단편적 관점들을 통합
4대 핵심 영역 체계화:
- 과학적 가설 발견(§2): 문헌 기반 발견(LBD), 귀납적 추론으로부터 현대 LLM 기반 방법론(SciMON, MOOSE, FunSearch, ChemReasoner, AIScientist 등)으로 진화
- 실험 계획 및 실행(§3): 실험 설계 최적화(HuggingGPT, CRISPR-GPT, ChemCrow, Coscientist), 자동화된 실험 프로세스(데이터 준비, 실행, 분석)
- 논문 작성(§4): 인용 텍스트 생성(AutoCite, BACO), 관련 연구 생성(LitLLM, HiReview), 전체 논문 초안 작성(AutoSurvey, AI Scientist)
- 동료 심사(§5): 자동화된 심사 생성(ReviewRobot, Reviewer2), LLM 보조 심사 워크플로우(요약, 오류 감지, 심사문 작성 지원)
상세한 방법론 카탈로그: 각 영역별로 20개 이상의 주요 시스템과 방법론을 분류, 정리
벤치마크 및 평가 체계: SciMON, Tomato, DiscoveryBench, TaskBench, CiteBench, MOPRD 등 다양한 평가 기준 제시

How

문헌 기반 발견(Literature-Based Discovery, LBD)에서 LLM 기반 방법으로의 진화:
- 고전 ABC 모델(개념 A와 C가 중간 개념 B를 통해 연결)에서 시작
- 워드 벡터, 링크 예측 모델을 활용한 개선
- Wang et al.[159]의 자연어 문맥 기반 LBD로 진화하여 문장 생성으로 확대
LLM 기반 가설 발견 방법론:
- 메인 궤적: 지식 활용과 추론 강화를 통한 순차적 진화 (SciMON → MOOSE → ChemReasoner → ResearchAgent → AIScientist)
- 에이전트 기반 접근: 자율 에이전트가 문헌 검색, 데이터 분석, 반복적 정제를 통해 가설 생성
- 도메인 특화: Chemistry(ChemReasoner, MOOSE-Chem), Social Science 등 분야별 특화
실험 자동화의 세 단계:
- 데이터 준비 단계: 데이터 정제, 라벨링, 특성 공학, 분자 합성 등
- 실험 실행 단계: 에이전트가 과학 도구(화학 분석, 단백질 설계)와 상호작용
- 데이터 분석 단계: 결과 해석, 통계 분석, 논문 기반 인사이트 추출
논문 작성 자동화:
- 인용 텍스트 생성: 관련 논문을 검색하고 적절한 인용 표현 생성
- 관련 연구 섹션 생성: 기존 논문들의 주요 기여와 관계를 분석하여 자동 작성
- 전체 초안 생성: 연구 결과를 구조화된 논문으로 변환
동료 심사 자동화:
- 구조화된 리뷰 생성: 강점, 약점, 개선 제안 등을 체계적으로 작성
- 오류 감지: 일관성, 통계적 타당성, 방법론적 문제점 식별
- 심사 워크플로우 지원: 요약, 질문 생성, 최종 심사문 작성 보조

Originality

최초성: 과학 연구 전주기를 통합하는 첫 번째 LLM 서베이로서 기존 단편적 접근과 차별화
포괄성: 4개 영역 × 8-15개 세부 방법론으로 구성된 광범위한 카탈로그 제시 (총 100개 이상의 관련 시스템 분석)
역사적 맥락 제공: 고전 자동화 시스템(1970년대)에서 현대 LLM까지의 진화 과정을 추적, 각 단계의 한계와 진전을 명확히 함
실질적 가이드라인: 연구자들이 LLM을 연구 워크플로우에 실제로 통합할 수 있도록 구체적 방법론과 평가 기준 제시
도메인 교차 적용: Chemistry, Biology, Social Science 등 다양한 분야의 사례를 통해 LLM의 범용성과 특화 가능성 모두 입증

Limitation & Further Study

과학적 정확성 문제: LLM이 생성한 가설이나 분석이 과학적으로 타당한지 검증하는 메커니즘 부족. 특히 도메인 특화 지식이 필요한 분야에서 할루시네이션 문제 미해결
평가 벤치마크의 제한: 현존 벤치마크들이 대부분 제한된 도메인(화학, 특정 ML 작업)에 집중되어 있으며, 광범위한 과학 분야를 포괄하지 못함
인간-AI 협력 모델 부재: LLM의 자동화 능력과 인간 연구자의 창의성을 어떻게 효과적으로 결합할지에 대한 체계적 연구 부족
장기 실험 검증 부족: 논문에서 다룬 많은 방법론이 실제 과학 커뮤니티에서 광범위하게 채택되어 검증되지 않음
향후 연구 방향:
- 다학제 협력을 통한 도메인별 벤치마크 확대
- LLM과 전문가 시스템의 하이브리드 접근법 개발
- 과학적 엄밀성 보장을 위한 검증 프레임워크 구축
- 실제 연구실 환경에서의 파일럿 프로젝트 및 장기 추적 연구
- 도메인 특화 LLM의 파인튜닝 표준화