Large Language Models are Zero Shot Hypothesis Proposers

Motivation

Known:
- 과학 문헌과 데이터의 폭증으로 인해 정보 장벽이 형성되어 과학 발견의 속도가 저하됨
- 가설 형성은 과학적 발견 프로세스의 핵심 단계임
- LLM은 광범위한 학제간 지식을 보유하고 있음
Gap:
- LLM이 과학 가설을 제시할 수 있는지에 대한 형식적인 연구가 부재
- 영점 학습(zero-shot) 조건에서 새로운 가설을 생성할 수 있는지 검증된 바 없음
- 가설 생성 능력을 평가할 체계적인 메트릭이 없음
Why:
- 정보 장벽을 해소하고 학제 간 교차 수분(cross-pollination)을 촉진하기 위해 LLM의 지식 통합 능력이 필요
- 자동화된 가설 생성은 과학 발견의 속도와 효율성을 획기적으로 향상시킬 수 있음
Approach:
- 2000년 1월부터 2023년 9월까지의 생의학 문헌에서 배경지식-가설 쌍 데이터셋 구성
- 발행 날짜를 기준으로 시간 기반 분할 (훈련: 2023년 1월 이전, 테스트: 2023년 8월 이후)
- 다양한 LLM 모델의 영점, 소수샷(few-shot), 미세조정 성능 평가
- 다중 에이전트 협업 프레임워크 도입

How

데이터셋 구성:
- PubMed에서 10,000개 의학 논문 수집
- 배경지식-가설 쌍의 형태로 구조화
- 발행 날짜 기반 시간적 분할로 데이터 누출 방지
- 8월 2023 논문을 "보지 못한(unseen)" 테스트 셋으로 지정
문제 정의:
- 텍스트 완성 작업(text completion task)으로 형식화
- 명령 I, 배경지식 X를 입력으로 하여 가설 Y 생성: M(I, X) = Y
- 확률 기반 목적함수: arg max의 곱 P(y_t|y_{1,...,t-1}, I, X)
평가 방법론:
- ChatGPT 기반 자동 평가와 인간 평가 결합
- 4개 차원의 평가 메트릭 설계 (타당성, 참신성, 명확성, 관련성 등 유추)
- 자동 평가와 인간 평가 간 상관계수 계산
다중 에이전트 협업 프레임워크:
- 역할 기반 설계 (예: 연구자, 평가자 역할)
- 외부 도구 통합 (검색 도구, 문헌 조회 등)
- 다양한 모델 간 협업을 통한 불확실성 증가
모델 평가 대상:
- 폐쇄형 모델: ChatGPT, GPT-4
- 오픈소스: LLaMA 65B 등
- 영점, 소수샷, 미세조정 설정 전반 검토

같이 보면 좋은 논문

기반 연구

MOLIERE: Automatic Biomedical Hypothesis Generation System

생의학 지식 그래프 구축 및 숨겨진 연결 발견의 이론적 기반을 제공한다.

기반 연구

Investigating zero-and few-shot generalization in fact verification

Large Language Models are Zero Shot Hypothesis Proposers 논문은 zero-shot 능력을 구체적으로 평가해 441의 팩트 체크 zero-shot/전이 능력 분석의 기반이 됩니다.

기반 연구

Hypothesis Generation with Large Language Models

419는 LLM의 과학적 가설 생성 능력을 비교 평가하는 이론적/벤치마크적 배경을 제시해, 468의 zero-shot 능력 논의를 심화한다.

기반 연구

Can large language models detect misinformation in scientific news reporting? arXiv preprint arXiv:2402.14268, 2024.

Large Language Models are Zero Shot Hypothesis Proposers 논문은 LLM의 가설 생성·평가 능력을 다루어, 과학 오보 검출 모델의 가능성 및 한계 이해에 도움이 됩니다.

기반 연구

Literature meets data: A synergistic approach to hypothesis generation

대형 언어모델의 제로샷 가설 생성 능력을 실증 평가하여, 문헌+데이터 통합 기반의 가설 생성 논문 배경을 이룬다.

기반 연구

Improving health question answering with reliable and time-aware evidence retrieval

Large Language Models are Zero Shot Hypothesis Proposers 논문은 LLM의 과학적 질의·가설 생성 능력의 이론적 근거를 제공하여, 신뢰성·시간정보 통합 QA 개선의 토대를 마련합니다.

기반 연구

Large language models for zero-shot inference of causal structures in biology

Large Language Models are Zero Shot Hypothesis Proposers(468)는 LLM의 새로운 과학 가설 제안 능력을 평가하며, 474의 인과구조 추론력에 대한 이론적 배경이 된다.

기반 연구

Text2world: Benchmarking large language models for symbolic world model generation

LLM의 zero-shot 가설 생성 능력 개념을 실행 기반 세계 모델 평가와 연결지어 기호적 모델링 한계점을 심도 있게 분석할 수 있습니다.

기반 연구

Introspective growth: Automatically advancing llm expertise in technology judgment

LLM의 제로샷 기반 가설 생성/추론 능력을 평가함으로써, 기술 판단에 필요한 LLM의 실제적 활용 지식을 파악할 수 있다.

기반 연구

A Survey on Hypothesis Generation for Scientific Discovery in the Era of Large Language Models

031 논문은 과학적 발견을 위한 가설 생성에 관한 서베이로, 468의 아이디어 도약에 이론적 근거와 배경을 제시합니다.

다른 접근

Learning to generate research idea with dynamic control

연구 가설 생성에서 제어 가능한 강화학습 기반 방법과 불확실성 기반 제너레이티브 접근을 비교·분석한다.

다른 접근

MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses

Large Language Models are Zero Shot Hypothesis Proposers 논문은 LLM의 제로샷 과학 가설 생성 가능성을 탐구하며, MOOSE-Chem의 창발적 적용과 비교된다.

다른 접근

Hypothesis Generation with Large Language Models

LLM의 zero-shot 가설 생성 능력을 분석해 HypoGeniC과 탐색 전략의 효과 차이를 보여줍니다.

후속 연구

Toward Reliable Scientific Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

820은 LLM의 과학적 가설 생성 시 신뢰성과 평가 척도에 집중하여, 468의 주장에 실증적 근거와 실제적 한계를 더해준다.

후속 연구

Spark: A system for scientifically creative idea generation

LLM 기반 아이디어 생성 기능이 불확실성 와중에 실제 출판 연구와의 대응성을 보이며, 통합적 아이디어 평가 시스템으로 발전한다.

후속 연구

MRAgent: an LLM-based automated agent for causal knowledge discovery in disease via Mendelian randomization

LLM의 제로샷 가설 제안 및 인과탐색 성능 연구 결과를 통해, MRAgent의 실습적 인과 관계 발견을 현실적인 적용 예제로 확장한다.

응용 사례

Generating a structured summary of numerous academic papers: Dataset and Method

374는 대량 학술문헌의 요약을 LLM으로 생성하여, 468에서 제시하는 학습되지 않은 가설과 실제 검증된 정보 간 연결 응용이 가능합니다.

응용 사례

Advancing the scientific method with large language models: From hypothesis to discovery

가설 도출 능력이 실제 과학적 생산과정에서 어떻게 활용되는지 LLM 생산성 향상 맥락으로 연결됩니다.

반론/비판

Wrong-of-Thought: An Integrated Reasoning Framework with Multi-Perspective Verification and Wrong Information

Large Language Models are Zero Shot Hypothesis Proposers 논문은 다중 관점/오류 피드백 없이도 LLM이 창의적 추론을 수행할 수 있다는 점을 강조하며, Wrong-of-Thought(887)의 다중 검증 전략 접근과 대조된다.

Large Language Models are Zero Shot Hypothesis Proposers

Essence

Motivation

Achievement

How

Originality

Limitation & Further Study

Evaluation

같이 보면 좋은 논문

Large Language Models are Zero Shot Hypothesis Proposers

Essence

Motivation

Achievement

How

Originality

Limitation & Further Study

Evaluation

같이 보면 좋은 논문

🎧 Audio Overview