Scientific hypothesis generation by large language models: laboratory validation in breast cancer treatment

저자: Abbi Abdel-Rehim, Hector Zenil, Oghenejokpeme Orhobor, Marie Fisher, Ross J. Collins, Elizabeth Bourne, Gareth W. Fearnley, Emma Tate, Holly X. Smith, Larisa N. Soldatova, Ross King | 날짜: 06/2025 | DOI: 10.1098/rsif.2024.0674 📄 PDF

Essence

Figure 1. The overall structure of our experiments. GPT4 was previously trained on data on a large fraction of the text

GPT-4를 이용하여 유방암 치료를 위한 새로운 약물 조합 가설을 생성하고 실험실에서 검증하여, LLM(Large Language Model)이 과학적 가설 생성의 가치 있는 도구임을 입증했다.

Motivation

Known: LLM은 다양한 작업에서 뛰어난 성능을 보이고 있으며, 과학 분야에서도 텍스트 요약, 데이터 분석, 논문 작성 등 여러 응용이 가능하다. 다만 LLM의 확률적 구조로 인한 'hallucination(환각)' 현상은 대부분의 응용에서 해롭다.
Gap: LLM이 과학적 가설 생성에 유용할 수 있는 가능성은 명확하지만, 이를 실제 실험으로 검증한 연구는 거의 없었다. 특히 유방암 치료와 같은 실제 임상 응용 분야에서의 활용 가능성을 체계적으로 검증한 사례가 부족하다.
Why: 유방암은 여성에서 가장 흔한 암이며, 약물 내성으로 인한 치료 효과 감소가 문제인데, LLM을 통한 신약 조합 발굴은 신약 개발 시간과 비용을 단축할 수 있는 잠재력이 크다.
Approach: GPT-4에 MCF7 유방암 세포주에 대해 작용하고 MCF10A 정상 세포주에는 해를 끼치지 않는 FDA 승인 약물 조합을 제시하도록 프롬프트하고, 생성된 가설에 대해 실험실 검증을 수행하여 synergy score를 평가했다.

Achievement

첫 번째 반복 성공: GPT-4가 제시한 12개 약물 조합 중 3개가 양성 대조군을 초과하는 synergy score 달성
적응형 가설 생성: 초기 결과를 바탕으로 GPT-4가 생성한 새로운 조합 중 4개 테스트 중 3개가 양성 synergy score 달성
높은 특이성: 8개 조합이 MCF7에서 MCF10A보다 높은 HSA score 보유
광범위한 synergy 발견: 12개 가설 조합 중 10개에서 synergistic 영역 확인
문헌에 없는 신규 가설: 생성된 모든 약물 조합이 암 치료 문헌에 존재하지 않는 완전히 새로운 조합

How

Figure 1. The overall structure of our experiments. GPT4 was previously trained on data on a large fraction of the text

GPT-4에 구체적 프롬프트 제시 (MCF7 표적, MCF10A 피해 회피, synergistic 가능성)
비암 치료제(non-antineoplastic drugs) 중심의 FDA 승인 약물 조합 생성
SynergyFinder 3.0 소프트웨어를 이용한 HSA(Highest Single Agent) synergy score 계산
양성 및 음성 대조군 설정 (양성: doxorubicin + cyclophosphamide, 음성: 유해가능 약물 조합)
두 번째 반복: 초기 결과를 입력으로 새로운 약물 조합 생성 및 재검증

Originality

LLM의 'hallucination'을 부정적 특성이 아닌 과학 가설 생성의 긍정적 자산으로 재해석하는 새로운 관점", '실제 실험실 검증을 통해 LLM 생성 가설의 실질적 가치를 객관적으로 입증한 첫 사례
반복적 학습-검증 루프(두 번째 반복)를 통한 적응형 가설 생성 시연
기존 문헌에 없는 완전히 새로운 약물 조합의 체계적 발굴

Limitation & Further Study

제한된 표본 크기: 12개 조합만 테스트하여 통계적 일반화 한계
단일 세포주 모델: MCF7만 사용하여 유방암의 다양한 분자 아형(molecular subtype) 미반영
대조군 선택 편향: 연구자 자신이 대조군을 선택하지 않고 GPT-4에 의존
메커니즘 분석 부재: synergy가 발생하는 생물학적 메커니즘에 대한 심화 분석 필요
후속 연구: (1) 더 많은 유방암 세포주 및 환자 유래 샘플(PDX) 모델에서 검증, (2) in vivo 동물 모델 실험, (3) synergy 메커니즘의 상세 분석, (4) 다른 암종으로의 확장 가능성 평가

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 연구는 LLM이 단순한 정보 도구를 넘어 과학적 발견의 실질적 파트너가 될 수 있음을 최초로 엄격하게 입증한 획기적 연구이다. 약물 조합 개발이라는 임상적으로 중요한 분야에서 실현 가능성을 보여주었으나, 통계적 견고성과 메커니즘 규명을 위한 추가 연구가 필요하다.

같이 보면 좋은 논문

기반 연구

Highly accurate protein structure prediction with AlphaFold

719는 LLM 기반 과학적 가설 탐색의 원리를 제시하여 AlphaFold의 혁신적 발견에서 나타난 AI-주도 과학발견 프레임워크의 이론적 토대를 제공한다.

기반 연구

Hypothesis Generation with Large Language Models

419 논문은 LLM 기반 과학적 가설 생성의 개념 및 기법을 체계적으로 정리하여, 719의 가설 생성 실증 연구의 이론적 기반이 됩니다.

기반 연구

Improving Scientific Hypothesis Generation with Knowledge Grounded Large Language Models

Scientific hypothesis generation by large language models 논문은 LLM을 과학적 가설 생성에 활용하는 기본 한계와 문제를 종합적으로 고찰, KG-CoI 시스템의 이론적 배경을 형성합니다.

기반 연구

Simulating tabular datasets through LLMs to rapidly explore hypotheses about real-world entities

LLM의 과학적 가설 생성 및 추론 성능 메커니즘이 데이터 기반 시뮬레이션 방식과 근본적으로 연계된다.

기반 연구

NSF-SCIFY: Mining the NSF Awards Database for Scientific Claims

579 논문은 과학적 주장 생성 및 검증을 위한 데이터마이닝 방식을 제시해 719의 LLM 기반 가설 생성의 기초가 됩니다.

기반 연구

Toward Reliable Scientific Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

신뢰할 수 있는 과학적 가설 생성 및 평가 프레임워크를 통해 실험실 검증 연구의 신뢰성 근거를 제공한다.

기반 연구

Predicting field experiments with large language models

Scientific hypothesis generation by large language models 논문은 LLM 기반의 과학적 가설 및 실험 예측의 이론적 근거와 연구동향을 제시합니다.

기반 연구

34 examples of llm applications in materials science and chemistry: Towards automation, assistants, agents, and accelerated scientific discovery

과학적 가설 생성에 LLM을 적용한 사례를 중심으로, 002의 다양한 응용이 과학적 발견에 어떻게 기여하는지 이론적 배경을 이해할 수 있다.

기반 연구

Improving research idea generation through data: An empirical investigation in social science

Scientific hypothesis generation by large language models(719)은 LLM 기반 아이디어 및 가설 생성의 원리와 한계를 논의하며, 425의 데이터 기반 아이디어 향상 기법에 이론적 근거를 제공한다.

다른 접근

Large Language Models for Automated Open-domain Scientific Hypotheses Discovery

719는 LLM 기반 개방형 과학 가설생성의 잠재력과 한계에 대한 비교 평가를 통해, 473 논문의 자동화 시스템과 상호 보완적 논의가 가능하다.

다른 접근

SciMON: Scientific Inspiration Machines Optimized for Novelty

SciMON은 자동으로 문헌을 근거로 아이디어를 생성하며, LLM 기반 가설 생성의 또 다른 프레임워크이다.

다른 접근

Sparks of science: Hypothesis generation using structured paper data

763 논문은 가설생성을 구조화된 논문 데이터 기반으로 접근하는 반면, 719는 임상 활용을 위한 실험적 검증을 강조합니다.

다른 접근

ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models

668번 논문은 LLM 기반의 반복적인 아이디어 생성 방식을 제안하여, LLM의 과학적 가설 생성 능력을 다른 문제 영역에서 평가한다.

다른 접근

What Topological and Geometric Structure Do Biological Foundation Models Learn?

‘Scientific hypothesis generation by large language models’는 LLM의 가설 생성 능력을 평가하므로, 내부 구조학습과 가설 평가 관점에서 상호보완적이다.

다른 접근

Predicting new research directions in materials science using large language models and concept graphs

Scientific hypothesis generation by large language models 논문은 LLM 기반 과학적 연구 주제 및 조합 예측을 시도한 연구로서, 3212의 재료과학 특화 아이디어 예측과 비교할 수 있습니다.

후속 연구

Improving Scientific Hypothesis Generation with Knowledge Grounded Large Language Models

지식 그래프 기반 LLM 아이디어 생성 및 가설 생성 방법을 실제 실험검증 단계로 확장하였다.

후속 연구

Hypothesis Generation for Materials Discovery and Design Using Goal-Driven and Constraint-Guided LLM Agents

418번 논문은 LLM을 활용한 소재 발견 가설 생성 방법을 다루어, 719번과 비슷한 AI 기반 가설 생성을 소재 과학에 응용한다.

후속 연구

Structuring scientific innovation: A framework for modeling and discovering impactful knowledge combinations

777 논문은 LLM 기반 가설 탐색 및 혁신 센싱 방식을 구조적 분석과 정량적 지표 도입으로 확장했습니다.

후속 연구

Physics-Informed Neural Networks with Unscented Kalman Filter for Sensorless Joint Torque Estimation in Humanoid Robots

LLM 기반 과학적 가설 생성 및 매핑 능력의 평가를 통해, 621의 PINN-Kalman 융합방법이 실세계 문제 해결에 미치는 영향을 분석한다.

← 목록으로 돌아가기