Scientific hypothesis generation by large language models: laboratory validation in breast cancer treatment
๐ง Audio Overview ์์ฑ
์ ์ : Abbi Abdel-Rehim, Hector Zenil, Oghenejokpeme Orhobor, Marie Fisher, Ross J. Collins, Elizabeth Bourne, Gareth W. Fearnley, Emma Tate, Holly X. Smith, Larisa N. Soldatova, Ross King | ๋ ์ง : 06/2025 | DOI : 10.1098/rsif.2024.0674 📄 PDF
Essence
Figure 1. The overall structure of our experiments. GPT4 was previously trained on data on a large fraction of the text
๋ณธ ๋
ผ๋ฌธ์ GPT4์ ๊ฐ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ด ๊ณผํ์ ๊ฐ์ค ์์ฑ์ ํ์ฉ๋ ์ ์์์ ๋ณด์ฌ์ค๋ค. LLM์ hallucination์ ๋ถ์ ์ ์ผ๋ก๋ง ๋ณด์ง ์๊ณ , ์คํ์ ๊ฒ์ฆ์ด ๊ฐ๋ฅํ ์๋ก์ด ๊ณผํ์ ๊ฐ์ค๋ก ํ์ฉํ ์ ์์์ ์ ๋ฐฉ์ ์น๋ฃ์ ์กฐํฉ ๋ฐ๊ฒฌ์ ํตํด ์
์ฆํ๋ค.
Motivation
Known : LLM์ breakthrough performance์ ๋ค์ํ ๊ณผํ ์์ฉ ๋ถ์ผ๊ฐ ์๋ ค์ ธ ์์ผ๋ฉฐ, hallucination์ด ๋ง์ ์์ฉ์์ ํด๋ก์ด ํ์์ผ๋ก ์ธ์๋์ด ์๋ค. ์ ๋ฐฉ์ ์น๋ฃ์์ ์ฝ๋ฌผ ์กฐํฉ(drug cocktails)์ ์ ์ฌ๋ ฅ์ด ์ธ์ ๋๊ณ ์๋ค.
Gap : ๊ธฐ์กด ์ฐ๊ตฌ์์๋ LLM์ hallucination์ ๊ณผํ์ ๋งฅ๋ฝ์์ ๊ฐ์ค ์์ฑ์ ๋๊ตฌ๋ก ์ฒด๊ณ์ ์ผ๋ก ํ์ฉํ ์ฌ๋ก๊ฐ ๋ถ์กฑํ์ผ๋ฉฐ, ์์ฑ๋ ๊ฐ์ค์ ์คํ์ ๊ฒ์ฆ์ด ์ถฉ๋ถํ์ง ์์๋ค. ์ฝ๋ฌผ ์ํธ์์ฉ์ ๋ํ ๋ฌธํ ์ ๋ณด๊ฐ ์ ํ์ ์ธ ์ํฉ์์ LLM ๊ธฐ๋ฐ ๊ฐ์ค์ ์ค์ฉ์ ๊ฐ์น๋ฅผ ๊ฒ์ฆํ ์ฐ๊ตฌ๊ฐ ๋ฏธํกํ๋ค.
Why : LLM์ ๊ณผํ์ ๊ฐ์ค ์์ฑ์ ๋๊ตฌ๋ก ํ์ฉํ๋ ๊ฒ์ ์ธ๊ฐ ๊ณผํ์๊ฐ ๋์น ์ ์๋ ๊ฐ์ค ๊ณต๊ฐ์ ์์ญ์ ํ์ํ๊ณ , ์ฝ๋ฌผ ๋ฐ๊ฒฌ์ ํจ์จ์ฑ์ ๋์ผ ์ ์๋ ์ ์ฌ๋ ฅ์ด ์๊ธฐ ๋๋ฌธ์ ์ค์ํ๋ค. ๋ํ hallucination์ ๊ธ์ ์ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ์
์ฆํจ์ผ๋ก์จ LLM ํ๊ฐ ํ๋ ์์ํฌ์ ์ฌ๊ฒํ ๋ฅผ ํ์ํ๊ฒ ํ๋ค.
Approach : GPT4์ ๋ช
ํํ ํ๋กฌํํธ๋ฅผ ํตํด MCF7 ์ ๋ฐฉ์ ์ธํฌ์ฃผ์ ๋ํด ํจ๊ณผ์ ์ด์ง๋ง MCF10A ์ ์ ์ ๋ฐฉ ์ธํฌ์ฃผ์๋ ํด๋ก์ฐ์ง ์์ synergistic ์ฝ๋ฌผ ์กฐํฉ์ ์ ์ํ๋๋ก ์์ฒญํ๋ค. ์์ฑ๋ 12๊ฐ ์กฐํฉ์ ๋ํด ์คํ์ค์์ ๊ฒ์ฆํ๊ณ , SynergyFinder 3.0์ ์ฌ์ฉํ์ฌ HSA synergy score๋ฅผ ๊ณ์ฐํ๋ค. ์ด๊ธฐ ์ฑ๊ณต ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก GPT4๊ฐ ์์ฑํ ์ถ๊ฐ ์กฐํฉ๋ค์ ์ถ๊ฐ๋ก ๊ฒ์ฆํ๋ค.
Achievement
Figure 1. The overall structure of our experiments. GPT4 was previously trained on data on a large fraction of the text
์ฒซ ๋ฒ์งธ ๋ผ์ด๋ ์ฑ๊ณผ : 12๊ฐ ๊ฐ์ค ์ค 3๊ฐ(itraconazole + atenolol, simvastatin + disulfiram, dipyridamole + mebendazole)๊ฐ ์์ฑ ๋์กฐ๊ตฐ์ ์ด๊ณผํ๋ synergy scores ๋ฌ์ฑ. ๋ ๋ฒ์งธ ๋ผ์ด๋ ์ฑ๊ณผ : ์ด๊ธฐ ๊ฒฐ๊ณผ๋ฅผ ํ์ตํ GPT4๊ฐ ์์ฑํ 4๊ฐ ์กฐํฉ ์ค 3๊ฐ๊ฐ ์์ฑ synergy scores ๋ฌ์ฑ. ํตํฉ ์ฑ๊ณผ : 12๊ฐ ๊ฐ์ค ์กฐํฉ ์ค 10๊ฐ์์ synergistic areas ๋ฐ๊ฒฌ, 8๊ฐ๊ฐ MCF7์์ MCF10A ๋๋น ๋์ HSA score ๋ฌ์ฑ.
How
Figure 1. The overall structure of our experiments. GPT4 was previously trained on data on a large fraction of the text
์ฒด๊ณ์ ์ธ ํ๋กฌํํธ ์์ง๋์ด๋ง์ ํตํด LLM์๊ฒ ๊ตฌ์ฒด์ ์ธ ์ฝ๋ฌผ ์ ์ ๊ธฐ์ค(FDA ์น์ธ, ๋น์์น๋ฃ์ , ์์ ์ฑ ๋ฑ)๊ณผ ๋ชฉํ(selectivity, synergy)๋ฅผ ๋ช
์
์ด๊ธฐ ๊ฐ์ค์ ๋ฌธํ ๊ฒ์์ผ๋ก novelty ํ์ธ (์์ฑ๋ ์กฐํฉ์ด ๊ธฐ์กด ๋ฌธํ์ ์์)
๊ณ ์ฒ๋ ์๋ํ ์คํ์ค(Arctoris)์ ํ์ฉํ MCF7๊ณผ MCF10A ์ธํฌ์ฃผ์ ๋ํ ์ ๋์ ์ฝ๋ฌผ ํจ๊ณผ ์ธก์
SynergyFinder 3.0์ผ๋ก HSA metric ๊ธฐ๋ฐ synergy ์ ๋ํ
Iterative learning: ์ด๊ธฐ ๊ฒฐ๊ณผ๋ฅผ GPT4์ ํผ๋๋ฐฑํ์ฌ ๋ ๋ฒ์งธ ๋ผ์ด๋ ๊ฐ์ค ์์ฑ
Originality
LLM์ hallucination์ ๋ถ์ ์ ๊ฒฐํจ์ด ์๋ ๊ณผํ์ ๊ฐ์ค ์์ฑ์ ์์ฐ์ผ๋ก ์ฌ๊ตฌ์ฑํ ๊ด์ ์ ์ฐฝ์์ฑ
์ค์ ์คํ์ค ๊ฒ์ฆ์ ํตํด LLM ๊ธฐ๋ฐ ๊ฐ์ค์ ์๋ฌผํ์ ํ๋น์ฑ์ ์
์ฆํ ์ค์ฆ์ ์ ๊ทผ
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ๊ณผ ๊ณ ์ฒ๋ ์๋ฌผํ ์คํ(high-throughput biology)์ ์ต์ด ํตํฉ ์ฌ๋ก
Iterative refinement ๋ฃจํ๋ฅผ ํตํ LLM-์คํ ํผ๋๋ฐฑ ์์คํ
์ค๊ณ
Limitation & Further Study
์ ํ๋ ์ค์ฝํ : ๋จ์ผ ์ ์ข
๋ฅ(์ ๋ฐฉ์)์ ๋จ์ผ ์ธํฌ์ฃผ(MCF7/MCF10A)์๋ง ๊ฒ์ฆ. ๋ค๋ฅธ ์ ์ข
๋ฅ๋ in vivo ๋๋ฌผ ๋ชจ๋ธ์์์ ํจ๊ณผ ๋ฏธํ์ธ. - ์ํ ํฌ๊ธฐ : ์ด 16๊ฐ ์กฐํฉ๋ง ํ
์คํธ๋ก ํต๊ณ์ ์ผ๋ฐํ์ ์ ํ. - ๋ฉ์ปค๋์ฆ ๋ถ๋ช
ํ : ์ ํน์ ์ฝ๋ฌผ ์กฐํฉ์ด synergistic์ธ์ง์ ๋ํ ์๋ฌผํ์ ๋ฉ์ปค๋์ฆ ๋ถ์ ๋ถ์ฌ. - ํ๋กฌํํธ ์์กด์ฑ : ๊ฒฐ๊ณผ๊ฐ ํ๋กฌํํธ ์์ง๋์ด๋ง์ ํฌ๊ฒ ์์กดํ ๊ฐ๋ฅ์ฑ์ด ๋์. - ๋ค๋ฅธ LLM ๋ฏธ๊ฒ์ฆ : GPT4๋ง ์ฌ์ฉ์ผ๋ก ๋ค๋ฅธ LLM(Claude, Llama ๋ฑ)์ ์ฑ๋ฅ ๋น๊ต ๋ถ์ฌ. ํ์์ฐ๊ตฌ : ๋ฉ์ปค๋์ฆ ๋ถ์, ์์ ๊ด๋ จ์ฑ ๊ฒ์ฆ, ๋ค์ํ ์ ์ข
๋ฅ ํ์ฅ, ๋ค์ค LLM ๋น๊ต, in vivo ํจ๊ณผ ๊ฒ์ฆ์ด ํ์ํจ.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : ๋ณธ ๋
ผ๋ฌธ์ LLM์ hallucination์ ๊ณผํ์ ์์ฐ์ผ๋ก ์ฌํด์ํ๊ณ ์คํ์ ๊ฒ์ฆ์ ํตํด ๊ทธ ๊ฐ์น๋ฅผ ์
์ฆํ ์ฐฝ์์ ์ด๊ณ ์ค์ฆ์ ์ธ ์ฐ๊ตฌ์ด๋ค. ์ฝ๋ฌผ ๋ฐ๊ฒฌ ํ์ดํ๋ผ์ธ์ ์ด๊ธฐ ๋จ๊ณ์์ LLM ํ์ฉ์ ์ค์ง์ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ฃผ๋, ์ ํ๋ ์ค์ฝํ์ ๋ฉ์ปค๋์ฆ ๋ถ์ ๋ถ์ฌ ๋ฑ์ด ๊ฐ์ ์ ์ด๋ค. ํ์ ๊ฐ ํ์ ์ฐ๊ตฌ๋ก์์ ๊ฐ์น์ ๊ณผํ์์์ AI ํ์ฉ ํจ๋ฌ๋ค์ ์ ํ์ ๋ํ ๊ธฐ์ฌ๋๊ฐ ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ ๋ค๋ฅธ ์ ๊ทผ
์ฌ๋ฃ๊ณผํ ๋ถ์ผ์ ์ง์ ๋ฐ๊ฒฌ์ ์ํ ๋ค๋ฅธ NLP ์ ๊ทผ๋ฒ์ ์ฌ์ฉํ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI๋ฅผ ํ์ฉํ ๊ณผํ์ ๋ฐ๊ฒฌ๊ณผ ์ฐ๊ตฌ ์๋ํ๋ฅผ ๋ค๋ฃจ๋ ์ ์ฌํ ๋งฅ๋ฝ์ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ๊ณผํ์ ์ฐ๊ตฌ ์ง์ ๋ฅ๋ ฅ์ ํ๊ตฌํ๋ ์ ์ฌํ ์ฃผ์ ๋ฅผ ๋ค๋ฃจ๋ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
์์ํ ๋ฌธํ ๋ถ์์ ํตํ ์ง์ ๋ฐ๊ฒฌ ๋ฐฉ๋ฒ๋ก ์ ํ์ฅํ๋ ์ ์ฌ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ํ์ฉํ ๊ณผํ์ ๊ฐ์ค ์์ฑ ๋ฐ ๋ฐ๊ฒฌ์ ๋ค๋ฃจ๋ ์ง์ ์ ์ธ ์ฐ์ฅ ์ฐ๊ตฌ๋ก ๋์ ์ ์ฌ๋๋ฅผ ๋ณด์ธ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com