MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses
๐ง Audio Overview ์์ฑ
์ ์ : Zonglin Yang, Wanhao Liu, Ben Gao, Tong Xie, Yuqiang Li | ๋ ์ง : 2024 | DOI : 10.48550/arXiv.2410.07076 📄 PDF
Essence
Figure 1: The MOOSE-Chem framework. It receives b and I as input, and outputs a list of ranked
๋ณธ ๋
ผ๋ฌธ์ LLM์ด ํํ ๋ถ์ผ์์ ์๋์ผ๋ก ์๋ก์ด ๊ฐ์ค์ ๋ฐ๊ฒฌํ ์ ์๋์ง๋ฅผ ์กฐ์ฌํ๋ค. ์ ์๋ค์ ๊ฐ์ค ๋ฐ๊ฒฌ์ ๋ฐฐ๊ฒฝ ์ง์๊ณผ ์๊ฐ ๊ฐ๋
์ผ๋ก ๋ถํดํ๋ ์ํ์ ์ ๊ทผ์ ์ ์ํ๊ณ , ์ด๋ฅผ ๊ตฌํํ MOOSE-Chem ํ๋ ์์ํฌ๋ฅผ ๊ฐ๋ฐํ์ฌ Nature/Science ์์ค์ 51๊ฐ ํํ ๋
ผ๋ฌธ์์ ๊ฐ์ค์ ์ฌ๋ฐ๊ฒฌํ ์ ์์์ ๋ณด์ธ๋ค.
Motivation
Known : ๊ธฐ์กด ์ฐ๊ตฌ์์๋ ์ฌํ ๊ณผํ ๋ถ์ผ์์ LLM์ ๊ฐ์ค ์์ฑ ๋ฅ๋ ฅ์ ๊ฒ์ฆํ์ผ๋, ํํ๊ณผ ๊ฐ์ ์์ฐ ๊ณผํ ๋ถ์ผ์์์ ์ฑ๋ฅ์ ๋ถ๋ช
ํํ๋ค. ๋ํ catalyst discovery ๊ด๋ จ ์ฐ๊ตฌ๋ค์ ๋ฐ์ดํฐ ์ค์ผ ๋ฌธ์ ๋ฅผ ๊ฐ์ง ์ ์๋ค.
Gap : ํํ ๋ถ์ผ์์ LLM์ด ์๋์ผ๋ก ๊ณ ํ์ง์ ์๋ก์ด ๊ฐ์ค์ ๋ฐ๊ฒฌํ ์ ์๋์ง, ๊ทธ๋ฆฌ๊ณ ์ด๋ฌํ ๊ฐ์ค์ ์์ ๋งค๊น(ranking)์ ์ด๋ป๊ฒ ํจ๊ณผ์ ์ผ๋ก ์ํํ ์ ์๋์ง์ ๋ํ ์ฐ๊ตฌ๊ฐ ๋ถ์กฑํ๋ค.
Why : LLM ๊ธฐ๋ฐ ๊ณผํ ๋ฐ๊ฒฌ ์์คํ
์ ๊ฐ๋ฐ์ ๊ณผํ ์ฐ๊ตฌ์ ๊ฐ์ํ์ ๋งค์ฐ ์ค์ํ๋ฉฐ, ํนํ ํํ๊ณผ ๊ฐ์ ๋ณต์กํ ์์ฐ ๊ณผํ ๋ถ์ผ์์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๊ฒ์ฆํ๋ ๊ฒ์ ์ค์ง์ ์ธ ๊ฐ์น๊ฐ ์๋ค.
Approach : ์ ์๋ค์ P(hypothesis|research background)๋ฅผ ์ธ ๊ฐ์ง ์คํ ๊ฐ๋ฅํ ๋ถ๋ถ ๋ฌธ์ ๋ก ๋ถํดํ๋ค: (1) ๋ฐฐ๊ฒฝ ์ง์๊ณผ ๊ด๋ จ๋ ์๊ฐ ๋
ผ๋ฌธ ๊ฒ์, (2) ๋ฐฐ๊ฒฝ๊ณผ ์๊ฐ์ผ๋ก๋ถํฐ ์๋ก์ด ๊ฐ์ค ์์ฑ, (3) ์์ฑ๋ ๊ฐ์ค์ ํ์ง ํ๊ฐ ๋ฐ ์์ ๋งค๊น. MOOSE-Chem์ ์ด ๋ถํด์ ๊ธฐ๋ฐํ์ฌ evolutionary algorithm, multi-step inspiration retrieval, ํจ์จ์ ์ธ ranking ๋ฐฉ๋ฒ์ ํฌํจํ๋ค.
Achievement
Figure 2: Overview of the input and output of the MOOSE-Chem framework.
์ฃผ์ ์ฑ๊ณผ :
โข MOOSE-Chem์ด Nature/Science ์์ค์ 51๊ฐ ํํ ๋
ผ๋ฌธ์์ ํต์ฌ ํ์ ์ ํฌํจํ ๋์ ์ ์ฌ๋์ ๊ฐ์ค ์ฌ๋ฐ๊ฒฌ ์ฑ๊ณต
โข 2024๋
์ดํ ๋ฐํ๋ ๋
ผ๋ฌธ์ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ ์ค์ผ ๋ฐฐ์ ๋ณด์ฅ
โข LLM์ inspiration retrieval ์์
์์ ๋๋๊ฒ ๋์ ์ ํ๋ ๋ฌ์ฑ
โข ์ต์ด๋ก ๊ณผํ ๋ฐ๊ฒฌ ์์
์์ ranking ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ ์ํ๊ณ ํ๊ฐ ๊ธฐ์ค ๊ฐ๋ฐ
How
Figure 1: The MOOSE-Chem framework. It receives b and I as input, and outputs a list of ranked
โข ์ํ์ ๋ถํด: ๋ฐฐ๊ฒฝ๊ณผ ์๊ฐ์ผ๋ก๋ถํฐ ๊ฐ์ค ์์ฑ์ ๊ตฌ์กฐํ๋ ์ ๊ทผ
โข Multi-agent framework: ๋
๋ฆฝ์ ์ธ ์์ด์ ํธ๋ค์ ํ๋ ฅ์ ํตํ ๊ฐ์ค ์์ฑ
โข Evolutionary algorithm: ๋ฐฐ๊ฒฝ๊ณผ ์๊ฐ์ ์ฐ๊ด์ฑ์ ๊ฐํํ๊ธฐ ์ํ ๋ณ์ด ์ ๋ต
โข Multi-step retrieval: ๋จ์ผ์ด ์๋ ๋ค์ค ์๊ฐ ๊ฒ์์ ํตํ ๋ค์์ฑ ํ๋ณด
โข TOMATO-Chem benchmark: 51๊ฐ ๋
ผ๋ฌธ์ ๋ฐฐ๊ฒฝ-์๊ฐ-๊ฐ์ค ์ผ์ค annotation
Originality
โข ํํ ๋ถ์ผ์ ๋ํ LLM ๊ธฐ๋ฐ ๊ณผํ ๋ฐ๊ฒฌ์ ์ต์ด ์ฒด๊ณ์ ์ฐ๊ตฌ
โข background-inspiration ๋ถํด ๊ฐ๋
์ ์ํ์ ํ์ํ ๋ฐ ๊ณต์ํ
โข Scientific discovery์์ ranking ์์
์ ๋ช
์์ ์ผ๋ก ๋ค๋ฃจ๋ ์ฒซ ์๋
โข evolutionary algorithm์ ํ์ฉํ LLM ๊ธฐ๋ฐ ๊ฐ์ค ์์ฑ ๋ฐฉ๋ฒ์ ํ์ ์ ์ ์ฉ
Limitation & Further Study
โข ๋ฒค์น๋งํฌ ๊ท๋ชจ: 51๊ฐ ๋
ผ๋ฌธ์ผ๋ก๋ ํต๊ณ์ ๊ฐ๊ฑด์ฑ์ด ์ ํ์ ์ด๋ฉฐ ๋ ํฐ ๊ท๋ชจ์ ํ๊ฐ ํ์
โข ํ๊ฐ ๋ฐฉ๋ฒ๋ก : ์๋ ์ ์ฌ๋ ๋ฉํธ๋ฆญ์ ํ๊ณ๋ก ์ธํด ์ ๋ฌธ๊ฐ ํ๊ฐ์ ์์กดํ๋ฏ๋ก ํ๊ฐ์ ์ฃผ๊ด์ฑ ์กด์ฌ
โข ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ: ํํ ํน์ ํน์ฑ์ ๋ํ ์์กด์ฑ์ผ๋ก ์ธํด ๋ค๋ฅธ ๊ณผํ ๋ถ์ผ๋ก์ ์ง์ ํ์ฅ ์ด๋ ค์
โข LLM ์ง์: ๊ฐ์ค ๋ฐ๊ฒฌ์ ์ฑ๊ณต์ด ํ์ต ๋ฐ์ดํฐ์ ํฌํจ๋ ์ ์ฌ ์ฐ๊ตฌ์ ๋ํ ์๋ฌต์ ์ง์์ ์์กดํ ๊ฐ๋ฅ์ฑ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : ๋ณธ ๋
ผ๋ฌธ์ ํํ ๋ถ์ผ์์ LLM์ ๊ณผํ ๋ฐ๊ฒฌ ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ๊ฒ์ฆํ ์ฐ์ํ ์ฐ๊ตฌ๋ค. ์ํ์ ๋ถํด์ engineering ๊ธฐ๋ฒ์ ๊ฒฐํฉ, ๊ณ ํ์ง ๋ฒค์น๋งํฌ ๊ตฌ์ถ, ๊ทธ๋ฆฌ๊ณ ์ค์ Nature/Science ๋
ผ๋ฌธ์์์ ๊ฐ์ค ์ฌ๋ฐ๊ฒฌ ์ฑ๊ณต์ด ์ฃผ์ ๊ฐ์ ์ด๋ค. ๋ค๋ง ๋ฒค์น๋งํฌ ๊ท๋ชจ์ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์์ ํ๊ณ๊ฐ ์์ผ๋ฉฐ, LLM์ ์ธ์ฝ๋ฉ๋ ์ง์๊ณผ ์ค์ ์๋ก์ด ๋ฐ๊ฒฌ ๋ฅ๋ ฅ์ ๋ถ๋ฆฌ์ ๋ํ ๋ ๊น์ ๋ถ์์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ ๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ๋
ผ๋ฌธ์ ํ์ตํ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ ๊ณผํ ์ถ๋ก ๋ฐฉ๋ฒ์ ์ด๋ก ์ ๊ธฐ๋ฐ ๋ฐ ๋ค์ํ ๋๋ฉ์ธ ์ ์ฉ์ ์ ์ดํดํ๋ ๋ฐ ์ ์ฉํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
419๋ LLM ๊ธฐ๋ฐ ๊ณผํ์ ๊ฐ์ค ์์ฑ์ ์ด์ ์ ๋ง์ถ ๋
ผ๋ฌธ์ผ๋ก, MOOSE-Chem์ unseen hypothesis discoverability ์ฃผ์ ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Large Language Models are Zero Shot Hypothesis Proposers ๋
ผ๋ฌธ์ LLM์ ์ ๋ก์ท ๊ณผํ ๊ฐ์ค ์์ฑ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํ๋ฉฐ, MOOSE-Chem์ ์ฐฝ๋ฐ์ ์ ์ฉ๊ณผ ๋น๊ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Efficient Evolutionary Search Over Chemical Space with Large Language Model Agents ์ญ์ ํํ์์ LLM ๊ธฐ๋ฐ์ผ๋ก ๋ฏธ์ง์ ๊ฐ์ค์ ํ์ํ๋๋ฐ ์ด์ ์ ๋ก๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ChemDFM์ ํํ๋ถ์ผ LLM ํ์ด๋ฐ์ด์
๋ชจ๋ธ ๊ฐ๋ฐ๋ก ๋ฏธ๋ฐ๊ฒฌ ๊ณผํ ๊ฐ์ค ์ฌ๋ฐ๊ฒฌ ๋ฌธ์ ์ ๋ํ ๋์์ ์ ๊ทผ์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์์ํ ๋๋ฉ์ธ์์ RAG ๋ฐ Knowledge Graph ๊ธฐ๋ฐ LLM ๊ฐ์ค ์์ฑ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํด, ๋ฏธ๋ฐ๊ฒฌ ๊ฐ์ค ์๋ํ ์ธก๋ฉด์์ ํํ๋ถ์ผ์ ๋ฐฉ๋ฒ์ ๋น๊ตํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
๋ฌธํ ๋ฐ์ดํฐ ์ฐ๊ณ ๊ธฐ๋ฐ์ ๊ณผํ์ ๊ฐ์ค ๋์ถ ๋ฐฉ๋ฒ์ LLM์ ์ ์ฉํ ์ ์์ ๋ฏธ๋ฐ๊ฒฌ ๊ณผํ ๊ฐ์ค ํ์ ๋ฐฉ๋ฒ๋ก ์ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
820์ ๊ณผํ์ ๊ฐ์ค ์์ฑ์ ์ ๋ขฐ์ฑ๊ณผ ์ค์ ์ ๊ฒ์ฆ ๊ธฐ์ค์ ํ๋ฆฝํ์ฌ, MOOSE-Chem์ ์๋ ๊ฐ์ค ์ถ์ฒ ํ๊ณ ๋ฐ ๊ฐ์ ๋ฐฉํฅ์ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
MOOSE-Chem์ ํํ ๋๋ฉ์ธ์์ ์์ด๋์ด ์ฌ์กฐํฉ ๋ฐ ํ์ ๊ฐ์ค ๋ฐ๊ฒฌ์ LLM์ผ๋ก ์ํํด Chimera์ ์ฐฝ์์ ์ฌ๊ณ ๋ถ์์ ์ค์ ๊ณผํ์ ์ ์ฉํ ์ฌ๋ก์
๋๋ค.
ํ์ ์ฐ๊ตฌ
MOOSE-Chem์ LLM์ ํ์ฉํ ์๋ก์ด ํํฉ๋ฌผ ์ฌ๋ฐ๊ฒฌ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ฉฐ, ์ฝ๋ฌผ๋ฐ๊ฒฌ ์์
์์ DrugPlayGround์ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํ์ฅ ์คํ ๊ฒ์ฆ๊น์ง ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
Scientific discovery in the age of artificial intelligence ๋
ผ๋ฌธ์ Moose-Chem ์ฐ๊ตฌ์ฒ๋ผ LLM์ ๊ณผํ์ ๋ฐ๊ฒฌ(ํนํ ํํ ๋ฐ ์๋ฌผํ) ๋งฅ๋ฝ์์ ์ค์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์กฐ๋งํฉ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com