์ ์: Qiang Zhang, Keyang Ding, Tianwen Lyv, Xinda Wang, Qingyu Yin, Yiwen Zhang, Jing Yu, Yuhao Wang, Xiaotong Li, Zhuoyi Xiang, Kehua Feng, Xiang Zhuang, Zeyuan Wang, Ming Qin, Mengyao Zhang, Jinlu Zhang, Jiyu Cui, Tao Huang, Pengju Yan, Renjun Xu | ๋ ์ง: 2024-01-26 📄 PDF
Essence
์๋ฌผ ๋ฐ ํํ ์์ญ์ ๊ณผํ์ ์ธ์ด(๋ถ์, ๋จ๋ฐฑ์ง, ๊ฒ๋, ํ
์คํธ) ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์กฐํฉ์ ํฌ๊ดํ๋ ๊ณผํ LLM์ ์ฐ๊ตฌ ๋ฒ์
๋ณธ ๋
ผ๋ฌธ์ ์๋ฌผํ ๋ฐ ํํ ๋ถ์ผ์ ํนํ๋ ๊ณผํ ์ธ์ด๋ฅผ ์ฒ๋ฆฌํ๋๋ก ์ค๊ณ๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(๊ณผํ LLM)์ ๋ํ ์ต์ด์ ํฌ๊ด์ ์กฐ์ฌ์ฐ๊ตฌ๋ค. ํ
์คํธ, ๋ถ์(SMILES, SELFIES), ๋จ๋ฐฑ์ง(์๋ฏธ๋
ธ์ฐ ์์ด), ๊ฒ๋(DNA ์์ด) ๋ฐ ์ด๋ค์ ๋ฉํฐ๋ชจ๋ฌ ์กฐํฉ์ ๋ค๋ฃจ๋ฉฐ, ๋ชจ๋ธ ์ํคํ
์ฒ, ํ์ต ๋ฐ์ดํฐ์
, ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์์ธํ ๋ถ์ํ๋ค.
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4.5/5 Overall: 4.4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๋น ๋ฅด๊ฒ ์ฑ์ฅํ๋ ๊ณผํ LLM ๋ถ์ผ์ ์ฒซ ํฌ๊ด์ ๋ฆฌ๋ทฐ๋ก, ๋ถ์ยท๋จ๋ฐฑ์งยท๊ฒ๋ยท๋ฉํฐ๋ชจ๋ฌ ์์ญ์ ํตํฉ ๋ถ์ํ ์ ์์ ๊ธฐ์ฌ๋๊ฐ ํฌ๋ค. ๋ค๋ง ์ด๋ก ์ ํ์ ๋ณด๋ค๋ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ์ฒด๊ณ์ ์ข
ํฉ์ ๊ฐ๊น์ฐ๋ฉฐ, ๋๋ฉ์ธ ๊ฐ ๋น๊ต ๋ถ์ ๋ฐ ์ค์ ๊ณผํ์ ์ํฉํธ ๊ฒ์ฆ์ ํฅํ ๊ณผ์ ๋ก ๋จ์์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
BioBERT ๋
ผ๋ฌธ์ ์๋ฌผ์ํ ํนํ LLM์ ์ ํ์ ์์๋ก, ์๋ฌผยทํํ ํนํ ๋๋ฉ์ธ LLM์ ๊ดํ 720 ๋
ผ๋ฌธ์ ์ด๋ก ์ ๊ธฐ์ค์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
367 ๋
ผ๋ฌธ์ ์๋ช
๊ณผํ ๋ถ์ผ LLM ์งํ์ ์ฃผ์ ํธ๋ ๋์ ๋ฌธ์ ์ ์ ์๊ฐํ๋ฉฐ, 720 ๋
ผ๋ฌธ์์ ๋
ผ์ํ๋ ๋ํฅ ์กฐ์ฌ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ด ๋๋ ๋
ผ๋ฌธ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฐ์ด์ค ๋ฐ ํด๋ฆฌ๋ ๋ถ์ผ ํนํ ๋ํ ์ธ์ด๋ชจ๋ธ์ ๊ตฌ์กฐ์ ์์ฉ์ ํฌ๊ด์ ์ผ๋ก ์ ๋ฆฌํ ์๋ฒ ์ด์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Scientific Large Language Models ๋
ผ๋ฌธ์ ์๋ฌผํ ๋ฐ ํํ ๋ถ์ผ๋ฅผ ํฌํจํ ๊ณผํ LLM์ ๋ํฅ์ ์ ๋ฆฌํ์ฌ AutoProteinEngine์ ๋ฐฐ๊ฒฝ ์ด๋ก ์ ๋์์ ์ค๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
720์ ์๋ช
๊ณผํ๊ณผ ํํ ์์ญ์์์ ๊ณผํ LLM ์๋ฒ ์ด๋ผ๋ ๋ฉํ๋ถ์์ ํตํด 723์ ์ฑ์ฐฐ์ ๋ฐ์ดํฐ ํ๋ ์ด์
ํ๋ ์์ํฌ ์ด๋ก ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฐ์ด์ค/ํํ ๋ถ์ผ ๋ํ ์ธ์ด๋ชจ๋ธ์ ์ต๊ทผ ๋ฐ์ ๊ณผ ํ๊ฐ๋ฅผ ๋ค๋ฃฌ ์๋ฒ ์ด๋ก, ํํ ํนํ ์ถ๋ก ๋ชจ๋ธ์ ํ์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Scientific Large Language Models: A Survey on Biological & Chemical ๋ถ์ผ๋ณ FM ๋ํฅ์ ์ข
ํฉ์ ๋ฆฌ, ๋ณธ ๋
ผ๋ฌธ์ ๋ถ์ผ๋ณ ์์ฉ์ฌ๋ก์ ์ด๋ก ์ ๊น์ด๋ฅผ ๋ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํ์ ๋
ผ๋ฌธ์์ LLM ์ฌ์ฉ ํจํด์ ๋ถ์ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋จ๋ฐฑ์ง ์ธ์ด ๋ชจ๋ธ๊ณผ ์์ฐ์ด ๋ชจ๋ธ์ ๋น๊ต ๋ถ์์ ๋ํ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ช
๊ณผํ์์์ ๋ํ ์ธ์ด ๋ฐ ์๋ฌผํ ๋ชจ๋ธ์ ํฌ๊ด์ ์ผ๋ก ๋น๊ต ๋ถ์ํ์ฌ, RNA foundation model Orthrus์ ์์น์ ์ฐจ๋ณ์ ์ ์ดํดํ๋ ๋ฐ ๊ธฐ์ด๊ฐ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ChemDFM์ ํํ ๋ถ์ผ ํนํ LLM ๊ฐ๋ฐ๋ก, ์๋ฌผํ/ํํ ๋๋ฉ์ธ LLM ์๋ฒ ์ด์ธ ๋ณธ ๋
ผ๋ฌธ๊ณผ ์ ๋ฌธ ๋ถ์ผ๋ณ ์ ๊ทผ๋ฒ์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋ฌธํ์์ ์ ๋ณด ์ถ์ถ์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ์ํํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฌผํ ๋ฐ ํํ ๋๋ฉ์ธ LLM๋ค์ ํ์ต, ํ์ฉ, ์ฑ๋ฅ ๋น๊ต๋ฅผ ์ข
ํฉ์ ์ผ๋ก ์์ ํ์ฌ ๋ค์ค๋ชจ๋ฌ ํํ๊ฐ๋
๊ณผ ์ง์ ์ ์ผ๋ก ์ฐ๊ฒฐ๋จ.
๋ค๋ฅธ ์ ๊ทผ
์๋ฌผํ์ ๋ฐ์ดํฐ ๋ถ์ ์๋ํ์ LLM์ ํ์ฉํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จ๋ฐฑ์ง ์ธ์ด ๋ชจ๋ธ์ ๋ฏธ์ธ์กฐ์ ํ์ฌ ํญ์ฒด ๋๋ ๋จ๋ฐฑ์ง ๊ฒฐํฉ ์นํ๋๋ฅผ ์์ธกํ๋ ์ ์ฌํ ์ ๊ทผ๋ฒ์ ์ฐ๊ตฌ์ด๋ค
ํ์ ์ฐ๊ตฌ
๊ณผํ ๋ฐ ์๋ฌผํ/ํํ ๋ถ์ผ LLM์ ๋ํ ํฌ๊ด์ ์๋ฒ ์ด๋ก SciBERT์ ๋๋ฉ์ธ ํนํ ์ ๊ทผ๋ฒ์ ํ์ฅ๋ ๋
ผ์๋ฅผ ๋ด๊ณ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
Scientific Large Language Models: A Survey on Biological & Chemical Sciences ๋
ผ๋ฌธ์ Galactica ๊ณ์ด์ ๊ณผํ LLM ๋ชจ๋ธ์ ๋ํ ๊ด๋ฒ์ํ ์ฌ๋ก์ ์ํฅ๋ ฅ์ ๋ค๋ฃฌ๋ค.
ํ์ ์ฐ๊ตฌ
004 ๋
ผ๋ฌธ์ ๊ณผํํนํ LLM์ ๋ํ ๋ฒ์ ํ์ฅํ ์ข
์ค๋ก, 720 ๋
ผ๋ฌธ์ ์๋ฒ ์ด์์ ๋ค๋ฃฌ ๋ชจ๋ธ ์ ํ๊ณผ ๋ฐ์ ๋ฐฉํฅ์ ํฌ๊ด์ ์ผ๋ก ๋ถ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
๊ธฐ์ด ๋ชจ๋ธ์ ํ์ฉํ ๊ณผํ ๋ฐ๊ฒฌ ๋ฒค์น๋งํน์ ํ์ฅํ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
720๋ฒ ๋
ผ๋ฌธ์ ์๋ฌผยทํํ ๋ฑ ๊ณผํ๋ถ์ผ๋ฅผ ์ํ ๋ํ ์ธ์ด ๋ชจ๋ธ์ ๋ฐ์ ๋ฐฉํฅ์ ๋ค๋ฃจ๋ฉฐ, ๋ฉํฐ๋ชจ๋ฌ LLM์ ๊ณผํ์ ์ ์ฉ ๋
ผ์๋ก ์ด์ด์ง๋๋ค.
ํ์ ์ฐ๊ตฌ
344 ๋
ผ๋ฌธ์ ๋ฐ์ด์ค์ธํฌ๋งคํฑ์ค ๋ถ์ผ์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ํ์ฐ๊ณผ ๋ค์ํ ์ฌ๋ก๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ๋ณด์ฌ์ฃผ์ด 720 ๋
ผ๋ฌธ์ ๋ถ์์ ์ฌํ์ํจ๋ค.
ํ์ ์ฐ๊ตฌ
ํํยท์๋ช
๊ณผํ ๋ฑ ๊ณผํ LLM ๊ฐ๋ก ์ ์ด์ ์ ๋ง์ถฐ 029์ ์ ์ฒด ๋ก๋๋งต ๋
ผ์๋ฅผ ํน์ ๋ถ์ผ๋ก ์ค์ง์ ์ผ๋ก ํ์ฅํ๋ ์ญํ ์.
ํ์ ์ฐ๊ตฌ
720๋ฒ ๋
ผ๋ฌธ์ ์๋ช
๊ณผํ๊ณผ ํํ ๋ถ์ผ์ LLM ๊ธฐ๋ฐ ๋ฒค์น๋งํฌ๋ฅผ ๋ค๋ฃจ๋ฏ๋ก, 3103์ ์ง๋๋ถ์ ๋ฑ ๋ฅ๋ฌ๋ ์ฑ๋ฅ ํ๊ฐ ํ๋ ์์ํฌ ํ์ฅ์ ์ฐธ๊ณ ๊ฐ ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
720๋ฒ ๋
ผ๋ฌธ์ ์๋ช
๊ณผํ ๋ถ์ผ์ LLM, multimodal foundation model์ ์ต์ ๋ณดํธํ ๋ํฅ ๋ฐ ์์ฉ์ ์ ๋ฆฌํด, 3113์ ์คํํธ๋ผ ๊ธฐ๋ฐ ๋ถ์ ์์ฑ๋ฒ์ ์ผ๋ฐ์ฑ๊ณผ ๋ฏธ๋ ํ์ฅ ๋ถ์์ ์ฐธ๊ณ ๊ฐ ๋ฉ๋๋ค.
์์ฉ ์ฌ๋ก
๋๊ท๋ชจ ๊ฒ๋ ๋ฐ์ดํฐ์ ๋ฅ๋ฌ๋ ์์ธก์ ๊ฒฐํฉํ๋ AlphaGenome๊ณผ LLM ๋ฑ ์๋ช
๊ณผํ ํนํ ์ธ์ด๋ชจ๋ธ ์ ์ฉ ์ฌ๋ก๋ฅผ ๋น๊ตํ ์ ์๋ค.
์์ฉ ์ฌ๋ก
Genome modeling and design across all domains of life with ESM3๋ ์๋ฌผํ์ ์์ด ๋ชจ๋ธ๋ก์ ๋ํ ๊ณผํ LLM ์์ฉ์ ์ค์ฆํ๋ ์ฌ๋ก์
๋๋ค.