Essence
BRICS ๊ธฐ๋ฐ ๋จํธ(fragment)๊ณผ ๋ฐ์๋ฌผ(reactant) ๊ฐ์ ์ ์ฌ์ฑ ๋ถํฌ(ํ๊ท 66.5%) ๋ฐ ์ด์ค ๊ณผ์ ํ์ต์ ํตํ ์ฑ๋ฅ ํฅ์(6.3% ๊ฐ์ )
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํํ ๋ฐ์ ๋ฐ ์ญํฉ์ฑ ์์ธก์ ์ ์ฉํ ๋ ์ง๋ฉดํ๋ ๋ฐ์ดํฐ ๋ถ์กฑ๊ณผ ๊ณผ์ ๊ฐ ์๊ด๊ด๊ณ ๋ฌด์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, BRICS ๊ธฐ๋ฐ 440๋ง ๊ฐ ๋ถ์ ๋ฐ์ดํฐ์
๊ณผ ์ด์ค ๊ณผ์ ํ์ต ์ ๋ต์ ๊ฐ์ถ ChemDual ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
How
์ง์๋ฌธ ์ธํธ ์์: ์ญํฉ์ฑ(์ ๋ฐฉ ๊ณผ์ )๊ณผ ๋ฐ์ ์์ธก(ํ๋ฐฉ ๊ณผ์ )
Dataset Construction (3.1์ )
- ChEMBL-34 ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ 20M ๋ถ์ SMILES ์์ง โ ์ค๋ณต ์ ๊ฑฐ, ์ ํจ์ฑ ๊ฒ์ฆ, ๋ถ์๋ ํํฐ๋ง โ 2.2M ๋ถ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ตฌ์ถ
- BRICS ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋จํธ ์์ฑ ๋ฐ ์๋ SMILES๋ก ์ฌ์กฐํฉ (์ ์ํ ๋จํธํ๋ก ๋ฉ๋ชจ๋ฆฌ ์ค๋ฒํ๋ก์ฐ ๋ฐฉ์ง)
- ์(1):
n = L (Lmin(L, โL/k^ฮฑโ) (๊ทธ ์ธ)๋ก ๋จํธ ์ ๋์ ์กฐ์
- ์ง์ ๋ ํ
ํ๋ฆฟ์ผ๋ก 440๋ง ๊ฐ ์ง์๋ฌธ ์๋ ์์ฑ
Multi-scale Tokenizer (3.2์ )
- ์๋ณธ LLaMA ํ ํฌ๋์ด์ ํ์ฅ์ผ๋ก ๋ถ์ ํ ํฐ(BOM/EOM), ๋จํธ ํ ํฐ(BOF/EOF), ๋๋ฏธ ์์(dummy atom) [1]~[16] ๋ฑ์ ๊ตฌ๋ถ
- 0-15: ๋๋ฏธ ์์ ํ ํฐ, 16-195: ๋จํธ ํ ํฌ๋์ด์ , 196-197: ๋ถ์ ํ ํฐ, 198-199: ํน์ ํ ํฐ, 200-131072: ์๋ณธ LLaMA ํ ํฐ
Dual-task Learning (3.3์ )
- ์ฌ์ ํ์ต(Pre-training): ๋ถ์โ๋จํธ ์ด์ค ๊ณผ์ ๋ก ์ผ๋ฐ์ ํํ ํฉ์ฑ ์ง์ ํ์ต
- ์ง์๋ฌธ ๋ฏธ์ธ์กฐ์ (Instruction Fine-tuning): ๋ถ์โ๋ฐ์๋ฌผ ์ด์ค ๊ณผ์ ๋ก ์์
๋ณ ์์ธก ๋ฅ๋ ฅ ์ต๋
- ์์ค ํจ์: ๋ ๊ณผ์ ์ ์์ค์ ๋์์ ์ต์ํํ์ฌ ์ ๋ฐฉํฅ(๋ฐ์ ์์ธก)๊ณผ ํ๋ฐฉํฅ(์ญํฉ์ฑ) ๊ณผ์ ๊ฐ ์๊ด๊ด๊ณ ํฌ์ฐฉ
Evaluation
์ดํ: ChemDual์ BRICS ๊ธฐ๋ฐ ์ ๋น์ฉ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
๊ณผ ํํ์ ์ง๊ด์ ๊ธฐ๋ฐํ ์ด์ค ๊ณผ์ ํ์ต์ผ๋ก ํํ ๋ฐ์/์ญํฉ์ฑ ์์ธก์์ ์๋ฏธ ์๋ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์ผ๋ฉฐ, ์ฝ๋ฌผ ์ค๊ณ ์์ฉ ๊ฐ๋ฅ์ฑ์ ์ค์ฆํ๋ค. ๋ค๋ง ๋จํธํ ๋ฐฉ๋ฒ์ ํ๊ณ, ํด์ ๊ฐ๋ฅ์ฑ ๋ถ์กฑ, ํ๊ฐ ๋ฒ์ ํ๋์ ํ์์ฑ์ด ํฅํ ๊ฐ์ ๋ฐฉํฅ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
005์ ์ฅ๋ฌธ ์ปจํ
์คํธ LLM ์๋ฒ ์ด๋ 316์ฒ๋ผ ๋ฐ์/ํฉ์ฑ ์์ธก์ ๋์ฉ๋ ๋ฌธ๋งฅ ๋ชจ๋ธ์ ํ์ฉํ ๋์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํํ ๋ฐ์ ๋ฐ ์ญํฉ์ฑ ์์ธก์์ LLM ํ์ฉ ๋ฐ ํ ํฐํ ๊ตฌ์กฐ์ ํธํฅ ๋ถ์ฌ ๋ฑ ๊ตฌ์กฐ ๊ธฐ๋ฐ ์์ธก ์ฐ๊ตฌ์ ํต์ฌ์ ๊ฐ๋
์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
346 ๋
ผ๋ฌธ์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ํ์ฉํ ๋ฐ์ดํฐ ํจ์จ์ ๋ฅ๋ ํ์ต๋ฒ์ ์ ์ํด, 316 ๋
ผ๋ฌธ์ ํํ ๋ฐ์ ์์ธก์ LLM ์ ์ฉ ์ ๋ต์ ๊ธฐ๋ฐ ์ด๋ก ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Enhancing chemical reaction and retrosynthesis prediction with Hessian-informed learning์ ํค์์ ํ๋ ฌ ์ ๋ณด์ ๋์
์ด ํํ๋ฐ์ ์์ธก ์ฑ๋ฅ ํฅ์์ ์ด๋ป๊ฒ ๊ธฐ์ฌํ๋์ง ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
212๋ LLM์ ํ์ฉํ ํํ ๋ฐ์ ๋ฐ ํฉ์ฑ ์์ธก์์ multi-agent ํ๋ ์์ํฌ ์ ๊ทผ์ ์ ์ํ์ฌ, 316๊ณผ์ ์ ์ฉ ๋ฐฉ์ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
213 ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ํํ์ ์ถ๋ก ๋ฐ ์ญํฉ์ฑ ๊ฒ์ ์ ๋ต์ ๊ท์น ๊ธฐ๋ฐ ํ์์ผ๋ก ์ ๊ทผํด, 316 ๋
ผ๋ฌธ์ ChemDual LLM ๋ฐ ๋ฐ์ดํฐ ์ฆ๊ฐ ํ์ต๋ฒ๊ณผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Efficient Evolutionary Search Over Chemical Space ๋
ผ๋ฌธ์ ํํ ๋ฐ์ ํ์/์์ธก์ ์ค์ฌ ๋ฌธ์ ๋ฅผ ์งํ์ ํ์ ๊ธฐ๋ฐ ML ๋ฐฉ์์ผ๋ก ํด๊ฒฐํ๋ ์๋ค๋ฅธ ๊ด์ ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
461์ constrained retrosynthesis planning์ ์ํด ์ธ๊ฐ ์์ค ํต์ ๋ฅผ ๋ชฉํ๋ก ํ์ฌ, 316์ ์ด์ค๊ณผ์ ํ์ต ์ ๋ต๊ณผ ๋๋นํด ๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จธ์ ๋ฌ๋ ๊ธฐ๋ฐ ๋ฐ์ ๋ฉ์ปค๋์ฆ ๋ฐ๊ฒฌยท์ค๊ณ์ ab initio ์๋ฎฌ๋ ์ด์
๊ฒฐํฉ์ ๋ค๋ฅด๊ฒ ์ ๊ทผํ๋ ๋ ๋ค๋ฅธ ์ฐ๊ตฌ๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํํ ๋ฐ์ ์์ธก ๋ฐ ํ๋ณด ๋ถ์ ๋์ถ์ LLM์ ํ์ฉํ ์ ๊ทผ๋ฒ์ ๋ณด์ฌ์ฃผ์ด, ๋จ๋ฐฑ์ง ์ค๊ณ์ AI ์ ์ฉ ์ธ์ฐ์ ๋ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ํฉ์ฑ ํ๋๋ ๋ฐ ์ ๋ต์ธ์ ๊ฐํ๋ฅผ ๋ชฉํ๋ก ํ๋ฉฐ, ์ญํฉ์ฑ ๋ฌธ์ ์์ ์ ๊ฒฝ-์ฌ๋ณผ๋ฆญ reasoning์ ๋
ผ์ ์ผ๋ก ํ๋ค.
ํ์ ์ฐ๊ตฌ
316์ ํํ ๋ฐ์ ๋ฐ ์ญํฉ์ฑ ์์ธก์์ ๊ทธ๋ํ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ์์ธก ์ฑ๋ฅ์ ๊ฐํํ๋ ์ ๊ทผ์ ์ทจํด, QHNet๊ณผ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ML ๋ชจ๋ธ์ ์์ฉ์ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
ํํ ๋ฐ์ดํฐ๋ฒ ์ด์ค self-update ๊ธฐ๋ฅ์ ๊ฐ์ถ LLM ์์ด์ ํธ๋ฅผ ํตํด ์ค์๊ฐ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฐ ์ผ๋ฐํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
ํ์ ์ฐ๊ตฌ
ํํ ๋ฐ์ ์์ธก๊ณผ ํฉ์ฑ ๊ฒฝ๋ก ํ์์์ diffusion ๋ฐ sequence-to-structure ๋คํธ์ํฌ ์กฐํฉ์ ๋์ฑ ๋ฐ์ ์ํต๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ํ์ฉํ ํํ ๋ฐ์ ๋ฐ ๋ ํธ๋ก์ ์ธ์ค ์์ธก ๊ฐํ ๋
ผ๋ฌธ์ผ๋ก, ์๋ถ์ยท๋จ๋ฐฑ์ง ์ญ์ฅ ์๋ ์์ฑ๊ณผ ๊ฒฐํฉ ์ฐ๊ตฌ์ ์์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
ํํ ๋ฐ์ ๋ฐ ํฉ์ฑ ๊ฒฝ๋ก ์์ธก์์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์ ์ฉ์ ํ์ฅํ๋ ์ฐ๊ตฌ์
๋๋ค.
์์ฉ ์ฌ๋ก
ํํ์ ๋ฐ์ ์์ธก ๋ฐ ๊ตฌ์กฐ ์ต์ ํ ๋ฑ ์ค์ง์ ๋ฐ์ด์ค๋ฉ๋์ปฌ ์์ฉ์์ FM์ ์ค์ ์ฑ๋ฅ ๋ฐ ๋ฌธ์ ์ ์ ๋
ผ์ํ๋ค.
๋ฐ๋ก /๋นํ
ML ๊ธฐ๋ฐ ๋ฐ์ ๊ฒฝ๋ก ์์ธก์์ ์ถ๊ฐ์ ์ธ ํผ์ง์ปฌ ๋๋ฉ์ธ ์ง์ ์ ์ฉ ๋ฐฉ์์ ๋ํด ๋ค๋ฅธ ๊ด์ ์ ์ ๊ณตํฉ๋๋ค.