Essence
์ฃผ์ FMG ์๊ณ ๋ฆฌ์ฆ ๋ชจ๋: ๊ธฐ์ ํด๋ฆฌํฌ ์ถ์ถ๋ถํฐ ๊ทผ ๋ชจํฐํ ์ ํ๊น์ง์ ๋จ๊ณ์ ํ๋ก์ธ์ค. MMFM์ด ์๋ฏธ ์๋ ๋ถ๋ถ๊ตฌ์กฐ ๋ณํฉ๊ณผ ํํ์ ์ค์๋ ํ๋จ์ ์ํ.
๋ค์ค ๋ชจ๋ฌ ๊ธฐ๋ฐ ๋ชจ๋ธ(MMFM)์ ํํ ์ง์์ ํ์ฉํ์ฌ ๋ถ์๋ฅผ ์ด๋ฏธ์ง์ ํ
์คํธ๋ก ํํํ๊ณ , ๊ณ์ธต์ ๋ถํด ์๊ณ ๋ฆฌ์ฆ๊ณผ ์ฐ์ ์ถ๋ก (chain-of-thought)์ ๊ฒฐํฉํด ํด์ ๊ฐ๋ฅํ ๋ถ์ ๊ทธ๋ํ ๋ฌธ๋ฒ(graph grammar)์ ์๋์ผ๋ก ํ์ตํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๋ค์ค ๋ชจ๋ฌ ๊ธฐ์ด ๋ชจ๋ธ์ ํํ ์ดํด ๋ฅ๋ ฅ์ ๊ตฌ์กฐ์ ๊ทธ๋ํ ๋ฌธ๋ฒ ์ ๋์ ์ฐฝ์์ ์ผ๋ก ํ์ฉํ ์ฐ์ํ ๋
ผ๋ฌธ์ด๋ค. ์ ๋ฌธ๊ฐ ์ฃผ์ ์์กด์ฑ์ ์ ๊ฑฐํ๊ณ ์๋ ๊ฒ์ฆ ๋ฉ์ปค๋์ฆ์ ์ ์ํจ์ผ๋ก์จ ์ค๋ฌด์ ๊ธฐ์ฌ๋๊ฐ ๋์ผ๋, MMFM์ ์ผ๊ด์ฑ ์ด๋ก ์ ๋ณด์ฅ๊ณผ ๋๊ท๋ชจ ๊ฒ์ฆ์ด ๋ณด์๋๋ฉด ๋์ฑ ๊ฐ๋ ฅํ ๊ฒ์ผ๋ก ์์๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
MolGAN์ ๋ถ์ ๊ตฌ์กฐ ์์ฑ์ ๋ํ ์ด๊ธฐ implicit generative model๋ก, ๋ถ์ ๊ทธ๋ํ ๋ฌธ๋ฒ ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ํ์ต ํ๋ ์์ํฌ์ ๋ฐ์ ์ ๋ฐฐ๊ฒฝ์ ์ดํดํ ์ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ถ์ ๊ตฌ์กฐ ๋ฐ ์ด๋ฏธ์ง-ํ
์คํธ ๊ธฐ๋ฐ ํ ํฌ๋์ด์ ์ด์
๊ธฐ๋ฒ ์ฐ๊ตฌ๋ก, ๋ถ์ ์๋ ๋ฌธ๋ฒ ํ์ต์ ์ด๋ก ์ ๊ทผ๊ฑฐ๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
345๋ ๋ฉํฐ๋ชจ๋ฌ ํ์ด๋ฐ์ด์
๋ชจ๋ธ๊ณผ molecular grammar ๊ฐ๋
์ ๋
ผ์ํ์ฌ, 749์์ ์ ์๋ Evo ๋ชจ๋ธ์ ๊ธฐ๋ฐ ๊ฐ๋
์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ฌผ๋ถ์์ ์์ฐ์ธ์ด์ ๋ค์ค๋ชจ๋ฌ ํํ ํ์ต์ ๋ํ ์ด๋ก ๋ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํจ์ผ๋ก์จ ์๋ก์ด ํํ ํจ๋ฌ๋ค์์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํจ.
๊ธฐ๋ฐ ์ฐ๊ตฌ
345๋ฒ ๋
ผ๋ฌธ์ ๋ถ์ ์ค๊ณ ๋ฐ ์์ธก์์ ๋ค์ค๋ชจ๋ฌยท๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ์ญํ ์ ๋ถ์ํ์ฌ PEMAL ํ๋ ์์ํฌ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ค๋ช
ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
345๋ ๋ถ์ ๋ฐ ๊ณผํ์ ์ถ๋ก ์์ LLM์ ์ธ์ด/์ง์ ๊ตฌ์กฐ ํธํฅ์ฑ๊ณผ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ์ค๊ณ ์๋ฆฌ๋ฅผ ๋
ผ์ํ์ฌ, ์ธ๊ณผ ์ถ๋ก ์ธก๋ฉด์์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ช
๊ณผํ ๋ฐ ํํ ๋ถ์ผ์์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ํํฉ์ ์ ๋ฆฌํ ๋
ผ๋ฌธ์ผ๋ก, ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ๋ฐ ํํ ์ง์ ํ์ฉ์ ๊ธฐ์ ์ ํ ๋๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
015 ๋
ผ๋ฌธ์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ด ํํ ๋ฐ ๋ถ์ ๊ทธ๋ํ ํ์ต์ ์ ์ฉ๋๋ ์ ์ฒด์ ์ ๋ง์ ์ ์, 345์ ์๋ฏธ๋ก ์ ํ์ฅ ๋
ผ์์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Multi-Modal Foundation Models์ ๊ตฌ์กฐ์ ๊ฐ๋
์ด CrossLLM-Mamba์ ๋ฉํฐ๋ชจ๋ฌ ์คํ
์ดํธ ์คํ์ด์ค ๋ชจ๋ธ๋ง ๊ธฐ์ด๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Foundation Molecular Grammar ๋
ผ๋ฌธ์ ๊ฒฐ์ ๊ตฌ์กฐ ์์ฑ ํ๋ ์์ํฌ์ ๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ๋์นญ์ฑ ํ์ฉ์ ์ด๋ก ์ ์ง์์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Foundation Molecular Grammar ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ์ด ๋ชจ๋ธ ๊ด์ ์์ ์๋ฌผ ๊ตฌ์กฐ์ ๊ธฐ์ ํจํด ํด์์ ๋ค๋ฃจ์ด, ํฌ๋ก์ค๋ ์ด์ด ํด์์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
345 ๋
ผ๋ฌธ์ ํํ ๋ฐ ๋จ๋ฐฑ์ง ์ธ์ด๋ชจ๋ธ์ ๊ฒฐํฉํ ๋ถ์ ๊ธฐ์ด ๋ฌธ๋ฒ ๋ชจ๋ธ์ ์ค๋ช
ํด, 3041์ PLM ๋ฐ CLM ๊ฒฐํฉ ๋ฐฉ์์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํํ์ ๋ฌธ๋ฒ๊ณผ ์ฌ์ ์ง์์ ์ ๊ฒฝ๋ง์ ์ฃผ์
ํ๋ ์ ๊ทผ์ ๊ทผ๋ณธ์ ์ด๋ก ํ ๋๋ฅผ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์, ๊ธฐ๊ณํ์ต ํํ ๋ชจ๋ธ ์ ๋ฐ์ ๊ธฐ๋ฐ ์ฐ๊ตฌ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Multi-Modal Foundation Models์ ๋ถ์ ๊ตฌ์กฐ ๋ฐ ์์ด ํํ ํตํฉ์ ๊ดํ ์ด๋ก ์ ํ๋ ์์ด RNA-Protein ์ํธ์์ฉ ์์ธก์ ๊ทผ๊ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ฌผํ์ ์งํฉ์ฒด ๋ด 'ํํ์ ๋ฌธ๋ฒ' ๊ฐ๋
์ ๋ค๋ฃจ๋ฉฐ, ๋ค์ํ ์์ฒด๋ถ์ ์ํธ์์ฉ์ ์๋ฆฌ๋ฅผ ํฌ๊ด์ ์ผ๋ก ์ค๋ช
ํ๊ธฐ ๋๋ฌธ์ ๊ธฐ์ด ์ด๋ก ์ ๊ธฐ๋ฐ ๋
ผ๋ฌธ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋ค ํํ ํฉ์ฑ ๊ฒฝ๋ก ๊ณํ ๋ฌธ์ ์ ๋ํด LLM ๊ธฐ๋ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ง๋ง, ์ ์๋ ๋ถ์ ๊ทธ๋ํ ๋ฌธ๋ฒ ํ์ต, ํ์๋ ๋ฐ์ ์์ธก ์ค์ฌ์ด๋ฏ๋ก ๋ฐฉ๋ฒ๋ก ์ฐจ์ด๋ฅผ ์ดํดํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ํ์ฉํ ๋ถ์ ๋ฐ ์์ฌ ๋ฐ๊ฒฌ์ ํํฉ๊ณผ ๊ณผ์ ๋ฅผ ๋ค๋ฃจ์ด ๋ค์ค๋ชจ๋ฌ ๊ธฐ๋ฐ ํํ ์ง์ ์์ฉ์ ๋ค์ํ ํ์ฉ ๋งฅ๋ฝ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
523 ๋
ผ๋ฌธ์ ๋ค์ค๋ชจ๋ฌ LLM์ ์ฌ๋ฃ๊ณผํ ๋๋ฉ์ธ์ ํนํํด ์ ์ฉํ๋ฉฐ ๋ถ์ ๊ตฌ์กฐ์ ํํ์ง์์ ํตํฉํ๋ ๋๋ค๋ฅธ ์ ๊ทผ์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํํ ์ ๋ต ๊ธฐ๋ฐ ํฉ์ฑ ๊ณํ์ ์ํ ์ ์ฌํ AI ๋๋ ๊ฒ์ ์๊ณ ๋ฆฌ์ฆ ๊ธฐ๋ฐ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
487์ ๋ค์ค๋ชจ๋ฌ LLM ๊ธฐ๋ฐ ์์ฒด๋ถ์ ๋ฐ ์ด๋ฏธ์ง-ํ
์คํธ ์ตํฉ ์ถ๋ก ์ ๋ค๋ฃจ๋ฉฐ, 345์ ์ด๋ฏธ์ง-ํ
์คํธ ๊ธฐ๋ฐ ๋ถ์๋ฌธ๋ฒ ์๋ํ์ต์ ๊ณ์ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ฉํฐ๋ชจ๋ฌ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ด ํํ์ /๋ฌผ๋ฆฌ์ ๊ท์น์ ๋ด์ฌํ ํ ํฌ๋์ด์ ์ด์
๊ณผ ๋ถ์ ์ค๊ณ์ ์ ์ฉ๋๋ ํ์ฅ ๋ฐฉํฅ์ ์ ์ํ๋ค.
์์ฉ ์ฌ๋ก
062 ๋
ผ๋ฌธ์ ์์ด์ ํธ/๋ฉํฐ๋ชจ๋ฌ ๊ตฌ์กฐํ ์ ๋ณด๋ฅผ ๋๋
ธ์์ฌ ๋
ผ๋ฌธ์์ ์ถ์ถํ์ฌ, 345์ multi-modal ์ ๋ณด ์ถ์ถ ๋ฐ ๋ฌธ๋ฒ ํ์ต ํ๋ ์์ํฌ ์ค์ ์ ์ฉ ์ฌ๋ก๊ฐ ๋ฉ๋๋ค.