Essence
Geo2Seq ๊ฐ์: ์ ๊ท ํ์คํ ๋ผ๋ฒจ๋ง ์์๋ก ๋
ธ๋๋ฅผ ๋ฐฐ์ดํ๊ณ ๊ฐ ๋
ธ๋์ ์์ ์ข
๋ฅ์ ๊ตฌ๋ฉด ์ขํ๋ฅผ ๋ฒกํฐ ํํ๋ก ์ฑ์ ์์ด๋ก ๋ณํ
๋ณธ ๋
ผ๋ฌธ์ 3D ๋ถ์ ๊ตฌ์กฐ๋ฅผ SE(3)-๋ถ๋ณ(invariant) 1D ์ด์ฐ ์์ด๋ก ๋ณํํ๋ Geo2Seq ํ ํฐํ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ, ์ธ์ด ๋ชจ๋ธ(LM)์ด 3D ๋ถ์ ์์ฑ ํ์คํฌ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ํํ ์ ์๋๋ก ํ๋ค. ๊ธฐ์กด์ ํ์ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ๋ณด๋ค ๋น ๋ฅด๋ฉด์๋ ๋ ๋์ ์กฐ๊ฑด๋ถ ์์ฑ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ธ์ด ๋ชจ๋ธ์ 3D ๋ถ์ ์์ฑ์ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉํ๊ธฐ ์ํ ์ฐฝ์์ ์ธ ํ ํฐํ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, SE(3)-๋ถ๋ณ์ฑ์ ์๋ฐํ ๋ณด์ฅํ๋ฉด์๋ ์กฐ๊ฑด๋ถ ์์ฑ์์ ํ์ฐ ๋ชจ๋ธ์ ์ด๊ณผํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. ๋ชจ๋ธ-๋ถ๊ฐ์ง๋ก ์ ์ค๊ณ๋ก ํ์ฅ์ฑ๋ ์ฐ์ํ๋, ์์น ์ ๋ฐ๋์ ๊ณ์ฐ ๋ณต์ก๋ ์ธก๋ฉด์ ์ค์ฉ์ ์ ์ฝ์ ๋ํ ๋ ๊น์ ๋
ผ์๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
383์ geometry-informed tokenization ํ๋ ์์ํฌ๋ ๋จ๋ฐฑ์ง-๋ฆฌ๊ฐ๋ ์ํธ์์ฉ ๋ชจ๋ธ ํ์ต์ ์ ์ฒ๋ฆฌ ๋ฐ ํผ์ฒ ์ค๊ณ์ ์ด๋ก ์ ๊ทผ๊ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
geometry informed tokenization ๋ฑ ๋ถ์/๊ตฌ์กฐ ์ ๋ณด ์ตํฉ ๊ธฐ๋ฒ์ ํตํด, ์ต์ปค ์ ๋ ฌ ๋ฌธ์ (FMVACC) ํด๊ฒฐ์ ๋ฐ์ดํฐ ํํ ๊ด์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Geometry Informed Tokenization ๋
ผ๋ฌธ์ 3D ๋ถ์ ๊ตฌ์กฐ ์ ๋ณด๋ฅผ ์ฐ๊ณํ ํ ํฐํ ๋ฐฉ์์ ์ ์ํ์ฌ Frag2Seq ์ ๊ทผ๊ณผ ์ง๊ฒฐ๋ ์ ํ์ฐ๊ตฌ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ถ์ ๊ตฌ์กฐ์ ๋ํ geometry informed tokenization ์ฐ๊ตฌ๋ ๊ฒฐ์ ๊ตฌ์กฐ์ ๋ถ๋ณ์ฑ ํ ํฐํ์ ๊ฐ๋
์ ์ผ๋ก ๋ง๋ฟ์ ์์ด ์ํธ์ฐธ๊ณ ๊ฐ ํ์ํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ถ์ ๊ตฌ์กฐ ๋ฐ ์ด๋ฏธ์ง-ํ
์คํธ ๊ธฐ๋ฐ ํ ํฌ๋์ด์ ์ด์
๊ธฐ๋ฒ ์ฐ๊ตฌ๋ก, ๋ถ์ ์๋ ๋ฌธ๋ฒ ํ์ต์ ์ด๋ก ์ ๊ทผ๊ฑฐ๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
383์ geometry-informed tokenization์ ๋ฆฌ๊ฐ๋ ๋ฐ ๊ธ์์ฐฉ๋ฌผ ๋ฐ์ดํฐ ๋ถ์์ feature ์ค๊ณ์ ํต์ฌ ์ด๋ก ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ถ์ geometry ์ ๋ณด๋ฅผ ํ์ต์ ๋ฐ์ํ๋ ํ ํฌ๋์ด์ง ๋ฐฉ์์ด, multi-to-uni modal knowledge transfer ์ฌ์ ํ์ต์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
SMILES ๊ธฐ๋ฐ ํํ ์ธ์ด ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ํํ ํ์ต์ ๋ํ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํํ ๋ฐ ๋ถ์ ์ธ์ด ๋ชจ๋ธ์ ์กฐ๊ฐ/๊ตฌ์กฐ ์ธ์ฝ๋ฉ ๊ธฐ๋ฐ ํ ํฌ๋์ด์ ์ด์
๊ธฐ๋ฒ์ ์๊ฐ์ ์ค ์ฐ๊ตฌ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ถ์ ๊ตฌ์กฐ ํ ํฌ๋์ด์ง/์๋ฒ ๋ฉ์ ๊ธฐํํ์ ์ ๋ณด ํ์ฉ์ด, ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ ์ตํฉ ๊ธฐ๋ฐ ๋จ๋ฐฑ์ง ๊ธฐ๋ฅ ์์ธก์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์กฐ๊ฑด๋ถ ๋ถ์ ์์ฑ์ ์ํ ๋ค๋ฅธ ์์ฑ ๋ชจ๋ธ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
3D ๋ถ์ ๊ตฌ์กฐ๋ฅผ ์ธ์ด ๋ชจ๋ธ์ ์ ํฉํ ํํ์ผ๋ก ๋ณํํ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
MOF ์คํ ๋ฐ์ดํฐ ์ ๋ณด ์ถ์ถ๊ณผ ํ ํฐํ ๋ฑ ์ ๋ณด ์ถ์ถ ์ ๋ต์ ๋ค๋ฅด๋ฉด์๋ ์ ์ฌํ ๋ชฉํ(3D ์ ๋ณด ๋ณด์กด)๋ฅผ ์ง๋ ๋
ผ๋ฌธ์ด์ด์ ์ํธ๋ณด์์ ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
3252 ๋
ผ๋ฌธ์ ๋ฌผ์ง ๊ฒฐ์ ๊ตฌ์กฐ ์์ฑ์ LLM+diffusion, ์กฐํฉ ์ต์ ํ ๋ฑ์ ๊ฒฐํฉํ์ฌ ๋ถ์ ์์ค ์์ฑ๊ณผ์ ํ์ฅ์ ๋์กฐ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ถ์ ํ ํฌ๋์ด์ง์ ์ง์ค๋ฉํธ๋ฆฌ ์ธ์ง ๋ฐฉ์์ผ๋ก ๊ฐ์ ํ๋ ์ฐ๊ตฌ๋ก, ๋ถ์ ์์ด ๋ฐ ๊ตฌ์กฐ ๊ณต๊ฐ์ ๋ํ ์์ฑ์ ์ ๊ทผ์์ ๋์์ ๋ฐฉ๋ฒ๋ก ์ ํด๋นํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SE(3)-๋ถ๋ณ ๋ถ์ ํํ ํ์ต์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Geometry Informed Tokenization of Molecules๋ ๋ถ์/๋จ๋ฐฑ์ง ๊ตฌ์กฐ๋ฅผ ์ํ ์์ฑ์ ํํ ํ์ต์ด๋ผ๋ ์ ์ฌ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ์ ๊ทผ๋ฒ(geometry ๊ธฐ๋ฐ)์ผ๋ก ๋ค๋ฃจ์ด ๋น๊ต ์ฝ๊ธฐ์ ์ข์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ถ์ ๊ตฌ์กฐ ํํ์์ ๊ธฐํํ์ ์ ๋ณด๋ฅผ ํ์ฉํ๋ ๋ฐฉ๋ฒ์ ํ๊ตฌํ์ฌ, [3123]์ ๋จ๋ฐฑ์ง-๋ฆฌ๊ฐ๋ ์ธํฐ๋์
์์ธก ๋ฐฉ์๊ณผ ๋น๊ต๋ ์ ์๋ ๋์์ ์ ๊ทผ๋ฒ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋จ๋ฐฑ์ง-๋ฆฌ๊ฐ๋ ์ํธ์์ฉ์ ํ ํฐํ์ ํํ๋ ฅ ์ฆ์ง ์ธก๋ฉด์์ ๋จ๋ฐฑ์ง ๊ตฌ์กฐ ๊ธฐํ ํน์ฑ ๋ฐ์์ ์ค์ ์ ์ผ๋ก ํ์ฅํฉ๋๋ค.
์์ฉ ์ฌ๋ก
MOF ์คํ ๋ฐ์ดํฐ์ ๊ตฌ์กฐํ์ ์ถ์ถ ๋ฑ ์ค์ ์ ๋ณด์ฒ๋ฆฌ ์์ฉ์ ๊ธฐ์ฌํ ์ ์๋ค.
๋ฐ๋ก /๋นํ
Geometry Informed Tokenization of Molecules ๋
ผ๋ฌธ์ LLM-RL ์กฐํฉ ์์ด๋ ๊ณผํ ์ถ๋ก ์ ์ ๋ขฐ์ฑ๊ณผ ๊ฒ์ฆ์ฑ์ ๋ณด์ฅํ๋ ๊ตฌ์กฐ๋ฅผ ์คํํด ๊ฐํํ์ต ๊ธฐ๋ฐ ์๊ธฐ๊ฒ์ฆ๊ณผ ํ๊ณ์ ๋น๊ต์ ๋์์ด ๋๋ค.