Geometry Informed Tokenization of Molecules for Language Model Generation

์ €์ž: Xiner Li, Limei Wang, Youzhi Luo, Carl N. Edwards, Shurui Gui | ๋‚ ์งœ: 2024 | DOI: 10.48550/arXiv.2408.10120 📄 PDF


Essence

Figure 1

Geo2Seq ๊ฐœ์š”: ์ •๊ทœ ํ‘œ์ค€ํ™” ๋ผ๋ฒจ๋ง ์ˆœ์„œ๋กœ ๋…ธ๋“œ๋ฅผ ๋ฐฐ์—ดํ•˜๊ณ  ๊ฐ ๋…ธ๋“œ์— ์›์ž ์ข…๋ฅ˜์™€ ๊ตฌ๋ฉด ์ขŒํ‘œ๋ฅผ ๋ฒกํ„ฐ ํ˜•ํƒœ๋กœ ์ฑ„์›Œ ์ˆ˜์—ด๋กœ ๋ณ€ํ™˜

๋ณธ ๋…ผ๋ฌธ์€ 3D ๋ถ„์ž ๊ตฌ์กฐ๋ฅผ SE(3)-๋ถˆ๋ณ€(invariant) 1D ์ด์‚ฐ ์ˆ˜์—ด๋กœ ๋ณ€ํ™˜ํ•˜๋Š” Geo2Seq ํ† ํฐํ™” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜์—ฌ, ์–ธ์–ด ๋ชจ๋ธ(LM)์ด 3D ๋ถ„์ž ์ƒ์„ฑ ํƒœ์Šคํฌ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค. ๊ธฐ์กด์˜ ํ™•์‚ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ๋ณด๋‹ค ๋น ๋ฅด๋ฉด์„œ๋„ ๋” ๋‚˜์€ ์กฐ๊ฑด๋ถ€ ์ƒ์„ฑ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.

Motivation

Achievement

Figure 3

ํŽธ๊ทน์œจ(Polarizability ฮฑ) ์กฐ๊ฑด์œผ๋กœ ์ƒ์„ฑ๋œ ๋ถ„์ž์˜ ์‹œ๊ฐํ™”

Figure 4

QM9 ๋ฐ์ดํ„ฐ์…‹์—์„œ Geo2Seq + Mamba๋กœ ์ƒ์„ฑ๋œ ๋ถ„์ž์˜ ์‹œ๊ฐํ™”

  1. ์ƒ์„ฑ ํ’ˆ์งˆ ๋ฐ ๋‹ค์–‘์„ฑ: Geo2Seq์„ ๋‹ค์–‘ํ•œ ์–ธ์–ด ๋ชจ๋ธ(Transformer, Mamba ๋“ฑ SSM)๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ํ™”ํ•™์ ์œผ๋กœ ์œ ํšจํ•˜๊ณ  ๋‹ค์–‘ํ•œ 3D ๋ถ„์ž๋ฅผ ์‹ ๋ขฐ์„ฑ ์žˆ๊ฒŒ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆ
  2. ์กฐ๊ฑด๋ถ€ ์ƒ์„ฑ ์„ฑ๋Šฅ: ์กฐ๊ฑด๋ถ€ ์ƒ์„ฑ(conditional generation) ํƒœ์Šคํฌ์—์„œ ๊ฐ•๋ ฅํ•œ ํ™•์‚ฐ ๋ชจ๋ธ ๊ธฐ์ €์„ (EDM ๋“ฑ)์„ ํฐ ์ฐจ์ด๋กœ ์ดˆ๊ณผ ๋‹ฌ์„ฑ
  3. ํšจ์œจ์„ฑ: ํ™•์‚ฐ ๋ชจ๋ธ ๋Œ€๋น„ ํ›จ์”ฌ ๋น ๋ฅธ ์ƒ์„ฑ ์†๋„(์ž๋™ํšŒ๊ท€ ๋””์ฝ”๋”ฉ)๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ ์ œ๊ณต

How

Figure 1

Geo2Seq์˜ ํ•ต์‹ฌ ๋‹จ๊ณ„: ์ •๊ทœ ํ‘œ์ค€ํ™” ๋ผ๋ฒจ๋ง, ๊ตฌ๋ฉด ์ขŒํ‘œ ํ‘œํ˜„, ํ† ํฐํ™”, ์ˆ˜์—ด ์ƒ์„ฑ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์–ธ์–ด ๋ชจ๋ธ์„ 3D ๋ถ„์ž ์ƒ์„ฑ์— ํšจ๊ณผ์ ์œผ๋กœ ์ ์šฉํ•˜๊ธฐ ์œ„ํ•œ ์ฐฝ์˜์ ์ธ ํ† ํฐํ™” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜๋ฉฐ, SE(3)-๋ถˆ๋ณ€์„ฑ์„ ์—„๋ฐ€ํžˆ ๋ณด์žฅํ•˜๋ฉด์„œ๋„ ์กฐ๊ฑด๋ถ€ ์ƒ์„ฑ์—์„œ ํ™•์‚ฐ ๋ชจ๋ธ์„ ์ดˆ๊ณผํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค. ๋ชจ๋ธ-๋ถˆ๊ฐ€์ง€๋ก ์  ์„ค๊ณ„๋กœ ํ™•์žฅ์„ฑ๋„ ์šฐ์ˆ˜ํ•˜๋‚˜, ์ˆ˜์น˜ ์ •๋ฐ€๋„์™€ ๊ณ„์‚ฐ ๋ณต์žก๋„ ์ธก๋ฉด์˜ ์‹ค์šฉ์  ์ œ์•ฝ์— ๋Œ€ํ•œ ๋” ๊นŠ์€ ๋…ผ์˜๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
383์˜ geometry-informed tokenization ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋‹จ๋ฐฑ์งˆ-๋ฆฌ๊ฐ„๋“œ ์ƒํ˜ธ์ž‘์šฉ ๋ชจ๋ธ ํ•™์Šต์˜ ์ „์ฒ˜๋ฆฌ ๋ฐ ํ”ผ์ฒ˜ ์„ค๊ณ„์— ์ด๋ก ์  ๊ทผ๊ฐ„์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
geometry informed tokenization ๋“ฑ ๋ถ„์ž/๊ตฌ์กฐ ์ •๋ณด ์œตํ•ฉ ๊ธฐ๋ฒ•์„ ํ†ตํ•ด, ์•ต์ปค ์ •๋ ฌ ๋ฌธ์ œ(FMVACC) ํ•ด๊ฒฐ์˜ ๋ฐ์ดํ„ฐ ํ‘œํ˜„ ๊ด€์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Geometry Informed Tokenization ๋…ผ๋ฌธ์€ 3D ๋ถ„์ž ๊ตฌ์กฐ ์ •๋ณด๋ฅผ ์—ฐ๊ณ„ํ•œ ํ† ํฐํ™” ๋ฐฉ์‹์„ ์ œ์‹œํ•˜์—ฌ Frag2Seq ์ ‘๊ทผ๊ณผ ์ง๊ฒฐ๋œ ์„ ํ–‰์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ถ„์ž ๊ตฌ์กฐ์— ๋Œ€ํ•œ geometry informed tokenization ์—ฐ๊ตฌ๋Š” ๊ฒฐ์ • ๊ตฌ์กฐ์˜ ๋ถˆ๋ณ€์„ฑ ํ† ํฐํ™”์™€ ๊ฐœ๋…์ ์œผ๋กœ ๋งž๋‹ฟ์•„ ์žˆ์–ด ์ƒํ˜ธ์ฐธ๊ณ ๊ฐ€ ํ•„์š”ํ•˜๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ถ„์ž ๊ตฌ์กฐ ๋ฐ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ํ† ํฌ๋‚˜์ด์ œ์ด์…˜ ๊ธฐ๋ฒ• ์—ฐ๊ตฌ๋กœ, ๋ถ„์ž ์ž๋™ ๋ฌธ๋ฒ• ํ•™์Šต์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
383์˜ geometry-informed tokenization์€ ๋ฆฌ๊ฐ„๋“œ ๋ฐ ๊ธˆ์†์ฐฉ๋ฌผ ๋ฐ์ดํ„ฐ ๋ถ„์„์˜ feature ์„ค๊ณ„์— ํ•ต์‹ฌ ์ด๋ก ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ถ„์ž geometry ์ •๋ณด๋ฅผ ํ•™์Šต์— ๋ฐ˜์˜ํ•˜๋Š” ํ† ํฌ๋‚˜์ด์ง• ๋ฐฉ์‹์ด, multi-to-uni modal knowledge transfer ์‚ฌ์ „ํ•™์Šต์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SMILES ๊ธฐ๋ฐ˜ ํ™”ํ•™ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ตฌ์กฐ์  ํ‘œํ˜„ ํ•™์Šต์— ๋Œ€ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํ™”ํ•™ ๋ฐ ๋ถ„์ž ์–ธ์–ด ๋ชจ๋ธ์˜ ์กฐ๊ฐ/๊ตฌ์กฐ ์ธ์ฝ”๋”ฉ ๊ธฐ๋ฐ˜ ํ† ํฌ๋‚˜์ด์ œ์ด์…˜ ๊ธฐ๋ฒ•์„ ์˜๊ฐ์„ ์ค€ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ถ„์ž ๊ตฌ์กฐ ํ† ํฌ๋‚˜์ด์ง•/์ž„๋ฒ ๋”ฉ์˜ ๊ธฐํ•˜ํ•™์  ์ •๋ณด ํ™œ์šฉ์ด, ๋‹ค์–‘ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ์œตํ•ฉ ๊ธฐ๋ฐ˜ ๋‹จ๋ฐฑ์งˆ ๊ธฐ๋Šฅ ์˜ˆ์ธก์˜ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์กฐ๊ฑด๋ถ€ ๋ถ„์ž ์ƒ์„ฑ์„ ์œ„ํ•œ ๋‹ค๋ฅธ ์ƒ์„ฑ ๋ชจ๋ธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
3D ๋ถ„์ž ๊ตฌ์กฐ๋ฅผ ์–ธ์–ด ๋ชจ๋ธ์— ์ ํ•ฉํ•œ ํ‘œํ˜„์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MOF ์‹คํ—˜ ๋ฐ์ดํ„ฐ ์ •๋ณด ์ถ”์ถœ๊ณผ ํ† ํฐํ™” ๋“ฑ ์ •๋ณด ์ถ”์ถœ ์ „๋žต์„ ๋‹ค๋ฅด๋ฉด์„œ๋„ ์œ ์‚ฌํ•œ ๋ชฉํ‘œ(3D ์ •๋ณด ๋ณด์กด)๋ฅผ ์ง€๋‹Œ ๋…ผ๋ฌธ์ด์–ด์„œ ์ƒํ˜ธ๋ณด์™„์ ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
3252 ๋…ผ๋ฌธ์€ ๋ฌผ์งˆ ๊ฒฐ์ • ๊ตฌ์กฐ ์ƒ์„ฑ์— LLM+diffusion, ์กฐํ•ฉ ์ตœ์ ํ™” ๋“ฑ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๋ถ„์ž ์ˆ˜์ค€ ์ƒ์„ฑ๊ณผ์˜ ํ™•์žฅ์  ๋Œ€์กฐ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ถ„์ž ํ† ํฌ๋‚˜์ด์ง•์„ ์ง€์˜ค๋ฉ”ํŠธ๋ฆฌ ์ธ์ง€ ๋ฐฉ์‹์œผ๋กœ ๊ฐœ์„ ํ•˜๋Š” ์—ฐ๊ตฌ๋กœ, ๋ถ„์ž ์„œ์—ด ๋ฐ ๊ตฌ์กฐ ๊ณต๊ฐ„์— ๋Œ€ํ•œ ์ƒ์„ฑ์  ์ ‘๊ทผ์—์„œ ๋Œ€์•ˆ์  ๋ฐฉ๋ฒ•๋ก ์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
SE(3)-๋ถˆ๋ณ€ ๋ถ„์ž ํ‘œํ˜„ ํ•™์Šต์˜ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Geometry Informed Tokenization of Molecules๋Š” ๋ถ„์ž/๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ๋ฅผ ์œ„ํ•œ ์ƒ์„ฑ์  ํ‘œํ˜„ ํ•™์Šต์ด๋ผ๋Š” ์œ ์‚ฌ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•(geometry ๊ธฐ๋ฐ˜)์œผ๋กœ ๋‹ค๋ฃจ์–ด ๋น„๊ต ์ฝ๊ธฐ์— ์ข‹์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ถ„์ž ๊ตฌ์กฐ ํ‘œํ˜„์—์„œ ๊ธฐํ•˜ํ•™์  ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํƒ๊ตฌํ•˜์—ฌ, [3123]์˜ ๋‹จ๋ฐฑ์งˆ-๋ฆฌ๊ฐ„๋“œ ์ธํ„ฐ๋ž™์…˜ ์˜ˆ์ธก ๋ฐฉ์‹๊ณผ ๋น„๊ต๋  ์ˆ˜ ์žˆ๋Š” ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋‹จ๋ฐฑ์งˆ-๋ฆฌ๊ฐ„๋“œ ์ƒํ˜ธ์ž‘์šฉ์˜ ํ† ํฐํ™”์™€ ํ‘œํ˜„๋ ฅ ์ฆ์ง„ ์ธก๋ฉด์—์„œ ๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ ๊ธฐํ•˜ ํŠน์„ฑ ๋ฐ˜์˜์„ ์‹ค์ œ์ ์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
MOF ์‹คํ—˜ ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐํ™”์™€ ์ถ”์ถœ ๋“ฑ ์‹ค์ œ ์ •๋ณด์ฒ˜๋ฆฌ ์‘์šฉ์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
Geometry Informed Tokenization of Molecules ๋…ผ๋ฌธ์€ LLM-RL ์กฐํ•ฉ ์—†์ด๋„ ๊ณผํ•™ ์ถ”๋ก ์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ๊ฒ€์ฆ์„ฑ์„ ๋ณด์žฅํ•˜๋Š” ๊ตฌ์กฐ๋ฅผ ์‹คํ—˜ํ•ด ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์ž๊ธฐ๊ฒ€์ฆ๊ณผ ํ•œ๊ณ„์  ๋น„๊ต์— ๋„์›€์ด ๋œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •