Enhancing chemical reaction and retrosynthesis prediction with large language model and dual-task learning

์ €์ž: Xuan Lin, Qingrui Liu, Hongxin Xiang, Daojian Zeng, Xiangxiang Zeng | ๋‚ ์งœ: 2025 | DOI: arXiv:2505.02639 📄 PDF


Essence

Figure 1

BRICS ๊ธฐ๋ฐ˜ ๋‹จํŽธ(fragment)๊ณผ ๋ฐ˜์‘๋ฌผ(reactant) ๊ฐ„์˜ ์œ ์‚ฌ์„ฑ ๋ถ„ํฌ(ํ‰๊ท  66.5%) ๋ฐ ์ด์ค‘ ๊ณผ์ œ ํ•™์Šต์„ ํ†ตํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ(6.3% ๊ฐœ์„ )

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ํ™”ํ•™ ๋ฐ˜์‘ ๋ฐ ์—ญํ•ฉ์„ฑ ์˜ˆ์ธก์— ์ ์šฉํ•  ๋•Œ ์ง๋ฉดํ•˜๋Š” ๋ฐ์ดํ„ฐ ๋ถ€์กฑ๊ณผ ๊ณผ์ œ ๊ฐ„ ์ƒ๊ด€๊ด€๊ณ„ ๋ฌด์‹œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, BRICS ๊ธฐ๋ฐ˜ 440๋งŒ ๊ฐœ ๋ถ„์ž ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ด์ค‘ ๊ณผ์ œ ํ•™์Šต ์ „๋žต์„ ๊ฐ–์ถ˜ ChemDual ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค.

Motivation

Achievement

Figure 2

ChemDual์˜ ์ „์ฒด ๊ตฌ์กฐ: ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•, ๋‹ค์ค‘ ๊ทœ๋ชจ ํ† ํฌ๋‚˜์ด์ €, ์ด์ค‘ ๊ณผ์ œ ํ•™์Šต ๋ชจ๋“ˆ

  1. ์„ฑ๋Šฅ ํ–ฅ์ƒ: Mol-Instruction ๋ฐ USPTO-50K ๋ฐ์ดํ„ฐ์…‹์—์„œ ๊ธฐ์กด ๋‹จ์ผ ๊ณผ์ œ ์ ‘๊ทผ๋ฒ• ๋ฐ ์ผ๋ฐ˜ ์˜คํ”ˆ์†Œ์Šค LLM์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ •ํ™•๋„ ๋‹ฌ์„ฑ (๋ฐ˜์‘ ์˜ˆ์ธก์—์„œ ์ด์ค‘ ๊ณผ์ œ ํ•™์Šต ์ ์šฉ ์‹œ 6.3% Exact Match Score ๊ฐœ์„ )
  2. ์•ฝ๋ฌผ ์„ค๊ณ„ ์ž ์žฌ๋ ฅ: ๋ถ„์ž ๋„ํ‚น ๋ถ„์„ ๊ฒฐ๊ณผ ChemDual์ด ๋‹จ๋ฐฑ์งˆ ๊ฒฐํ•ฉ ์นœํ™”๋„๊ฐ€ ์šฐ์ˆ˜ํ•˜๊ณ  ๋‹ค์–‘ํ•œ ํ™”ํ•ฉ๋ฌผ์„ ์ƒ์„ฑํ•˜์—ฌ ์‹ ์•ฝ ์„ค๊ณ„์— ๊ฐ•ํ•œ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ ์ž…์ฆ
  3. ํšจ์œจ์  ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•: 20M SMILES ์‹œํ€€์Šค๋กœ๋ถ€ํ„ฐ 440๋งŒ ๊ฐœ์˜ ํ•™์Šต์šฉ ์ง€์‹œ๋ฌธ ์ž๋™ ์ƒ์„ฑ์œผ๋กœ ๋ฐ์ดํ„ฐ ํš๋“ ๋น„์šฉ ๋Œ€ํญ ์ ˆ๊ฐ

How

Figure 3

์ง€์‹œ๋ฌธ ์„ธํŠธ ์˜ˆ์‹œ: ์—ญํ•ฉ์„ฑ(์ „๋ฐฉ ๊ณผ์ œ)๊ณผ ๋ฐ˜์‘ ์˜ˆ์ธก(ํ›„๋ฐฉ ๊ณผ์ œ)

Dataset Construction (3.1์ ˆ)

Multi-scale Tokenizer (3.2์ ˆ)

Dual-task Learning (3.3์ ˆ)

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ChemDual์€ BRICS ๊ธฐ๋ฐ˜ ์ €๋น„์šฉ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹๊ณผ ํ™”ํ•™์  ์ง๊ด€์— ๊ธฐ๋ฐ˜ํ•œ ์ด์ค‘ ๊ณผ์ œ ํ•™์Šต์œผ๋กœ ํ™”ํ•™ ๋ฐ˜์‘/์—ญํ•ฉ์„ฑ ์˜ˆ์ธก์—์„œ ์˜๋ฏธ ์žˆ๋Š” ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ์•ฝ๋ฌผ ์„ค๊ณ„ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์‹ค์ฆํ–ˆ๋‹ค. ๋‹ค๋งŒ ๋‹จํŽธํ™” ๋ฐฉ๋ฒ•์˜ ํ•œ๊ณ„, ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ๋ถ€์กฑ, ํ‰๊ฐ€ ๋ฒ”์œ„ ํ™•๋Œ€์˜ ํ•„์š”์„ฑ์ด ํ–ฅํ›„ ๊ฐœ์„  ๋ฐฉํ–ฅ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
005์˜ ์žฅ๋ฌธ ์ปจํ…์ŠคํŠธ LLM ์„œ๋ฒ ์ด๋Š” 316์ฒ˜๋Ÿผ ๋ฐ˜์‘/ํ•ฉ์„ฑ ์˜ˆ์ธก์— ๋Œ€์šฉ๋Ÿ‰ ๋ฌธ๋งฅ ๋ชจ๋ธ์„ ํ™œ์šฉํ•  ๋•Œ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํ™”ํ•™ ๋ฐ˜์‘ ๋ฐ ์—ญํ•ฉ์„ฑ ์˜ˆ์ธก์—์„œ LLM ํ™œ์šฉ ๋ฐ ํ† ํฐํ™” ๊ตฌ์กฐ์  ํŽธํ–ฅ ๋ถ€์—ฌ ๋“ฑ ๊ตฌ์กฐ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก ์—ฐ๊ตฌ์˜ ํ•ต์‹ฌ์  ๊ฐœ๋…์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
346 ๋…ผ๋ฌธ์€ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ ํšจ์œจ์  ๋Šฅ๋™ ํ•™์Šต๋ฒ•์„ ์ œ์‹œํ•ด, 316 ๋…ผ๋ฌธ์˜ ํ™”ํ•™ ๋ฐ˜์‘ ์˜ˆ์ธก์— LLM ์ ์šฉ ์ „๋žต์˜ ๊ธฐ๋ฐ˜ ์ด๋ก ์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Enhancing chemical reaction and retrosynthesis prediction with Hessian-informed learning์€ ํ—ค์‹œ์•ˆ ํ–‰๋ ฌ ์ •๋ณด์˜ ๋„์ž…์ด ํ™”ํ•™๋ฐ˜์‘ ์˜ˆ์ธก ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ์–ด๋–ป๊ฒŒ ๊ธฐ์—ฌํ•˜๋Š”์ง€ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
212๋Š” LLM์„ ํ™œ์šฉํ•œ ํ™”ํ•™ ๋ฐ˜์‘ ๋ฐ ํ•ฉ์„ฑ ์˜ˆ์ธก์—์„œ multi-agent ํ”„๋ ˆ์ž„์›Œํฌ ์ ‘๊ทผ์„ ์ œ์‹œํ•˜์—ฌ, 316๊ณผ์˜ ์ ์šฉ ๋ฐฉ์‹ ์ฐจ์ด๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
213 ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ํ™”ํ•™์  ์ถ”๋ก  ๋ฐ ์—ญํ•ฉ์„ฑ ๊ฒ€์ƒ‰ ์ „๋žต์„ ๊ทœ์น™ ๊ธฐ๋ฐ˜ ํƒ์ƒ‰์œผ๋กœ ์ ‘๊ทผํ•ด, 316 ๋…ผ๋ฌธ์˜ ChemDual LLM ๋ฐ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ• ํ•™์Šต๋ฒ•๊ณผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Efficient Evolutionary Search Over Chemical Space ๋…ผ๋ฌธ์€ ํ™”ํ•™ ๋ฐ˜์‘ ํƒ์ƒ‰/์˜ˆ์ธก์˜ ์ค‘์‹ฌ ๋ฌธ์ œ๋ฅผ ์ง„ํ™”์  ํƒ์ƒ‰ ๊ธฐ๋ฐ˜ ML ๋ฐฉ์‹์œผ๋กœ ํ•ด๊ฒฐํ•˜๋Š” ์ƒ‰๋‹ค๋ฅธ ๊ด€์ ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
461์€ constrained retrosynthesis planning์„ ์œ„ํ•ด ์ธ๊ฐ„ ์ˆ˜์ค€ ํ†ต์ œ๋ฅผ ๋ชฉํ‘œ๋กœ ํ•˜์—ฌ, 316์˜ ์ด์ค‘๊ณผ์ œ ํ•™์Šต ์ „๋žต๊ณผ ๋Œ€๋น„ํ•ด ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜ ๋ฐ˜์‘ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ฐœ๊ฒฌยท์„ค๊ณ„์™€ ab initio ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ฒฐํ•ฉ์„ ๋‹ค๋ฅด๊ฒŒ ์ ‘๊ทผํ•˜๋Š” ๋˜ ๋‹ค๋ฅธ ์—ฐ๊ตฌ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ™”ํ•™ ๋ฐ˜์‘ ์˜ˆ์ธก ๋ฐ ํ›„๋ณด ๋ถ„์ž ๋„์ถœ์— LLM์„ ํ™œ์šฉํ•œ ์ ‘๊ทผ๋ฒ•์„ ๋ณด์—ฌ์ฃผ์–ด, ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„์˜ AI ์ ์šฉ ์™ธ์—ฐ์„ ๋„“ํžŒ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ํ•ฉ์„ฑ ํ”Œ๋ž˜๋‹ ๋ฐ ์ „๋žต์ธ์‹ ๊ฐ•ํ™”๋ฅผ ๋ชฉํ‘œ๋กœ ํ•˜๋ฉฐ, ์—ญํ•ฉ์„ฑ ๋ฌธ์ œ์—์„œ ์‹ ๊ฒฝ-์‹ฌ๋ณผ๋ฆญ reasoning์„ ๋…ผ์ ์œผ๋กœ ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
316์€ ํ™”ํ•™ ๋ฐ˜์‘ ๋ฐ ์—ญํ•ฉ์„ฑ ์˜ˆ์ธก์—์„œ ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ๊ฐ•ํ™”ํ•˜๋Š” ์ ‘๊ทผ์„ ์ทจํ•ด, QHNet๊ณผ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ˜ ML ๋ชจ๋ธ์˜ ์‘์šฉ์„ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํ™”ํ•™ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค self-update ๊ธฐ๋Šฅ์„ ๊ฐ–์ถ˜ LLM ์—์ด์ „ํŠธ๋ฅผ ํ†ตํ•ด ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฐ ์ผ๋ฐ˜ํ™” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํ™”ํ•™ ๋ฐ˜์‘ ์˜ˆ์ธก๊ณผ ํ•ฉ์„ฑ ๊ฒฝ๋กœ ํƒ์ƒ‰์—์„œ diffusion ๋ฐ sequence-to-structure ๋„คํŠธ์›Œํฌ ์กฐํ•ฉ์„ ๋”์šฑ ๋ฐœ์ „์‹œํ‚ต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์„ ํ™œ์šฉํ•œ ํ™”ํ•™ ๋ฐ˜์‘ ๋ฐ ๋ ˆํŠธ๋กœ์‹ ์„ธ์Šค ์˜ˆ์ธก ๊ฐ•ํ™” ๋…ผ๋ฌธ์œผ๋กœ, ์†Œ๋ถ„์žยท๋‹จ๋ฐฑ์งˆ ์—ญ์žฅ ์ž๋™ ์ƒ์„ฑ๊ณผ ๊ฒฐํ•ฉ ์—ฐ๊ตฌ์˜ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํ™”ํ•™ ๋ฐ˜์‘ ๋ฐ ํ•ฉ์„ฑ ๊ฒฝ๋กœ ์˜ˆ์ธก์—์„œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ ์šฉ์„ ํ™•์žฅํ•˜๋Š” ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ํ™”ํ•™์  ๋ฐ˜์‘ ์˜ˆ์ธก ๋ฐ ๊ตฌ์กฐ ์ตœ์ ํ™” ๋“ฑ ์‹ค์งˆ์  ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ ์‘์šฉ์—์„œ FM์˜ ์‹ค์ œ ์„ฑ๋Šฅ ๋ฐ ๋ฌธ์ œ์ ์„ ๋…ผ์˜ํ•œ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
ML ๊ธฐ๋ฐ˜ ๋ฐ˜์‘ ๊ฒฝ๋กœ ์˜ˆ์ธก์—์„œ ์ถ”๊ฐ€์ ์ธ ํ”ผ์ง€์ปฌ ๋„๋ฉ”์ธ ์ง€์‹ ์ ์šฉ ๋ฐฉ์‹์— ๋Œ€ํ•ด ๋‹ค๋ฅธ ๊ด€์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •