Training a Scientific Reasoning Model for Chemistry

์ €์ž: Siddharth Narayanan, James D. Braza, Ryan-Rhys Griffiths, Albert Bou, G. Wellawatte | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2506.17238 📄 PDF


Essence

ํ™”ํ•™ ๋„๋ฉ”์ธ์„ ์œ„ํ•ด ํŠนํ™”๋œ ์ถ”๋ก  ๋ชจ๋ธ(reasoning model)์„ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํ›ˆ๋ จํ•˜๋ฉด, ์ถ”๊ฐ€ ๋„๋ฉ”์ธ ์‚ฌ์ „ํ•™์Šต ์—†์ด๋„ ์ผ๋ฐ˜ ๋ชฉ์  ๋ชจ๋ธ๊ณผ ์ „๋ฌธ๊ฐ€๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค. ether0๋ผ๋Š” 24B ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์€ ์ž์—ฐ์–ธ์–ด ์ถ”๋ก ๊ณผ ํ™”ํ•™ ๊ตฌ์กฐ(SMILES) ์ถœ๋ ฅ์„ ํ†ตํ•ฉํ•˜์—ฌ ์•ฝ๋ฌผ ๋ฐœ๊ฒฌ์˜ ํ•ต์‹ฌ ๋‹จ๊ณ„๋ฅผ ์ง€์›ํ•œ๋‹ค.

Motivation

Achievement

Figure 1: ํ›ˆ๋ จ ๋ฐฉ๋ฒ•๋ก  ๊ฐœ์š” ๋ฐ ether0์˜ ์ถ”๋ก  ์˜ˆ์‹œ. ํ•˜๋‹จ์˜ ํ›ˆ๋ จ ๋‹จ๊ณ„๋Š” ๊ฐ ๋‹จ๊ณ„๋ณ„ ์ •ํ™•๋„๋ฅผ ๋™์ผ x์ถ• ๋ฒ”์œ„๋กœ ์ •๊ทœํ™”ํ•˜์—ฌ ํ‘œ์‹œ
  1. ์„ฑ๋Šฅ ์šฐ์œ„: ether0๋Š” GPT-4o, Llama ๊ฐ™์€ ์ตœ์ฒจ๋‹จ LLM, ์ผ๋ฐ˜ ํ™”ํ•™ ๋ชจ๋ธ, ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€๋ฅผ ๋ถ„์ž ์„ค๊ณ„ ์ž‘์—…์—์„œ ์ดˆ๊ณผ. ํŠนํžˆ retrosynthesis, solubility editing ๋“ฑ ๋ณตํ•ฉ ์ถ”๋ก  ์ž‘์—…์—์„œ ๋‘๋“œ๋Ÿฌ์ง.
  2. ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ: ์ „๋ฌธํ™”๋œ ๋„๋ฉ”์ธ ํŠนํ™” ๋ชจ๋ธ(Molecular Transformer ๋“ฑ)๊ณผ ๋น„๊ตํ•ด ์›”๋“ฑํžˆ ์ ์€ ๋ฐ์ดํ„ฐ๋กœ ๋” ๋‚˜์€ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ. ์ด๋Š” ์ถ”๋ก  ๋ชจ๋ธ์˜ ์ผ๋ฐ˜์„ฑ๊ณผ ๊ฐ•ํ™”ํ•™์Šต์˜ ํšจ์œจ์„ฑ์„ ์ž…์ฆ.
  3. ์•ฝ๋ฌผ ๋ฐœ๊ฒฌ ํŒŒ์ดํ”„๋ผ์ธ ํ†ตํ•ฉ: Hit discovery(ํ›„๋ณด ์ƒ์„ฑ) โ†’ Hit-to-lead(ํšจ๋Šฅ/์„ ํƒ์„ฑ ๊ฐœ์„ ) โ†’ Lead optimization(ํšจ๊ณผ ๊ฐ•ํ™”, ๋…์„ฑ ๊ฐ์†Œ, ADMET ๊ฐœ์„ )์˜ ํ•ต์‹ฌ ๋‹จ๊ณ„๋ฅผ ํ•ฉ์„ฑ ๊ฐ€๋Šฅ์„ฑ ์ œ์•ฝ ํ•˜์—์„œ ์ง€์›.
  4. 375๊ฐœ ์ž‘์—…์˜ ๋‹ค์–‘์„ฑ: ๋‹จ์ˆœ ๊ตฌ์กฐ ๋ณ€ํ™˜(IUPAC name, SMILES completion)๋ถ€ํ„ฐ ๋ณตํ•ฉ ํŠน์„ฑ ์˜ˆ์ธก(ํ˜ˆ๋‡Œ์žฅ๋ฒฝ ํˆฌ๊ณผ์„ฑ, ์ˆ˜์šฉ์ฒด ๊ฒฐํ•ฉ, ๋ƒ„์ƒˆ ํŠน์„ฑ)๊นŒ์ง€ ํฌ๊ด„.

How

Figure 2: ์ผ๋ฐ˜ ๋ชฉ์  LLM๊ณผ์˜ ์ž‘์—…๋ณ„ ์„ฑ๋Šฅ ๋น„๊ต

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ํ™”ํ•™ ์ถ”๋ก ์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ RL ๊ธฐ๋ฐ˜ ์–ธ์–ด ๋ชจ๋ธ ๊ฐœ๋ฐœ์˜ ์ฒซ ์‚ฌ๋ก€๋กœ์„œ, ์‹คํ—˜ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์˜ 640K ๋ฌธ์ œ์™€ 375๊ฐœ ์ž‘์—…์˜ ๋‹ค์–‘ํ•œ ๊ฒ€์ฆ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ์—์„œ ์šฐ์ˆ˜์„ฑ์„ ์ž…์ฆํ•œ ๊ฐ•๋ ฅํ•œ ์—ฐ๊ตฌ์ด๋‹ค. ์•ฝ๋ฌผ ๋ฐœ๊ฒฌ ํŒŒ์ดํ”„๋ผ์ธ ํ†ตํ•ฉ๊ณผ ๋‹ค๋ฅธ ๊ณผํ•™ ๋ถ„์•ผ๋กœ์˜ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์€ ๋†’์œผ๋‚˜, ์‹ค์ œ ํ•ฉ์„ฑ ๊ฒ€์ฆ, 3D ๊ตฌ์กฐ ๊ณ ๋ ค, ๋ฐ ์ž„์ƒ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ํ‰๊ฐ€๋Š” ํ–ฅํ›„ ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํ™”ํ•™ ๋ฐ˜์‘ ์˜ˆ์ธก ๋“ฑ์—์„œ์˜ LLM ์—์ด์ „ํŠธ ์ฒด๊ณ„ ๊ฐœ๋ฐœ์„ ๋‹ค๋ฃจ๊ณ  ์žˆ์–ด, ๋„๋ฉ”์ธ ํŠนํ™” ๋ชจ๋ธ์˜ ์‹ค์ œ ์ ์šฉ ์ƒํ™ฉ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
419๋Š” ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐ reasoning ํ‰๊ฐ€์˜ ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•˜์—ฌ, 837์˜ ๋„๋ฉ”์ธ ํŠนํ™” reasoning ์‹คํ—˜์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
705๋Š” ๊ณผํ•™์  ์ถ”๋ก  ์ž๋™ํ™”, ์˜จํ†จ๋กœ์ง€ ํ†ตํ•ฉ, ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ด 837์—์„œ ํ™”ํ•™ ํŠนํ™” ๋ชจ๋ธ ๊ฐœ๋ฐœ์˜ ๊ธฐ๋ฐ˜์„ ์ด๋ฃน๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฐ”์ด์˜ค/ํ™”ํ•™ ๋ถ„์•ผ ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ์˜ ์ตœ๊ทผ ๋ฐœ์ „๊ณผ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃฌ ์„œ๋ฒ ์ด๋กœ, ํ™”ํ•™ ํŠนํ™” ์ถ”๋ก ๋ชจ๋ธ์˜ ํ•„์š”์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Augmenting large language models with chemistry tools ๋…ผ๋ฌธ์€ ํ™”ํ•™ ๋„๋ฉ”์ธ ํŠนํ™” ๋„๊ตฌ ์‚ฌ์šฉ์„ ํ†ตํ•œ LLM ํ–ฅ์ƒ์— ์ง‘์ค‘ํ•˜์—ฌ ether0 ๋ชจ๋ธ ํ›ˆ๋ จ ์ „๋žต์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
265๋Š” ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•œ LLM ์ถ”๋ก  ์ธ์„ผํ‹ฐ๋ธŒ ์ตœ์ ํ™” ์›๋ฆฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, 837์˜ RL ๊ธฐ๋ฐ˜ ํŠนํ™”๋ชจ๋ธ ํ›ˆ๋ จ๊ณผ ์ง์ ‘ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ™”ํ•™ ์‹คํ—˜ ๊ธฐํš ๋“ฑ์— LLM-๊ธฐ๋ฐ˜ AI ํ˜‘์—… ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ ์šฉํ•˜๋Š” ๊ด€์ ์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
837์€ ํ™”ํ•™ ํŠนํ™” LLM์˜ ์ถ”๋ก  ๋ฐ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€ ์„ฑ๋Šฅ์„, 225๋Š” ์ž„์ƒ ์ง„๋‹จ ํŠนํ™” LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ๊ฐ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋ฐฉ์ •์‹ ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ, ํ™”ํ•™ ๋„๋ฉ”์ธ ์™ธ์˜ ๊ณผํ•™์  ์ถ”๋ก  ์„ฑ๋Šฅ ๋น„๊ต ์—ฐ๊ตฌ๋กœ์„œ ์ฝ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ChemAgent ๋…ผ๋ฌธ์€ ํ™”ํ•™ ์‹คํ—˜ ๋ถ„์„ ์ž‘์—…์— LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ฅผ ์ ์šฉํ•œ ์‚ฌ๋ก€๋กœ ํ™”ํ•™ ํŠนํ™” ์ถ”๋ก ๊ณผ ๊ฒฐ๊ณผ ํ•ด์„ ๋ฐฉ์‹์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
135๋Š” ์˜คํ† ML๊ณผ LLM ๊ฒฐํ•ฉ์˜ ํ˜„์‹ค์  ๋„์ „๊ณผ์ œ๋ฅผ ๋ถ„์„ํ•˜์—ฌ, 837์—์„œ ์ œ์•ˆํ•œ reasoning ๊ฐ•ํ™”๋ฅผ ์‹ค์ œํ™”ํ•˜๋Š” ๊ณผ์ •์— ์‹ค์งˆ์  ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
837 ๋…ผ๋ฌธ์€ ํ™”ํ•™ ์ „์šฉ reasoning ๋ชจ๋ธ ํ›ˆ๋ จ์ด๋ผ๋Š” T-SciQ์˜ ๊ณผํ•™ ๋ฌธ์ œ ํŠน์ด์„ฑ์„ ์‹ฌํ™”์‹œํ‚จ ์‚ฌ๋ก€๋กœ, Chain-of-Thought ๊ต์œก ์ „๋žต์— ๋Œ€ํ•œ ๋น„๊ต ํ†ต์ฐฐ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
837์€ ํ™”ํ•™ ๋ถ„์•ผ ํŠนํ™” ์ถ”๋ก  ๋ชจ๋ธ์„ RL๋กœ ํ›ˆ๋ จํ•˜์—ฌ 705์—์„œ ์ œ์•ˆํ•˜๋Š” ์ž๋™ ๊ณผํ•™ ๋ฐœ๊ฒฌ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‹ค์งˆํ™”ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLM์ด ์•ฝ๋ฌผ ๋ฐ ํ™”ํ•™ ๋ถ„์•ผ ์ž๋™ํ™”์— ์ ์šฉ๋œ 34๊ฐ€์ง€ ์‹ค์ œ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•˜์—ฌ, ๋„๋ฉ”์ธ ํŠนํ™” ์ถ”๋ก ๋ชจ๋ธ์˜ ์‹ค์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ํ™”ํ•™ ๋ถ„์•ผ์—์„œ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ์ถ”๋ก ์„ ํ™•์žฅํ•ด ์ˆ˜ํ•™์  AI ์‹œ์Šคํ…œ์˜ ๋ฒ”์šฉ์„ฑ๊ณผ ํ•œ๊ณ„๋ฅผ ๋น„๊ต ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Œ.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •