ChemGymRL: A Customizable Interactive Framework for Reinforcement Learning for Digital Chemistry

์ €์ž: Chris Beeler, Sriram Ganapathi Subramanian, Kyle Sprague, Mark Baula, Nouha Chatti | ๋‚ ์งœ: 2024 | DOI: 10.1039/d3dd00183k 📄 PDF


Essence

Figure 1

ChemGymRL ์‹œ๋ฎฌ๋ ˆ์ด์…˜: (a) ๋ฐ˜์‘(RxN), ์ถ”์ถœ(ExT), ์ฆ๋ฅ˜(DiT) ๋ฒค์น˜์—์„œ ์ž‘๋™ํ•˜๋Š” ์—์ด์ „ํŠธ; (b) ์šฉ๊ธฐ ๋‚ด ์žฌ๋ฃŒ์˜ ์ƒํƒœ ์ถ”์  ๋ฐ ๋ฒค์น˜ ๊ฐ„ ์ด๋™

๋ณธ ๋…ผ๋ฌธ์€ ์ž๋™ํ™” ํ™”ํ•™ ์‹คํ—˜์‹ค(automated chemistry lab)์„ ์œ„ํ•œ ๊ฐ•ํ™”ํ•™์Šต(reinforcement learning, RL) ์—์ด์ „ํŠธ ํ›ˆ๋ จ์„ ์œ„ํ•œ ์˜คํ”ˆ์†Œ์Šค ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ ChemGymRL์„ ์ œ์‹œํ•œ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋ฐ˜์‘, ์ถ”์ถœ, ์ฆ๋ฅ˜์˜ ์„ธ ๊ฐ€์ง€ ์ƒํ˜ธ์—ฐ๊ฒฐ๋œ ํ™”ํ•™ ๋ฒค์น˜๋ฅผ ๊ตฌํ˜„ํ•˜์—ฌ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๊ฐœ๋ฐœ๊ณผ ํ‰๊ฐ€๋ฅผ ์šฉ์ดํ•˜๊ฒŒ ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๋ฐ˜์‘ ๋ฒค์น˜(Reaction Bench): (a) ๊ด€์ฐฐ ๊ฐ€๋Šฅํ•œ UV-vis ํก์ˆ˜ ์ŠคํŽ™ํŠธ๋ผ ๋ฐ ์‹œ์Šคํ…œ ์ƒํƒœ; (b) ์—ฐ์†๊ฐ’ ์•ก์…˜ ๋ฒกํ„ฐ(์˜จ๋„, ๋ถ€ํ”ผ, ๋ฐ˜์‘๋ฌผ ํˆฌ์ž…)

  1. ํ†ตํ•ฉ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ๋ฐœ: ๋ฐ˜์‘(RxN), ์ถ”์ถœ(ExT), ์ฆ๋ฅ˜(DiT) ๋ฒค์น˜๋ฅผ ํฌํ•จํ•˜๋Š” ์ƒํ˜ธ์—ฐ๊ฒฐ๋œ ํ™”ํ•™ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์„ ๊ตฌํ˜„. ๊ฐ ๋ฒค์น˜๋Š” ๋…๋ฆฝ์ ์œผ๋กœ ์ž‘๋™ ๊ฐ€๋Šฅํ•˜๋ฉด์„œ๋„ ์šฉ๊ธฐ(vessel)๋ฅผ ํ†ตํ•ด ๊ฒฐ๊ณผ๋ฅผ ๋‹ค๋ฅธ ๋ฒค์น˜๋กœ ์ „๋‹ฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋จ.
  2. ๋†’์€ ๋ชจ๋“ˆ์„ฑ๊ณผ ํ™•์žฅ์„ฑ: ๋ฏธ๋ถ„๋ฐฉ์ •์‹ ๊ธฐ๋ฐ˜ ๋ฐ˜์‘ ๋ชจ๋ธ๋ง์—์„œ ๋ถ„์ž ๋™์—ญํ•™(molecular dynamics) ์‹œ๋ฎฌ๋ ˆ์ด์…˜์œผ๋กœ์˜ ๊ต์ฒด ๋“ฑ ๊ธฐ์ € ๋ฌผ๋ฆฌ ๋ชจ๋ธ์„ ๋ณ€๊ฒฝํ•ด๋„ ์—์ด์ „ํŠธ ์ธํ„ฐํŽ˜์ด์Šค์— ์˜ํ–ฅ์ด ์—†๋„๋ก ๊ตฌ์กฐํ™”๋จ.
  3. RL ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฒค์น˜๋งˆํ‚น: PPO(Proximal Policy Optimization)๊ฐ€ ๋ชจ๋“  ๋ฒค์น˜์—์„œ ํœด๋ฆฌ์Šคํ‹ฑ(heuristic) ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ฅผ ์ผ๊ด€๋˜๊ฒŒ ๋Šฅ๊ฐ€ํ•จ์„ ๋ณด์—ฌ์คŒ์œผ๋กœ์จ ํ•™์Šต ๊ฐ€๋Šฅ์„ฑ๊ณผ ์ตœ์ ํ™” ๊ณต๊ฐ„์˜ ์กด์žฌ๋ฅผ ์ž…์ฆ.

How

Figure 1b

์šฉ๊ธฐ ๊ตฌ์กฐ: ์žฌ๋ฃŒ ์ƒํƒœ ์ถ”์  ๋ฐ ๋ฒค์น˜ ๊ฐ„ ์ „์†ก

๋ฐ˜์‘ ๋ฒค์น˜(RxN)

์ถ”์ถœ ๋ฒค์น˜(ExT)

์ฆ๋ฅ˜ ๋ฒค์น˜(DiT)

๊ณ„์‚ฐ ํšจ์œจ์„ฑ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ChemGymRL์€ ๊ฐ•ํ™”ํ•™์Šต๊ณผ ํ™”ํ•™ ๋ฐœ๊ฒฌ์„ ์—ฐ๊ฒฐํ•˜๋Š” ์‹œ์˜์ ์ ˆํ•˜๊ณ  ๋ชจ๋“ˆ์‹์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ”Œ๋žซํผ์œผ๋กœ, ๋†’์€ ํ™•์žฅ์„ฑ๊ณผ ๊ฐœ๋ฐฉ์„ฑ์œผ๋กœ ์ธํ•ด ํ™”ํ•™-AI ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ์ค‘์š”ํ•œ ์ž์‚ฐ์ด ๋  ์ˆ˜ ์žˆ๋‹ค. ๋‹ค๋งŒ ํ˜„์žฌ์˜ ๋‹จ์ˆœํ™”๋œ ๋ฌผ๋ฆฌ ๋ชจ๋ธ๊ณผ RL ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ ๋ฌธ์ œ๋Š” ์‹ค์ œ ์‘์šฉ ์ „ ํ•ด๊ฒฐ์ด ํ•„์š”ํ•œ ์ฃผ์š” ๊ณผ์ œ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
140์—์„œ์˜ RL ๊ธฐ๋ฐ˜ ์‹คํ—˜ ์„ค๊ณ„๋Š” 211์—์„œ ์ œ์•ˆํ•˜๋Š” RL ๊ฐ•ํ™”ยท์ปค์Šคํ„ฐ๋งˆ์ด์ฆˆ ๊ฐ€๋Šฅํ•œ ๊ณผํ•™ ์‹คํ—˜ ํ”Œ๋žซํผ๊ณผ ๊ทผ๋ณธ์ ์œผ๋กœ ์—ฐ๊ฒฐ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋กœ๋ด‡ ๊ธฐ๋ฐ˜ ํ™”ํ•™ ์‹คํ—˜ ์ž๋™ํ™” ์—ฐ๊ตฌ๋กœ, ChemGymRL์˜ RL ๋ฐ ์‹คํ—˜ ํ™˜๊ฒฝ์ด ์‹ค์ œ ๋กœ๋ด‡ ์‹คํ—˜๊ณผ ์–ด๋–ป๊ฒŒ ๊ฒฐํ•ฉ๋  ์ˆ˜ ์žˆ๋Š”์ง€ ์˜ˆ์‹œ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
211์€ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ํ™”ํ•™ ์‹คํ—˜ ์ตœ์ ํ™” ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, 662์˜ ๋ฌผ๋ฆฌ์  ๋งˆ์ดํฌ๋กœํ”Œ๋ฃจ์ด๋”• ์ œ์–ด์™€ ์œ ์‚ฌ ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
CACTUS ๋˜ํ•œ ์—์ด์ „ํŠธ๊ฐ€ ๋‹ค์–‘ํ•œ ํ™”ํ•™ ์‹คํ—˜ ๋„๊ตฌ๋ฅผ ์กฐํ•ฉํ•ด ๋ฌธ์ œ๋ฅผ ํ‘ธ๋Š” ๊ฒƒ์„ ๋ชฉ์ ์— ๋‘๊ณ  ์žˆ์œผ๋ฉฐ, RL ๊ธฐ๋ฐ˜๋ณด๋‹จ ๋„๊ตฌ ์—ฐ๊ฒฐ์— ์ค‘์ ์„ ๋‘”๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ChemGymRL์€ ๋ถ„์ž๊ณ„์˜ ๋ฌผ๋ฆฌ์  ํŠน์„ฑ ์˜ˆ์ธก์„ ์œ„ํ•œ ๊ฐ•ํ™”ํ•™์Šตยท์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, 3136์˜ ๋ฌผ๋ฆฌ-์‹ ๊ฒฝ๋ง ํ˜ผํ•ฉ ์ ‘๊ทผ๋ฒ•๊ณผ๋Š” ๋Œ€์กฐ์ ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
449 ๋…ผ๋ฌธ์€ LLM๊ณผ RL์˜ ์œตํ•ฉ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์„ ๋ชจ์ƒ‰ํ•˜์—ฌ, ChemGymRL์˜ RL ์—์ด์ „ํŠธ ํ™˜๊ฒฝ ์‘์šฉ์— ์‹œ์‚ฌ์ ์„ ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ChemMiner๋Š” ์ž๋™ํ™” ํ™”ํ•™ ์‹คํ—˜๊ณผ ๋ถ„์„์„ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์œผ๋กœ, ChemGymRL์ด ์ œ๊ณตํ•˜๋Š” RL ํ™˜๊ฒฝ ๊ธฐ๋ฐ˜ ์‹คํ—˜ ๋ฒค์น˜๋ฅผ ๋ณตํ•ฉ์ ์œผ๋กœ ์ ์šฉํ•˜๋Š” ์ƒ์œ„ ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AgenticPosesRanker๋Š” ๋ฌผ๋ฆฌ์  ์‹คํ—˜ ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์‹คํ—˜ ์„ค๊ณ„ ์ž๋™ํ™”๋ฅผ ํ™•์žฅํ•ด, ChemGymRL์ด ์ถ”๊ตฌํ•˜๋Š” RL ์‹คํ—˜ํ™˜๊ฒฝ ๊ฐœ๋…์„ ์‹คํ˜„ํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋งˆ์ดํฌ๋กœ ํ”Œ๋ฃจ์ด๋”•์Šค ๋ฐ˜์‘ ์ œ์–ด์—์„œ์˜ RL ์ ์šฉ์ด ChemGymRL์˜ RL ์—์ด์ „ํŠธ์™€ ์ง์ ‘์ ์œผ๋กœ ๊ด€๋ จ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ChemGymRL ๋…ผ๋ฌธ์€ ํ™”ํ•™ ์‹คํ—˜ ์ž๋™ํ™”๋ฅผ ์œ„ํ•œ RL ํ™˜๊ฒฝ์„ ๊ตฌ์ถ•ํ•˜์—ฌ, ScholarChemQA์—์„œ ์ƒ์„ฑ๋œ QA ๋ฐ์ดํ„ฐ๋ฅผ ์‹ค์ œ ๊ณผํ•™ ์‹คํ—˜์— ์ ์šฉํ•˜๋Š” ๋ฐฉ์•ˆ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •