Large language models design sequence-defined macromolecules via evolutionary optimization

์ €์ž: Wesley F. Reinhart, Antonia Statt | ๋‚ ์งœ: 2024 | DOI: 10.1038/s41524-024-01449-6 📄 PDF


Essence

์‚ฌ์ „ํ•™์Šต๋œ ๋Œ€๊ทœ๋ชจ์–ธ์–ด๋ชจ๋ธ(LLM)์ธ Claude 3.5 Sonnet์„ ์ง„ํ™” ์ตœ์ ํ™”(evolutionary optimization) ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ํ™œ์šฉํ•˜์—ฌ ๊ฑฐ๋Œ€ ๋ถ„์ž์˜ ์ž๊ธฐ์กฐ๋ฆฝ ๊ตฌ์กฐ๋ฅผ ์„ค๊ณ„ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•œ ์—ฐ๊ตฌ๋กœ, ์ „ํ†ต์ ์ธ ๋Šฅ๋™ํ•™์Šต(active learning)๊ณผ ์ง„ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค.

Motivation

Achievement

Figure 1

Fig. 1: LLM ๊ธฐ๋ฐ˜ ์ง„ํ™” ์ตœ์ ํ™”์˜ ๊ฐœ๋…๋„. (a) ๋‹จ๋Ÿ‰์ฒด ์„œ์—ดโ†’MD ์‹œ๋ฎฌ๋ ˆ์ด์…˜โ†’2D ์ˆœ์„œ ๋งค๊ฐœ๋ณ€์ˆ˜ Z ์ถ”์ถœ ํŒŒ์ดํ”„๋ผ์ธ, (d) LLM ์—์ด์ „ํŠธ๊ฐ€ ์„œ์—ด์„ ์ œ์•ˆํ•˜๋ฉด RNN ๋ชจ๋ธ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ˜๋ณต ๋ฃจํ”„

Figure 2

Fig. 2: ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์„ฑ๋Šฅ ๋น„๊ต. (b) ์ตœ๊ณ  3๊ฐœ ํ›„๋ณด์˜ ํ‰๊ท  ๊ฑฐ๋ฆฌ, (c) ์—ญ์น˜๊ฐ’ ์ดํ•˜์˜ ์„œ์—ด ๊ฐœ์ˆ˜, (d) 6๊ฐ€์ง€ ๋ชฉํ‘œ ํ˜•ํƒœ์— ๋Œ€ํ•œ ์ข…ํ•ฉ ์„ฑ๊ณผ (์”จ์•— ์—†์Œ/์žˆ์Œ)

  1. LLM์˜ ์šฐ์ˆ˜ํ•œ ์ˆ˜๋ ด์„ฑ: LLM ๊ธฐ๋ฐ˜ ์ตœ์ ํ™”๊ธฐ๋Š” ํ™œ๋™์  ํ•™์Šต๊ณผ ์ง„ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜๋ณด๋‹ค ๋น ๋ฅด๊ฒŒ ๋ชฉํ‘œ ์˜์—ญ์— ์ˆ˜๋ ดํ•˜๋ฉฐ, ํƒ์ƒ‰(exploration)๊ณผ ์ฐฉ์ทจ(exploitation) ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ํšจ๊ณผ์ ์œผ๋กœ ์œ ์ง€ํ–ˆ๋‹ค. ์ดˆ๊ธฐ 5ํšŒ ๋ฐ˜๋ณต์—์„œ ์˜ฌ๋ฐ”๋ฅธ ์˜์—ญ์„ ์ฐพ๊ณ , ๋งˆ์ง€๋ง‰ 5ํšŒ์—์„œ ๋‹ค์–‘ํ•œ ์šฐ์ˆ˜ ํ•ด๋ฅผ ๋ฐœ๊ฒฌํ–ˆ๋‹ค.
  2. ์ผ๊ด€๋œ ์šฐ์ˆ˜ ์„ฑ๋Šฅ: 12๊ฐœ ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค(6๊ฐ€์ง€ ๋ชฉํ‘œ ํ˜•ํƒœ ร— ์”จ์•— ์žˆ์Œ/์—†์Œ) ์ค‘ 11๊ฐœ์—์„œ LLM ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์ด ์ตœ๊ณ  ํ‰๊ท  ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ๋‹ค. ์”จ์•— ์ง€์› ์‹œ ์ค‘์•™๊ฐ’ ์„ฑ๋Šฅ์ด ํŠนํžˆ ํ–ฅ์ƒ๋˜์—ˆ์œผ๋ฉฐ, ๋ชจ๋“  ํ˜•ํƒœ์—์„œ ์ค‘์•™๊ฐ’ k=0์ธ ๊ฒฝ์šฐ๊ฐ€ ์‚ฌ๋ผ์กŒ๋‹ค.
  3. ๋ฌธ๋งฅ ๋ฌด์‹œ ์ƒํ™ฉ์—์„œ์˜ ์ž๋™ ์ถ”๋ก : ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜์ง€ ์•Š์€ "oracle" ํ”„๋กฌํ”„ํŠธ์—์„œ๋„ LLM์€ ๋‹จ๋ฐฑ์งˆ ํด๋”ฉ ๋ฌธ์ œ๋กœ ์ž๋™ ์ถ”๋ก ํ•˜๋ฉด์„œ ํšจ๊ณผ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ–ˆ๋‹ค. ์ด๋Š” LLM์ด ์•”๋ฌต์  ๋„๋ฉ”์ธ ์ง€์‹์„ ํ™œ์šฉํ•˜๊ณ  ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค.

How

Figure 1 ์ƒ์„ธ

Fig. 1e-g: ๋Œ€ํ‘œ์  LLM ์ตœ์ ํ™” ๊ณผ์ •. (e) ๋ฐ˜๋ณต๋ณ„ ๊ฑฐ๋ฆฌ ๋ณ€ํ™”, (f-g) ์ž ์žฌ ๊ณต๊ฐ„(latent space Z)์—์„œ์˜ ์ˆ˜์—ด ์œ„์น˜ ๋ณ€ํ™” ์ถ”์ด

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ์–ธ์–ด๋ชจ๋ธ์˜ emergent behavior๋ฅผ ์žฌ๋ฃŒ ๊ณผํ•™์˜ ์‹ค์ œ ๋ฌธ์ œ์— ์ฐฝ์˜์ ์œผ๋กœ ์ ์šฉํ•˜์—ฌ ๊ธฐ์กด ์ตœ์ ํ™” ๋ฐฉ๋ฒ•์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€๋‹ค. ๋‹ค๋งŒ RNN ๊ทผ์‚ฌ๊ฐ’ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์™€ ์‹ค์ œ MD ๊ฒ€์ฆ ๋ถ€์žฌ, ๊ทธ๋ฆฌ๊ณ  LLM์˜ ์ž‘๋™ ์›๋ฆฌ์— ๋Œ€ํ•œ ์ด๋ก ์  ์ดํ•ด ๋ถ€์กฑ์ด ํ•œ๊ณ„๋กœ ์ง€์ ๋˜๋ฉฐ, ํ–ฅํ›„ ์ด๋Ÿฌํ•œ ์ ๋“ค์ด ๋ณด์™„๋˜๋ฉด ๋”์šฑ ๊ฐ•๋ ฅํ•œ ๊ธฐ์—ฌ๊ฐ€ ๋  ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ํŒ๋‹จ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ฑฐ๋Œ€์–ธ์–ด๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ์ง„ํ™” ์ตœ์ ํ™”์˜ ์ด๋ก ์  ๋ฐฐ๊ฒฝ ๋ฐ ๋‹ค์–‘ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์  ๊ตฌํ˜„ ์‚ฌ๋ก€๋ฅผ ์‹ฌ์ธต ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ์ง„ํ™” ์ตœ์ ํ™”์˜ ์›๋ฆฌ์™€ ๊ธฐ์กด ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋Œ€๋น„ ์ด์  ๋ถ„์„์ด Claude 3.5 Sonnet์˜ ์ž๊ธฐ์กฐ๋ฆฝ ๊ตฌ์กฐ ์„ค๊ณ„๋ฒ•์˜ ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋กฑ์ปจํ…์ŠคํŠธ LLM ํ™œ์šฉ๋ฒ•๊ณผ ์†Œ๋ถ„์ž/๊ณ ๋ถ„์ž ์„ค๊ณ„์— ํ•„์š”ํ•œ ์ •๋ณด ์ถ”์ถœยท์š”์•ฝ ์ „๋žต์˜ ๊ธฐ์ดˆ ์ด๋ก ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
343๋ฒˆ ๋…ผ๋ฌธ์€ ์žฌ๋ฃŒ๊ณผํ•™์„ ์œ„ํ•œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ์ „๋ฐ˜์˜ ๊ฐœ๋…์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋ฉฐ, 472๋ฒˆ์˜ ์‹ค์งˆ์  ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ์ด๋ก ์ ์œผ๋กœ ์ง€์ง€ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
305๋ฒˆ ๋…ผ๋ฌธ ์—ญ์‹œ LLM์„ ํ™œ์šฉํ•œ ๋ถ„์ž ๋ฐ ๊ณ ๋ถ„์ž ์ตœ์ ํ™” ๋ฌธ์ œ์— ๋Œ€ํ•œ ๋Œ€์•ˆ์  ์†”๋ฃจ์…˜์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ์‹ ์†Œ์žฌ ๋ฐ ๊ฑฐ๋Œ€๋ถ„์ž์˜ ์ƒ์„ฑยท์„ค๊ณ„ ์ž๋™ํ™” ์—ฐ๊ตฌ๋กœ, ์ง„ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๊ณผ ์„œ๋กœ ๋ณด์™„์ ์œผ๋กœ ์ฝ์„ ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
472 ๋…ผ๋ฌธ์˜ ์ง„ํ™”๊ณ„์—ด ๊ฑฐ๋Œ€๋ถ„์ž ์„ค๊ณ„ ์—ฐ๊ตฌ๋Š” ์žฌ๋ฃŒ๊ณผํ•™ ๋ถ„์•ผ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๋‹ค์–‘ํ•œ ์ ์šฉ์‚ฌ๋ก€๋ฅผ ์„œ๋ฒ ์ดํ•˜๋Š” 025 ๋…ผ๋ฌธ๊ณผ ์ƒํ˜ธ ๋ณด์™„์ ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์„ ํ™œ์šฉํ•œ ์ง„ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋ถ„์ž์„ค๊ณ„ ๋“ฑ ์†Œ์žฌ ๊ฐœ๋ฐœ์— ํšจ๊ณผ์ ์ž„์„ ์‹ค์ฆํ•˜์—ฌ, ์กฐํ•ฉ์ตœ์ ํ™” ์™ธ์˜ ์‹ค์งˆ์  ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ƒ๋ช…๊ณผํ•™ ๋„๋ฉ”์ธ์—์„œ LLM์˜ ๋ถ„์ž ์„ค๊ณ„ยท์˜ˆ์ธก ์—ญ๋Ÿ‰์„ ์ „๋ฐฉ์œ„์ ์œผ๋กœ ๋‹ค๋ฃจ๋ฉฐ, 472์˜ ๊ฑฐ๋Œ€๋ถ„์ž ์„ค๊ณ„ ์‘์šฉ์„ ๋„“ํžŒ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •