AutoProteinEngine: A Large Language Model Driven Agent Framework for Multimodal AutoML in Protein Engineering

์ €์ž: Yungeng Liu, Zan Chen, Yu Guang Wang, Yiqing Shen | ๋‚ ์งœ: 2024 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

๋‹จ๋ฐฑ์งˆ ๊ณตํ•™ ๋ถ„์•ผ์— ํŠนํ™”๋œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜ ์ž๋™ํ™” ๋จธ์‹ ๋Ÿฌ๋‹(AutoML) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ, ๋”ฅ๋Ÿฌ๋‹ ์ „๋ฌธ ์ง€์‹์ด ์—†๋Š” ์ƒ๋ฌผํ•™์ž๋“ค๋„ ์ž์—ฐ์–ธ์–ด๋กœ ๋‹จ๋ฐฑ์งˆ ์—”์ง€๋‹ˆ์–ด๋ง ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ ํ˜์‹ ์  ์‹œ์Šคํ…œ์ด๋‹ค.

Motivation

Achievement

Figure 1: AutoProteinEngine ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š”

Figure 1: ์ž์—ฐ์–ธ์–ด ์ž‘์—… ๋ช…์„ธ๋ถ€ํ„ฐ AutoML ์‹คํ–‰, ์ž๋™ ๋ฐ์ดํ„ฐ ๊ฒ€์ƒ‰๊นŒ์ง€์˜ ์—”๋“œ-ํˆฌ-์—”๋“œ ์›Œํฌํ”Œ๋กœ์šฐ

  1. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AutoML ํ”„๋ ˆ์ž„์›Œํฌ: ๋‹จ๋ฐฑ์งˆ ์‹œํ€€์Šค(ESM ์‹œ๋ฆฌ์ฆˆ)์™€ ๊ตฌ์กฐ ๊ทธ๋ž˜ํ”„ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋‘ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅํ•œ ์ตœ์ดˆ์˜ ์ „๋ฌธํ™”๋œ AutoML ์‹œ์Šคํ…œ์œผ๋กœ, ๋ ˆ์ดํŠธ ํ“จ์ „(late fusion) ์ „๋žต์œผ๋กœ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ํ†ตํ•ฉ
  2. ์ž๋™ํ™”๋œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ตœ์ ํ™”: Tree-structured Parzen Estimator(TPE)์™€ Asynchronous Successive Halving Algorithm(ASHA)์„ ๊ฒฐํ•ฉํ•˜์—ฌ ํšจ์œจ์  ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํƒ์ƒ‰ ๋ฐ ๋™์  ๋ฆฌ์†Œ์Šค ํ• ๋‹น ๋‹ฌ์„ฑ
  3. ์ž๋™ ๋ฐ์ดํ„ฐ ๊ฒ€์ƒ‰ ๋ชจ๋“ˆ: ์ž์—ฐ์–ธ์–ด ์ž…๋ ฅ์„ PDB, UniProt ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ์ฟผ๋ฆฌ๋กœ ์ž๋™ ๋ณ€ํ™˜ํ•˜์—ฌ ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ ํš๋“ ๋ฐ ์ƒํ˜ธ์ž‘์šฉ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ์™„์„ฑ๋„ ๋ณด์ฆ
  4. ์‹ค๋ฌด ๊ฒ€์ฆ: Brazzein(๋ถ„๋ฅ˜), Arylsulfatase A(ํšŒ๊ท€) ๋‘ ๋‹จ๋ฐฑ์งˆ ์—”์ง€๋‹ˆ์–ด๋ง ์ž‘์—…์—์„œ ์˜์  ์ƒท(zero-shot) ๋ฐ ์ˆ˜๋™ ๋ฏธ์„ธ์กฐ์ •(manual fine-tuning) ๋Œ€๋น„ ํ˜„์ €ํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ ์ž…์ฆ

How

Figure 2: ๋Œ€ํ™”ํ˜• ์ธํ„ฐํŽ˜์ด์Šค ์ž‘์—… ํ๋ฆ„

Figure 2: AutoPE ๋Œ€ํ™”ํ˜• ์ธํ„ฐํŽ˜์ด์Šค์™€ ๊ธฐ์กด ์ฝ”๋“œ ๊ธฐ๋ฐ˜ ๋”ฅ๋Ÿฌ๋‹ ์›Œํฌํ”Œ๋กœ์šฐ ๋น„๊ต

LLM ๊ธฐ๋ฐ˜ AutoML ๋ชจ๋“ˆ

์ž๋™ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ตœ์ ํ™”

์ž๋™ ๋ฐ์ดํ„ฐ ๊ฒ€์ƒ‰

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4.5/5 Overall: 4.2/5

์ดํ‰: AutoProteinEngine์€ LLM ๊ธฐ๋ฐ˜ ์ž๋™ํ™”๋ฅผ ํ†ตํ•ด ๋‹จ๋ฐฑ์งˆ ๊ณตํ•™์—์„œ ๊ณ„์‚ฐ ์ „๋ฌธ์„ฑ์˜ ์ง„์ž…์žฅ๋ฒฝ์„ ํš๊ธฐ์ ์œผ๋กœ ๋‚ฎ์ถ˜ ํ˜์‹ ์  ์‹œ์Šคํ…œ์ด๋‹ค. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์™€ ์ž๋™ํ™”๋œ HPO๋Š” ๊ฐ•์ ์ด๋‚˜, ํ•œ์ •๋œ ์‹คํ—˜ ๊ฒ€์ฆ๊ณผ LLM ์‹ ๋ขฐ์„ฑ ์ด์Šˆ๊ฐ€ ํ˜„์žฅ ๋„์ž…์˜ ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ๋‹ค. ๋” ๊ด‘๋ฒ”์œ„ํ•œ ๋‹จ๋ฐฑ์งˆ ์—”์ง€๋‹ˆ์–ด๋ง ์ž‘์—…์— ๋Œ€ํ•œ ๊ฒ€์ฆ๊ณผ ์‹คํ—˜์‹ค ํ˜‘์—… ์‚ฌ๋ก€๊ฐ€ ์ถ”๊ฐ€๋˜๋ฉด ํ•™๋ฌธ์ ยท์‚ฐ์—…์  ์˜ํ–ฅ๋ ฅ์ด ๋Œ€ํญ ์ƒ์Šนํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Leveraging biomolecule and natural language through multi-modal models ๋…ผ๋ฌธ์€ ๋‹จ๋ฐฑ์งˆ ์–ธ์–ด๋ชจ๋ธ ์„ค๊ณ„์™€ ์ƒ๋ฌผํ•™ ์ž‘์—…์˜ ์—ฐ๊ณ„๋ฅผ ์ค‘์ ์ ์œผ๋กœ ์„ค๋ช…ํ•˜์—ฌ AutoProteinEngine์˜ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Scientific Large Language Models ๋…ผ๋ฌธ์€ ์ƒ๋ฌผํ•™ ๋ฐ ํ™”ํ•™ ๋ถ„์•ผ๋ฅผ ํฌํ•จํ•œ ๊ณผํ•™ LLM์˜ ๋™ํ–ฅ์„ ์ •๋ฆฌํ•˜์—ฌ AutoProteinEngine์˜ ๋ฐฐ๊ฒฝ ์ด๋ก ์— ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
144๋ฒˆ ๋…ผ๋ฌธ์€ ๋‹จ๋ฐฑ์งˆ ๋ฐ”์ธ๋”ฉ ๋ถ€์œ„ ์˜ˆ์ธก์„ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฏ€๋กœ, 3104์—์„œ ํ™•์žฅ๋œ fitness benchmark ์„ค๊ณ„์˜ ๋ฐฐ๊ฒฝ์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
144๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฏ€๋กœ, 3090์—์„œ method-agnostic ๋ฐฉ์‹ ํ†ตํ•ฉ ๋ฐ ํ‘œ์ค€ํ™” ๋ชฉ์ ์— ๊ธฐ์ดˆ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AutoProteinEngine(144)์€ LLM ๊ธฐ๋ฐ˜ ๋‹จ๋ฐฑ์งˆ ์—”์ง€๋‹ˆ์–ด๋ง ์›Œํฌํ”Œ๋กœ์šฐ ์„ค๊ณ„์˜ ๊ธฐ์ˆ ์  ํ† ๋Œ€๋ฅผ ๋งˆ๋ จํ•ด ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
144๋Š” LLM์„ ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„ ๋“ฑ ์ƒ๋ช…๊ณผํ•™ ๊ณต์ • ์ž๋™ํ™”์— ์ ์šฉํ•œ ๋ฐ˜๋ฉด, 239๋Š” CRISPR ์‹คํ—˜ ์„ค๊ณ„์— ํŠนํ™”๋˜์–ด ์žˆ์œผ๋‚˜, ์ ‘๊ทผ์€ ์œ ์‚ฌํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ๋ฌผํ•™ ๋„๋ฉ”์ธ์—์„œ์˜ LLM ์—์ด์ „ํŠธ ์ž๋™ํ™”์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ๋ฌผ์ •๋ณดํ•™ ๋ถ„์•ผ AI ์ž๋™ํ™”๋ฅผ ์œ„ํ•œ LLM ์—์ด์ „ํŠธ์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AutoML๊ณผ ๋„๋ฉ”์ธ ํŠนํ™” ๊ณผํ•™ ์ž‘์—… ์ž๋™ํ™”์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
GeneAgent๋Š” ์œ ์ „์ž ์„ธํŠธ ๋ถ„์„์„ ์œ„ํ•œ ์…€ํ”„-๊ฒ€์ฆ ์—์ด์ „ํŠธ๋กœ, ๋‹จ๋ฐฑ์งˆ/์ƒ๋ฌผํ•™์  ์‹œํ€€์Šค ๋ถ„์•ผ์—์„œ AutoProteinEngine๊ณผ ๋‹ค๋ฅธ ์ ‘๊ทผ์œผ๋กœ ์ž๋™ํ™”๋œ ๊ณผํ•™ ์‹คํ—˜์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
BioAgents ๋…ผ๋ฌธ์€ ๋‹ค์ค‘ ์—์ด์ „ํŠธ LLM์œผ๋กœ ์ƒ๋ช…์ •๋ณด ๋ถ„์„์„ ๋ฏผ์ฃผํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ AutoProteinEngine๊ณผ ๋™์ผํ•œ ๋„๋ฉ”์ธ์—์„œ ๋Œ€์ฒด์  ์ ‘๊ทผ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Agentic End-to-End De Novo Protein Design ๋…ผ๋ฌธ์€ ๋‹จ๋ฐฑ์งˆ ๋””์ž์ธ ์ž๋™ํ™”์— ์ดˆ์ ์„ ๋งž์ถ”์–ด, AutoProteinEngine์˜ LLM ๊ธฐ๋ฐ˜ ์ž๋™ํ™” ์ ‘๊ทผ๊ณผ ๋น„๊ต์  ๊ด€์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AutoProteinEngine ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋‹จ๋ฐฑ์งˆ/์œ ์ „์ฒด ์„ค๊ณ„ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ATGC-Gen๊ณผ ์œ ์‚ฌํ•œ ๊ตฌ์กฐ์  ์ƒ์„ฑ ์ž‘์—…์˜ ๋˜ ๋‹ค๋ฅธ ๊ตฌํ˜„ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ๋ฐฑ์งˆ ์—”์ง€๋‹ˆ์–ด๋ง์„ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ agent ์„ค๊ณ„ ๋ฐ ์‹คํ–‰ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹คํ—˜ ์ž๋™ํ™”์˜ ์ƒ๋ฌผํ•™์  ์‚ฌ๋ก€์ž„.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ๋ฐฑ์งˆ ์–ธ์–ด ๋ชจ๋ธ์˜ ๋‚ด๋ถ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ถ„์„์— ๋Œ€ํ•œ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
144๋Š” LLM ๊ธฐ๋ฐ˜ ๋‹จ๋ฐฑ์งˆ ์—”์ง€๋‹ˆ์–ด๋ง ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, 3133์˜ sampling/engineering trade-off ๊ฒฐ๊ณผ๋ฅผ ์‹คํ—˜์  ๊ด€์ ์—์„œ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
144๋Š” LLM ๊ธฐ๋ฐ˜์˜ ๋‹จ๋ฐฑ์งˆ ์—”์ง€๋‹ˆ์–ด๋ง ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, 3150์˜ ํ•ญ์ฒด ์„ค๊ณ„ ์ž๋™ํ™”์™€ ๋„๊ตฌ/์ž์œจ์„ฑ ๋น„๊ต์— ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘˜ ๋‹ค ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„ ์ž๋™ํ™” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜์ง€๋งŒ, MOGP-MMF๋Š” ์œ ์ „ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๊ธฐ๋ฐ˜ ๋‹ค์ค‘ ๋ชฉ์ ์œผ๋กœ, AutoProteinEngine์€ LLM์„ ํ™œ์šฉํ•œ ์ ‘๊ทผ์ด๋ผ ๋ฐฉ๋ฒ•๋ก ์ด ์ƒ์ดํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
144 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋‹จ๋ฐฑ์งˆ/๋ฆฌ๊ฐ„๋“œ ์„ค๊ณ„ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‹œ์Šคํ…œ์ ์œผ๋กœ ๋‹ค๋ฃฌ๋‹ค๋Š” ์ ์—์„œ, 3044์˜ ์›Œํฌํ”Œ๋กœ ๊ธฐ๋ฐ˜ ํ†ตํ•ฉ ์ ‘๊ทผ๊ณผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
REINVENT ์™ธ์—๋„ LLM ๊ธฐ๋ฐ˜ ๋‹จ๋ฐฑ์งˆ/๋ถ„์ž ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™œ์šฉํ•œ ๋‹ค์–‘ํ•œ fine-tuning ์‚ฌ๋ก€์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ…์ŠคํŠธ์™€ ๊ทธ๋ž˜ํ”„ ๋„คํŠธ์›Œํฌ๋ฅผ ๊ฒฐํ•ฉํ•˜์—ฌ ์ƒ๋ฌผํ•™์  ์ƒํ˜ธ์ž‘์šฉ์„ ์˜ˆ์ธกํ•˜๋Š” ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์ด๋‹ค
ํ›„์† ์—ฐ๊ตฌ
ProtAgents ์—ญ์‹œ ๋‹ค์ค‘์—์ด์ „ํŠธ LLM ๊ธฐ๋ฐ˜์˜ ๋‹จ๋ฐฑ์งˆ ํƒ์ƒ‰ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๋‹จ๋ฐฑ์งˆ ์—”์ง€๋‹ˆ์–ด๋ง ๋ถ„์•ผ์— ๋Œ€ํ•œ ํ™•๋Œ€์  ๊ด€์ ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„ ๋ฐ ํ‘œ์  ๊ธฐ๋Šฅ ํƒ์ƒ‰ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, PROTEUS์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ยท์ƒ๋ฌผ์ •๋ณด ๋„๊ตฌ ์ ์šฉ์„ ๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ ์‘์šฉ์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„ ์ž๋™ํ™” ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, 19-์•„๋ฏธ๋…ธ์‚ฐ ์„ค๊ณ„ ์‚ฌ๋ก€๋ฅผ ํ™•์žฅ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ํ๋ฆ„์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AutoProteinEngine์€ ์ƒ๋ช…๊ณผํ•™ ๋ถ„์•ผ์˜ ์‹œํ€€์Šค ๊ธฐ๋ฐ˜ ์—”์ง€๋‹ˆ์–ด๋ง์— ์ง‘์ค‘ํ•˜์—ฌ, CASSIA์˜ ํ•ด์„๊ฐ€๋Šฅ ์„ธํฌ์ฃผ์„ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์‹ค์ œ ๋ถ„์•ผ๋ณ„ ์ „์ด ๊ฐ€๋Šฅ์„ฑ์„ ์กฐ๋ช…ํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •