Automating exploratory proteomics research via language models

์ €์ž: Ning Ding, Shang Qu, Linhai Xie ์™ธ | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

Figure 1

PROTEUS์˜ ๋ฐ˜๋ณต์  ๊ฐœ์„  ํ”„๋ ˆ์ž„์›Œํฌ(a)์™€ ์ƒ์„ธํ•œ ์ž‘์—… ํ”„๋กœ์„ธ์Šค(b). ๋ฐ์ดํ„ฐ ์„ค๋ช…, ์—ฐ๊ตฌ ๋ชฉํ‘œ ๊ณ„ํš, ์›Œํฌํ”Œ๋กœ์šฐ ๊ณ„ํš, ๋„๊ตฌ ์‹คํ–‰, ๊ฒฐ๊ณผ ํ•ด์„์˜ ์ˆœํ™˜ ๊ตฌ์กฐ

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์„ ํ™œ์šฉํ•˜์—ฌ ์›๋ณธ ๋‹จ๋ฐฑ์งˆ์ฒดํ•™(proteomics) ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ž๋™์œผ๋กœ ๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ์ˆ˜ํ–‰ํ•˜๋Š” PROTEUS ์‹œ์Šคํ…œ์„ ์ œ์‹œํ•œ๋‹ค. ์ธ๊ฐ„์˜ ๊ฐœ์ž… ์—†์ด ๊ณ„์ธต์  ๊ณ„ํš ์ˆ˜๋ฆฝ, ์ƒ๋ฌผ์ •๋ณดํ•™ ๋„๊ตฌ ์‹คํ–‰, ๋ฐ˜๋ณต์  ๋ถ„์„ ์›Œํฌํ”Œ๋กœ์šฐ ์ •์ œ๋ฅผ ํ†ตํ•ด ๊ณ ํ’ˆ์งˆ์˜ ์ƒ๋ฌผํ•™์  ๊ฐ€์„ค์„ ์ƒ์„ฑํ•œ๋‹ค.

Motivation

Achievement

Figure 2

์ „์ฒด 191๊ฐœ ๊ฐ€์„ค์— ๋Œ€ํ•œ 5๊ฐœ ์ง€ํ‘œ๋ณ„ ํ‰๊ท  ์ ์ˆ˜ ๋ฐ ๋ถ„ํฌ

  1. ํฌ๊ด„์  ์ž๋™ํ™” ๋‹ฌ์„ฑ: 12๊ฐœ์˜ ๋‹ค์–‘ํ•œ ๋‹จ๋ฐฑ์งˆ์ฒดํ•™ ๋ฐ์ดํ„ฐ์…‹(๋ฉด์—ญ์„ธํฌ, ์ข…์–‘, ๋‹จ์ผ์„ธํฌ/๋Œ€๋Ÿ‰ ์ƒ˜ํ”Œ)์—์„œ 191๊ฐœ์˜ ๊ณผํ•™์  ๊ฐ€์„ค์„ ์ž๋™ ์ƒ์„ฑํ•˜์˜€์œผ๋ฉฐ, ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ๊ฐœ์ž… ์—†์ด ์™„์ „ํ•œ end-to-end ๋ถ„์„ ์ˆ˜ํ–‰์ด ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆํ–ˆ๋‹ค.
  2. ๋†’์€ ํ‰๊ฐ€ ์ ์ˆ˜ ํ™•๋ณด: LLM ๊ธฐ๋ฐ˜ ์ž๋™ ํ‰๊ฐ€(5๊ฐœ ์ง€ํ‘œ)์™€ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ํ‰๊ฐ€ ๋ชจ๋‘์—์„œ ์ผ๊ด€๋˜๊ฒŒ ๋†’์€ ์ ์ˆ˜๋ฅผ ํš๋“ํ–ˆ์œผ๋ฉฐ, ์ƒ์„ฑ๋œ ๊ฐ€์„ค๋“ค์ด ๊ธฐ์กด ๋ฌธํ—Œ๊ณผ ์ž˜ ๋ถ€ํ•ฉํ•˜๋ฉด์„œ๋„ ์ƒˆ๋กœ์šด ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๊ฐ€์„ค์„ ์ œ์‹œํ•จ์„ ํ™•์ธํ–ˆ๋‹ค.
Figure 3

SPDB ๋ฐ์ดํ„ฐ์…‹ 10๊ฐœ์— ๋Œ€ํ•œ 5๊ฐœ ์ง€ํ‘œ๋ณ„ ์ ์ˆ˜ ๋ถ„ํฌ

How

Figure 4

2๊ฐœ ์ž„์ƒ ์ฝ”ํ˜ธํŠธ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ 5๊ฐœ ์ง€ํ‘œ๋ณ„ ์ ์ˆ˜ ๋ถ„ํฌ

Originality

Limitation & Further Study

Figure 5

PROTEUS์˜ ๋ฐฑ๋ณธ์œผ๋กœ ์ž์ฒด ๋ชจ๋ธ๊ณผ GPT-4o ์‚ฌ์šฉ ๊ฒฐ๊ณผ ๋น„๊ต

Evaluation

์ดํ‰: PROTEUS๋Š” LLM์„ ํ™œ์šฉํ•œ ๋‹จ๋ฐฑ์งˆ์ฒดํ•™ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐ ๊ฐ€์„ค ์ƒ์„ฑ์˜ ์™„์ „ ์ž๋™ํ™”๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ๊ตฌํ˜„ํ•œ ํ˜์‹ ์  ์‹œ์Šคํ…œ์ด๋ฉฐ, ํฌ๊ด„์  ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ์‹ ๋ขฐ์„ฑ๊ณผ ์ฐธ์‹ ์„ฑ์„ ์ž…์ฆํ–ˆ๋‹ค. ๋‹ค๋งŒ ์ƒ์„ฑ๋œ ๊ฐ€์„ค์˜ ์‹คํ—˜์  ๊ฒ€์ฆ, ๋” ๋‹ค์–‘ํ•œ ์ƒ๋ฌผํ•™์  ์˜์—ญ์œผ๋กœ์˜ ํ™•์žฅ, ๊ทธ๋ฆฌ๊ณ  ๊ธฐ์ˆ ์  ์„ธ๋ถ€์‚ฌํ•ญ์˜ ํˆฌ๋ช…์„ฑ ๊ฐœ์„ ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์  ๋„๊ตฌ ํ™œ์šฉ ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ ๊ด€๋ จ ์•„์ด๋””์–ด ๋ฐ ์›Œํฌํ”Œ๋กœ์šฐ๊ฐ€ PROTEUS์˜ ์ž๋™ ๋‹จ๋ฐฑ์งˆ์ฒดํ•™ ๋ถ„์„์— ๊ตฌ์กฐ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ ์ž์œจ ์—์ด์ „ํŠธ์˜ ๊ธฐ๋ฐ˜ ๊ฐœ๋…์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
704์˜ SciAgentGym์€ ๊ณผํ•™ ์ž‘์—…์—์„œ LLM ๊ธฐ๋ฐ˜ ํˆด ์‚ฌ์šฉ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, 131์˜ PROTEUS ์›Œํฌํ”Œ๋กœ์šฐ ์„ฑ๋Šฅ ํ‰๊ฐ€์— ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ํ˜•์„ฑํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
131๋ฒˆ ๋…ผ๋ฌธ์€ ํ”„๋กœํ…Œ์˜ค๋ฏน์Šค ์‹คํ—˜์˜ ์ž๋™ํ™” LLM ์—์ด์ „ํŠธ ์ ์šฉ์„ ๋‹ค๋ค„, 556๋ฒˆ MolQuest์˜ ์—ญ๋™์  ์‹คํ—˜ ํ™˜๊ฒฝ์—์„œ ์—์ด์ „ํŠธ ์„ฑ๋Šฅ ์ธก์ •์˜ ๊ธฐ์ดˆ์  ๊ตฌํ˜„ ์‚ฌ๋ก€๋กœ ์—ฐ๊ณ„๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Automating exploratory proteomics research via language models ๋…ผ๋ฌธ์€ ํ…์ŠคํŠธ ๋ถ„์„ ๋Œ€์‹  ์‹ค์ œ ์ƒ๋ช…๊ณผํ•™ ์—ฐ๊ตฌ ๋ฐ์ดํ„ฐ(ํ”„๋กœํ…Œ์˜ค๋ฏน์Šค)์— ๋„คํŠธ์›Œํฌ-๊ธฐ๋ฐ˜ ํ† ํ”ฝ๋ชจ๋ธ๋ง์„ ์ ์šฉํ•œ ์‹ค์šฉ์  ์‚ฌ๋ก€๋กœ, 929์˜ ๋ชจ๋ธ ์ ์šฉ ๋ฐฉ์•ˆ์˜ ์ฐจ๋ณ„์  ์‹œ๋„๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ๋ฌผ์ •๋ณดํ•™ ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์ž๋™ํ™”ํ•˜๋Š” LLM ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์˜ ์œ ์‚ฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ๋ฐฑ์งˆ์ฒดํ•™ ๋˜๋Š” ์ƒ๋ฌผ์ •๋ณดํ•™ ๋ถ„์„ ์ž๋™ํ™”์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ๋ฌผ์ •๋ณดํ•™ ์˜์—ญ์—์„œ AI ์—์ด์ „ํŠธ๋ฅผ ํ™œ์šฉํ•œ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ์ž๋™ํ™”์˜ ๋˜ ๋‹ค๋ฅธ ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ๋ฌผํ•™์  ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ž๋™ํ™”์— LLM์„ ํ™œ์šฉํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™์  ๋ฐœ๊ฒฌ ์ž๋™ํ™”๋ฅผ ์œ„ํ•œ LLM ์—์ด์ „ํŠธ์˜ ๊ด€๋ จ ์—ฐ๊ตฌ๋กœ ์œ ์‚ฌํ•œ ๋ชฉํ‘œ๋ฅผ ๊ณต์œ ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ๋ช…๊ณผํ•™ ๋ถ„์•ผ์˜ ์‹คํ—˜์  ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ž๋™ํ™”์— LLM ์„ ํ™œ์šฉํ•œ ๋˜๋‹ค๋ฅธ ์ ‘๋ชฉ ์‚ฌ๋ก€๋กœ, ํ–‰๋™์‹ ๊ฒฝ๊ณผํ•™ ์™ธ ๋ฐ”์ด์˜ค ๋ถ„์•ผ๋กœ ํ™•์žฅ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ๋ฐฑ์งˆ ๋Œ€์‚ฌ์ฒด ๋“ฑ ์ƒ๋ช…๊ณผํ•™ ์‹คํ—˜์—์„œ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ LLM ๊ธฐ๋ฐ˜ ์ž๋™ํ™” ์—ฐ๊ตฌ๊ฐ€ ์–ด๋–ป๊ฒŒ ์ด๋ฃจ์–ด์ง€๋Š”์ง€ ๋Œ€์•ˆ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
131 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ํ”„๋กœํ…Œ์˜ค๋ฏน์Šค ์—ฐ๊ตฌ ์ž๋™ํ™”๋ฅผ ๋‹ค๋ฃจ์–ด, 3043๊ณผ ๊ฐ™์ด ๋„๊ตฌ ๋ฐ ํ…์ŠคํŠธ์—์„œ ๋ฐ์ดํ„ฐ ์ถ”์ถœ ๋ฐฉ๋ฒ•์„ ๋น„๊ตํ•  ๋งŒํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ๋‹จ๋ฐฑ์งˆ ์„ค๊ณ„ ๋ฐ ํ‘œ์  ๊ธฐ๋Šฅ ํƒ์ƒ‰ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, PROTEUS์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ยท์ƒ๋ฌผ์ •๋ณด ๋„๊ตฌ ์ ์šฉ์„ ๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ ์‘์šฉ์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์–ธ์–ด๋ชจ๋ธ์„ ํ™œ์šฉํ•ด ํ”„๋กœํ…Œ์˜ค๋ฏน์Šค ์—ฐ๊ตฌ์— ์ ์šฉํ•˜์—ฌ, ๊ฐœ์ธํ™” ์˜๋ฃŒ์ ‘์ˆ˜์—์„œ ๋‹ค์ค‘๋„๋ฉ”์ธ ์—ฐ๊ตฌ ์ž๋™ํ™”๋กœ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
131์€ LLM์„ ํ™œ์šฉํ•ด ์‹คํ—˜์  ๋‹จ๋ฐฑ์งˆ์ฒด ์—ฐ๊ตฌ๋ฅผ ์ž๋™ํ™”ํ•˜๋ฉฐ, 118์˜ ๋กœ๋ด‡ ์กฐ์ž‘ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์‹ค์ œ ๊ณผํ•™ ์›Œํฌํ”Œ๋กœ์šฐ์— ์ ์šฉ๋œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
238์˜ citation generation tool์€ 131์˜ ๋Œ€๊ทœ๋ชจ ๋ฐœ๊ฒฌ ํŒŒ์ดํ”„๋ผ์ธ์—์„œ ์ž๋™ ๋ฌธํ—Œ๊ท€์† ๋ฐ ์ธ์šฉ ์ƒ์„ฑ๊ณผ ์ง์ ‘์ ์œผ๋กœ ์—ฐ๊ณ„ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Automating exploratory proteomics research via language models ๋…ผ๋ฌธ์€ SciKnowEval๊ฐ™์€ ๋ฒค์น˜๋งˆํฌ ์ƒ์—์„œ LLM ๋ชจ๋ธ์˜ ์‹ค์ œ ์ƒ๋ช…๊ณผํ•™/๋‹จ๋ฐฑ์งˆ ์˜์—ญ ์ง€์› ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLM์„ ํ™œ์šฉํ•œ ์•„์ด๋””์–ด ๋ฐœ๊ตด ๋ฐ ํƒํ—˜์  ์—ฐ๊ตฌ ์ž๋™ํ™”์˜ ์‹ค์ œ ์ ์šฉ ์˜ˆ์‹œ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •