scAgent: Universal Single-Cell Annotation via a LLM Agent

์ €์ž: Yuren Mao, Yu Mi, Peigen Liu, Mengfei Zhang, Hanqing Liu | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2504.04698 📄 PDF


Essence

Figure 1

scAgent์˜ ์ „์ฒด ํ”„๋ ˆ์ž„์›Œํฌ: (a) ๋‹ค์–‘ํ•œ ์‚ฌ์šฉ์ž ์ฟผ๋ฆฌ์— ๋Œ€์‘ํ•˜๋Š” ๋Šฅ๋ ฅ, (b) ๊ณ„ํš ๋ชจ๋“ˆ์˜ ๊ตฌ์กฐ, (c) ํ–‰๋™ ๊ณต๊ฐ„์˜ ๊ตฌ์„ฑ, (d) ๋ฉ”๋ชจ๋ฆฌ ๋ชจ๋“ˆ์˜ ์ •๋ณด

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๋ฅผ ํ™œ์šฉํ•œ ๋ฒ”์šฉ ๋‹จ์ผ์„ธํฌ ์ฃผ์„(cell annotation) ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ์กฐ์ง ๊ฐ„ ์ผ๋ฐ˜ํ™”, ์‹ ๊ทœ ์„ธํฌ ํƒ€์ž… ๋ฐœ๊ฒฌ, ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ ๋™์‹œ์— ๋‹ฌ์„ฑํ•œ๋‹ค. scAgent๋Š” 160๊ฐœ ์„ธํฌ ํƒ€์ž…๊ณผ 35๊ฐœ ์กฐ์ง์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค.

Motivation

Achievement

Figure 2

๊ต์ฐจ ์กฐ์ง CTA ์„ฑ๋Šฅ: (a,b) CG ๋ฐ์ดํ„ฐ์…‹๊ณผ TS ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ •ํ™•๋„, ๊ฐ€์ค‘ F1-score, ๋งคํฌ๋กœ F1-score ๋น„๊ต (c) ํ˜ผ๋™ ํ–‰๋ ฌ์„ ํ†ตํ•œ ๋‹ค์–‘ํ•œ ์„ธํฌ ํƒ€์ž… ๋ถ„๋ฅ˜ (d,e) ์กฐ์ง๋ณ„ ๊ฐ€์ค‘ F1-score ์„ฑ๋Šฅ

  1. ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ: CG ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋งคํฌ๋กœ F1-score 89.31%๋กœ ๋‘ ๋ฒˆ์งธ ์ˆœ์œ„ ๋ฐฉ๋ฒ•(scTab 10X data, 82.58%)์„ 6.73 ํฌ์ธํŠธ ์•ž์ง€๋ฅด๋ฉฐ, 10๋ฐฐ ์ ์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋กœ ๋‹ฌ์„ฑ
  2. ์šฐ์ˆ˜ํ•œ ์ผ๊ด€์„ฑ: ๋ชจ๋“  ์กฐ์ง์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ์œ ์ง€(ํ‘œ์ค€ํŽธ์ฐจ ~0.07), ํŠนํžˆ ์ž๊ถ, ํƒœ๋ฐ˜, ์œ ๋ฐฉ ๋“ฑ 8๊ฐœ ์ค‘์š” ์กฐ์ง์—์„œ 99% ์ด์ƒ์˜ ๊ฐ€์ค‘ F1-score ๋‹ฌ์„ฑ
  3. ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ: ๋™์ผํ•œ ํฌ๊ธฐ์˜ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์—์„œ scGPT ๋“ฑ ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ํ˜„์ €ํžˆ ๋†’์€ ์„ฑ๋Šฅ

How

Figure 3

์‹ ๊ทœ ์„ธํฌ ๋ฐœ๊ฒฌ ๋ฐ ๋ฐฐ์น˜ ํšจ๊ณผ ๋ณด์ • ์„ฑ๋Šฅ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: scAgent๋Š” LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ์•„ํ‚คํ…์ฒ˜์™€ MoE-LoRA ํ”Œ๋Ÿฌ๊ทธ์ธ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๋ฒ”์šฉ ์„ธํฌ ์ฃผ์„์˜ ์„ธ ๊ฐ€์ง€ ๊ณผ์ œ(์ผ๋ฐ˜ํ™”, ์‹ ๊ทœ ๋ฐœ๊ฒฌ, ํ™•์žฅ์„ฑ)๋ฅผ ๋™์‹œ์— ํ•ด๊ฒฐํ•œ ํ˜์‹ ์  ์ ‘๊ทผ๋ฒ•์œผ๋กœ, ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์  ๊ฒ€์ฆ์„ ํ†ตํ•ด ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ๋‹ค. ๋‹ค๋งŒ LLM ๊ณ„์‚ฐ ๋น„์šฉ๊ณผ ์‹ ๊ทœ ์„ธํฌ ํŒ๋ณ„ ๊ธฐ์ค€์˜ ์ƒ๋ฌผํ•™์  ์—„๋ฐ€์„ฑ์— ๋Œ€ํ•œ ๋ณด์™„์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
699๋Š” ๋‹จ์ผ์„ธํฌ ์œ ์ „์ž ๋ฐœํ˜„ ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ‘œ์ค€ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•˜์—ฌ, 693์˜ LLM ๊ธฐ๋ฐ˜ ์„ธํฌ ์ฃผ์„ ์ž๋™ํ™”์˜ ๋ฐ์ดํ„ฐ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹จ์ผ์„ธํฌ foundation model์„ ํšจ์œจ์ ์œผ๋กœ ํŒŒ์ธํŠœ๋‹ํ•˜์—ฌ ์กฐ์ง ๊ฐ„ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ธฐ๋ฐ˜์  ๊ธฐ์ˆ ์„ ์ œ์‹œํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
scAgent๋Š” LLM ๊ธฐ๋ฐ˜ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ์ฃผ์„ ์ž๋™ํ™” ์‹œ์Šคํ…œ์œผ๋กœ, scBaseCamp์˜ ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๋ฐ ํ™œ์šฉ ๋ฐฐ๊ฒฝ์„ ์ง€์›ํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
scAgent๋Š” ์‹ฑ๊ธ€์…€ ๊ธฐ๋ฐ˜ ํฌ๋กœ๋งˆํ‹ด ํŠน์ง• ์˜ˆ์ธก๊ณผ ์ฃผ์„ ๋ถ€์—ฌ ๋ถ„์•ผ์˜ ์ฒจ๋‹จ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์œผ๋กœ, Hi-Compass์˜ ํ˜„์‹ค ์ ์šฉ์„ฑ๊ณผ ๋ณ€๋™์„ฑ ์ˆ˜์šฉ๋ ฅ์„ ํ† ๋ก ํ•  ๋•Œ ์ง์ ‘์  ์ฐธ๊ณ ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ์ž๋™ ์ฃผ์„ํ™”์™€ ๋ถ„์„์„ ์œ„ํ•œ LLM ์—์ด์ „ํŠธ(scAgent) ์ ‘๊ทผ๋ฒ•์„ ์‹ค์šฉ์ ์œผ๋กœ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
164๋Š” ๋ฐ”์ด์˜ค์ธํฌ๋งคํ‹ฑ์Šค ์—์ด์ „ํŠธ(BIA)๋ฅผ ํ†ตํ•ด ์œ ์‚ฌํ•œ ๋‹จ์ผ์„ธํฌ ๋ฐ ์ƒ๋ช…๊ณผํ•™ ๋ฐ์ดํ„ฐ ๋ถ„์„์—์„œ์˜ LLM ํ™œ์šฉ์„ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
scAgent ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ์ฃผ์„ ์ž๋™ํ™”๋ฅผ ๋ชฉํ‘œ๋กœ ํ•˜์—ฌ foundation model ์„ธํฌ ๋ถ„์„์˜ ๋‹ค๋ฅธ ์ ‘๊ทผ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
693๋ฒˆ ๋…ผ๋ฌธ์€ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ์ฃผ์„์„ LLM ์—์ด์ „ํŠธ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ์ ‘๊ทผ๋ฒ•์œผ๋กœ, 505๊ณผ ๋ฐ์ดํ„ฐ ํ™œ์šฉ ์ธก๋ฉด์—์„œ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฒ”์šฉ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ์ž๋™ํ™” ๋ฐ ์—์ด์ „ํŠธ ํ๋ ˆ์ด์…˜ ๋ฐฉ์‹์„ ์ ์šฉํ•œ ๋Œ€๊ทœ๋ชจ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ์œ ์‚ฌ ๋ถ„์•ผ์— ๋Œ€ํ•œ ๋Œ€์•ˆ์  ์ ‘๊ทผ์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
scAgent๋Š” CASSIA์™€ ๊ฐ™์ด LLM ๊ธฐ๋ฐ˜ ๋‹จ์ผ์„ธํฌ ์ฃผ์„์„ ๋ชฉํ‘œ๋กœ ํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ์ ‘๊ทผ๋ฒ•์˜ ์ฐจ์ด๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
scAgent ๋…ผ๋ฌธ์€ ๋‹จ์ผ์„ธํฌ ์ฃผ์„ ์ž‘์—…์„ ์œ„ํ•œ ๋ฒ”์šฉ LLM ์—์ด์ „ํŠธ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, omics ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ์—์„œ BAISBench์™€ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
scAgent๋Š” ๋‹จ์ผ์„ธํฌ ์ฃผ์„ ๋ถ„์•ผ์—์„œ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์ž๋™ํ™” ๊ฐ€๋Šฅ์„ฑ์„ ํƒ๊ตฌํ•˜์—ฌ ๊ณต๊ฐ„์ƒ๋ฌผํ•™ ํŒŒ์ดํ”„๋ผ์ธ ์ž๋™ํ™”์™€ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
scAgent ๋…ผ๋ฌธ์€ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ์ฃผ์„ ๋ถ„์•ผ์—์„œ ๋ฒ”์šฉ LLM ์—์ด์ „ํŠธ๋ฅผ ์ œ์‹œํ•ด Cell2Sentence์™€ ๋ถ„์•ผ์  ์ฐจ๋ณ„์„ฑ๊ณผ ์œ ์‚ฌ์ ์„ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
3057๋ฒˆ ๋…ผ๋ฌธ๋„ ๋‹จ์ผ์„ธํฌ ๋ถ„์„์„ ์œ„ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ ๋Œ€๊ทœ๋ชจ foundation model์„ ์ œ์•ˆํ•˜์—ฌ ์ „์ฒด์ ์ธ ์ ‘๊ทผ ๋ฐฉ๋ฒ•์€ ๋‹ค๋ฅด์ง€๋งŒ ์œ ์‚ฌ ๋ถ„์•ผ๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ์ผ์„ธํฌ ์ฃผ์„ ๋ฐ ๋ณ‘์›์ฒด ๋ถ„๋ฅ˜ ์ž‘์—…์—์„œ LLM ๊ธฐ๋ฐ˜ ๋ฒ”์šฉ ์—์ด์ „ํŠธ ํ™œ์šฉ ์‚ฌ๋ก€๋กœ, ํ˜ˆ์ฒญ๊ตฐ ๋ถ„๋ฅ˜์˜ ML ํŒŒ์ดํ”„๋ผ์ธ๊ณผ ์ฐจ๋ณ„์  ํ•œ๊ณ„์™€ ์‹œ๋„ˆ์ง€๋ฅผ ๋น„๊ตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ์ผ์„ธํฌ ์ˆ˜์ค€ ๋ฐ์ดํ„ฐ ์–ด๋…ธํ…Œ์ด์…˜๊ณผ ํฌ๋กœ๋งˆํ‹ด ๋ฃจํ”„ ํƒ์ง€ ๋“ฑ ์„ธํฌ ๋‚ด ๊ตฌ์กฐ ๋ถ„์„์„ ์œ„ํ•œ ๋‹ค๋ฅธ AI ์ ‘๊ทผ๋ฒ•์„ ๋ณด์—ฌ์คŒ.
ํ›„์† ์—ฐ๊ตฌ
Biological sequence annotation์„ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ์ ‘๊ทผ๋ฒ•์œผ๋กœ, ActionIE์˜ ์ƒ๋ฌผํ•™์  ์‹œํ€€์Šค ์‘์šฉ์„ ํ™•์žฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
scAgent ๋…ผ๋ฌธ์€ ๋‹จ์ผ์„ธํฌ ์ฃผ์„์ž‘์—… ์ž๋™ํ™”์—์„œ LLM-์—์ด์ „ํŠธ์˜ ์—ญํ• ์„ ๋ถ„์„ํ•˜์—ฌ, CellAgent์˜ ์ƒ๋ฌผ์ •๋ณดํ•™ ์ž๋™ํ™”์™€ ์„ฑ๋Šฅ ๋น„๊ต์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
BioAgents(160)๋Š” scAgent์ฒ˜๋Ÿผ ๋Œ€๊ทœ๋ชจ ๋ฐ”์ด์˜ค์ธํฌ๋งคํ‹ฑ์Šค ๋ถ„์„์—์„œ LLM ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ ํ™œ์šฉ์„ ํ™•๋Œ€ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋‹จ์ผ์„ธํฌ ๋ถ„์„์—์„œ LLM ๊ธฐ๋ฐ˜ ์ž๋™ ์ฃผ์„ํ™” ์—์ด์ „ํŠธ๋ฅผ ์ ์šฉํ•œ ๋…ผ๋ฌธ์œผ๋กœ, DECODE์˜ ๋””์ปจ๋ณผ๋ฃจ์…˜ ๋ฐฉ๋ฒ•์„ ์‹ค์ œ ๋‹จ์ผ์„ธํฌ ๋ถ„์„ ๋ฌธ์ œ์— ํ™•์žฅ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
168์€ ๋ฒ”์šฉ ๋ฐ”์ด์˜ค๋ฉ”๋””์ปฌ AI ์—์ด์ „ํŠธ ๊ตฌ์ถ• ๋งฅ๋ฝ์—์„œ 693์˜ ๋ฒ”์šฉ annotation ๋ฐฉ๋ฒ•๋ก ์ด ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ํ™œ์šฉ๋˜๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLM ๊ธฐ๋ฐ˜ ๋‹จ์ผ์„ธํฌ ์ฃผ์„ ์ž๋™ํ™” ๋“ฑ ์‹ค์ œ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ์œ ํ˜•์— ๋Œ€ํ•œ ์‹ค์ œ ์ ์šฉ ์—ฐ๊ตฌ์ด๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •