CASSIA: a multi-agent large language model for reference free, interpretable, and automated cell annotation of single-cell RNA-sequencing data

์ €์ž: Elliot Xie, Lingxin Cheng, Jack M. Shireman, Yujia Cai, Jihua Liu | ๋‚ ์งœ: 2025 | DOI: 10.1101/2024.12.04.626476 📄 PDF


Essence

Figure 1

CASSIA์˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ LLM ์‹œ์Šคํ…œ ๊ตฌ์กฐ. ์˜จ๋ณด๋”ฉ ํ”Œ๋žซํผ์„ ํ†ตํ•ด ์‚ฌ์šฉ์ž ์ž…๋ ฅ์„ ๋ฐ›๊ณ , Annotator, Validator, Formatter, Scorer, Reporter ์—์ด์ „ํŠธ๊ฐ€ ์ˆœ์ฐจ์ ์œผ๋กœ ์ž‘๋™ํ•˜๋ฉฐ, ์„ ํƒ์  ์—์ด์ „ํŠธ๋“ค(Subclustering, Uncertainty Quantification, RAG)๋„ ํ™œ์šฉ ๊ฐ€๋Šฅ

CASSIA๋Š” ๋‹จ์ผ์„ธํฌ RNA-seq ๋ฐ์ดํ„ฐ์˜ ์ž๋™ํ™”๋œ ์„ธํฌ์ฃผ์„(cell annotation)์„ ์œ„ํ•œ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM) ์‹œ์Šคํ…œ์œผ๋กœ, ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค 12-41% ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ํ’ˆ์งˆ ์ ์ˆ˜์™€ ๋ถˆํ™•์‹ค์„ฑ ์ •๋Ÿ‰ํ™”๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

Motivation

Achievement

Figure 2a-2b

5๊ฐœ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์™„์ „ํžˆ ์ •ํ™•ํ•œ ์ฃผ์„(fully correct)์€ 12-41% ๊ฐœ์„ , ๋ถ€๋ถ„์ ์œผ๋กœ ์ •ํ™•ํ•œ ์ฃผ์„๊นŒ์ง€ ํฌํ•จํ•œ ๊ฒฐ๊ณผ๋Š” 9-29% ๊ฐœ์„ 

Figure 2c-2e

๋ฉด์—ญ์„ธํฌ ๋ถ„๋ฅ˜์—์„œ 25% ์ด์ƒ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ(์ขŒ์ธก), ์ข…์–‘ ๋ฏธ์„ธํ™˜๊ฒฝ์—์„œ ์•” ์„ธํฌ ๊ตฌ๋ถ„(์ค‘์•™), ๋น„๋ชจ๋ธ ์ƒ๋ฌผ์ข…(์ƒ์–ด, ์ง‘๊ณ ์–‘์ด, ํ˜ธ๋ž‘์ด, ์ฒœ์‚ฐ๊ฐ‘)์—์„œ 14-77% ์ •ํ™•๋„ ๊ฐœ์„ (์šฐ์ธก)

  1. ๋†’์€ ์ •ํ™•๋„: 5๊ฐœ ๋Œ€๊ทœ๋ชจ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹ ๋ฐ ๋ณต์žกํ•œ ๋ฉด์—ญ์„ธํฌ, ์ข…์–‘ ๋ฏธ์„ธํ™˜๊ฒฝ, ๋น„๋ชจ๋ธ ์ƒ๋ฌผ์ข… ๋ฐ์ดํ„ฐ์—์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ํ˜„์ €ํžˆ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ์ž…์ฆ
  2. ํ•ด์„ ๊ฐ€๋Šฅํ•œ ํ’ˆ์งˆ ์ ์ˆ˜: 0-100% ๋ฒ”์œ„์˜ ์ฃผ์„๋ณ„ ํ’ˆ์งˆ ์ ์ˆ˜ ์ƒ์„ฑ์œผ๋กœ, ์ •ํ™•ํ•œ ์ฃผ์„์€ ๋†’์€ ์ ์ˆ˜, ์˜ค๋ฅ˜๋Š” ๋‚ฎ์€ ์ ์ˆ˜๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ ์‹ ๋ขฐ๋„ ์žˆ๋Š” ๊ฒฐ๊ณผ ํ‰๊ฐ€ ๊ฐ€๋Šฅ (Figure 2f)
  3. ๋ถˆํ™•์‹ค์„ฑ ์ •๋Ÿ‰ํ™”: Consensus Similarity(CS) ์ ์ˆ˜๋ฅผ ํ†ตํ•ด ์—ฌ๋Ÿฌ CASSIA ์‹คํ–‰ ๊ฐ„ ์ผ๊ด€์„ฑ ์ธก์ • ๊ฐ€๋Šฅํ•˜๋ฉฐ, Figure 2g์—์„œ ๋†’์€ ํ’ˆ์งˆ ์ ์ˆ˜๋ฅผ ๋ฐ›์•˜์œผ๋‚˜ ๊ธฐ์ค€ ์ฃผ์„๊ณผ ๋ถˆ์ผ์น˜ํ•˜๋Š” ๊ฒฝ์šฐ, ์˜คํžˆ๋ ค ๊ธˆํ‘œ์ค€ ์ฃผ์„์ด ์˜ค๋ฅ˜์ผ ๊ฐ€๋Šฅ์„ฑ์„ ์‹œ์‚ฌ
  4. ์„ธ๋ฐ€ํ•œ ์ฃผ์„ ๊ธฐ๋Šฅ: ๊ฒ€์ƒ‰-์ฆ๊ฐ• ์ƒ์„ฑ(RAG) ์—์ด์ „ํŠธ๋ฅผ ํ†ตํ•ด ์„ธํฌ ๋งˆ์ปค ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์™€ ์ƒ๋ฌผํ•™์  ์˜จํ†จ๋กœ์ง€๋ฅผ ํ™œ์šฉํ•œ ์ƒ์„ธ ์ฃผ์„ ๊ฐ€๋Šฅ (์‹ ๊ฒฝ์„ธํฌ์˜ excitatory/inhibitory ๋ถ„๋ฅ˜, layer ์œ„์น˜ ๋“ฑ)

How

Figure 1

Originality

Limitation & Further Study

Evaluation

์ดํ‰: CASSIA๋Š” ๋‹ค์ค‘ ์—์ด์ „ํŠธ LLM ์‹œ์Šคํ…œ์„ ํ†ตํ•ด ์„ธํฌ์ฃผ์„์˜ ์ •ํ™•๋„, ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ, ํ’ˆ์งˆ ํ‰๊ฐ€๋ฅผ ๋™์‹œ์— ๋‹ฌ์„ฑํ•œ ํ˜์‹ ์  ๋ฐฉ๋ฒ•์œผ๋กœ, ํŠนํžˆ ๋ณต์žกํ•œ ์„ธํฌ ์ง‘๋‹จ๊ณผ ๋น„๋ชจ๋ธ ์ƒ๋ฌผ์ข… ๋ถ„์„์—์„œ ์‹ค์งˆ์  ๊ฐ€์น˜๋ฅผ ์ž…์ฆํ–ˆ์œผ๋‚˜, peer review ์ „ ์ƒํƒœ์ด๊ณ  ๊ณ„์‚ฐ ํšจ์œจ์„ฑ ๋ฐ ๊ธฐ์ˆ ์  ์„ธ๋ถ€ ์‚ฌํ•ญ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์„ธํฌ ์ฃผ์„์„ ์œ„ํ•œ ๊ธฐ์ดˆ์ ์ธ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ์ƒ๋ฌผ์ •๋ณดํ•™ ๋ถ„์„์— ์ ์šฉํ•˜๋Š” ์œ ์‚ฌํ•œ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
scAgent๋Š” CASSIA์™€ ๊ฐ™์ด LLM ๊ธฐ๋ฐ˜ ๋‹จ์ผ์„ธํฌ ์ฃผ์„์„ ๋ชฉํ‘œ๋กœ ํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ์ ‘๊ทผ๋ฒ•์˜ ์ฐจ์ด๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
189(CASSIA)๋Š” LLM ๊ธฐ๋ฐ˜ ๋‹ค์ค‘์—์ด์ „ํŠธ ํ”Œ๋žซํผ์„ ํ™œ์šฉํ•ด ์ฐธ์กฐ ์—†๋Š” ๋ถ„์ž์„ค๊ณ„ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ์–ด, 490 ๋…ผ๋ฌธ์˜ LLM-์•ฝ๋ฌผ์„ค๊ณ„ ์ž๋™ํ™” ์ ‘๊ทผ๊ณผ ๋น„๊ต๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
CASSIA ๋…ผ๋ฌธ์€ LLM ํ™œ์šฉ์„ ํ†ตํ•œ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ์„ธํฌ์ฃผ์„ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ์–ด, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ๊ณผํ•™์  ์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ ๊ฒ€์ฆ์— ์ฐธ๊ณ ๊ฐ€ ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ๋‹จ์ผ์„ธํฌ ๋ถ„์„ ์ž๋™ํ™”๋ฅผ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์˜ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ์ผ์„ธํฌ RNA-seq ๋ฐ์ดํ„ฐ์˜ ์„ธํฌ ์œ ํ˜• ์ฃผ์„์„ ์œ„ํ•œ ์ž๋™ํ™” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์•ˆํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM ๊ธฐ๋ฐ˜ ์†Œ์žฌ ๋ฐ์ดํ„ฐ ๊ณผํ•™์—์„œ์˜ ๊ตฌ์กฐ์  ์ •๋ณด์™€ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์‘์šฉยทํ™•์žฅ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AutoProteinEngine์€ ์ƒ๋ช…๊ณผํ•™ ๋ถ„์•ผ์˜ ์‹œํ€€์Šค ๊ธฐ๋ฐ˜ ์—”์ง€๋‹ˆ์–ด๋ง์— ์ง‘์ค‘ํ•˜์—ฌ, CASSIA์˜ ํ•ด์„๊ฐ€๋Šฅ ์„ธํฌ์ฃผ์„ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์‹ค์ œ ๋ถ„์•ผ๋ณ„ ์ „์ด ๊ฐ€๋Šฅ์„ฑ์„ ์กฐ๋ช…ํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •