Scaling Large Language Models for Next-Generation Single-Cell Analysis

์ €์ž: Syed Asad Rizvi, Daniel Levine, Aakash Patel, Shiyang Zhang, Eric Wang, Curtis Jamison Perry, Ivan Vrkic, Nicole Mayerli Constante, Zirui Fu, Sizhuang He, David Zhang, Cerise Tang, Zhuoyang Lyu, Rayyan Darji, Chang Li, Emily Sun, David Jeong, Lawrence Zhao, Jennifer Kwan, David Braun, Brian Hafler, Hattie Chung, Rahul M. Dhodapkar, Paul Jaeger, Bryan Perozzi, Jeffrey Ishizuka, Shekoofeh Azizi, David Van Dijk | ๋‚ ์งœ: 2025-04-17 | DOI: 10.1101/2025.04.14.648850 📄 PDF


Essence

Figure 2

Figure 2: C2S-Scale๋Š” scRNA-seq ๋ฐ์ดํ„ฐ์™€ ์ž์—ฐ์–ธ์–ด๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ LLM์„ ์ด์šฉํ•œ ๋‹จ์ผ์„ธํฌ ๋ถ„์„ ์ˆ˜ํ–‰

๋‹จ์ผ์„ธํฌ RNA ์‹œํ€€์‹ฑ ๋ฐ์ดํ„ฐ๋ฅผ "์„ธํฌ ๋ฌธ์žฅ(cell sentence)" ํ˜•ํƒœ์˜ ํ…์ŠคํŠธ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ์–ธ์–ด๋ชจ๋ธ(LLM)๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” Cell2Sentence ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ 270์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ํ™•์žฅํ•จ์œผ๋กœ์จ, ์ „์‚ฌ์ฒด ๋ฐ์ดํ„ฐ์™€ ์ƒ๋ฌผํ•™์  ํ…์ŠคํŠธ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•œ ์ฐจ์„ธ๋Œ€ ๋‹จ์ผ์„ธํฌ ๋ถ„์„ ํ”Œ๋žซํผ์„ ๊ตฌํ˜„ํ–ˆ๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: C2S ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๋‹ค์ฐจ์›์  ํ™•์žฅ - ๋ชจ๋ธ ์šฉ๋Ÿ‰, ๋ฐ์ดํ„ฐ ํฌ๊ธฐ, ๋‹ค์ค‘ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ, ๋‹ค์ค‘์„ธํฌ ์ง€์›, ์ƒ๋ฌผํ•™์  ์Šค์ผ€์ผ ํ†ตํ•ฉ

  1. ํ™•์žฅ ๊ฐ€๋Šฅํ•œ LLM ์•„ํ‚คํ…์ฒ˜: 410M์—์„œ 27B ํŒŒ๋ผ๋ฏธํ„ฐ๊นŒ์ง€ 5๊ฐœ ๋ชจ๋ธ ํฌ๊ธฐ์—์„œ ์ผ๊ด€๋œ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋‹ฌ์„ฑ. Gemma-2 ๋ฐ Pythia ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋กœ ๊ธฐ์กด ๋‹จ์ผ์„ธํฌ ๋ชจ๋ธ ๋Œ€๋น„ ์••๋„์  ๊ทœ๋ชจ ํ™•๋Œ€
  2. ๋Œ€๊ทœ๋ชจ ๋‹ค์ค‘๋ชจ๋‹ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ: 5์ฒœ๋งŒ ๊ฐœ ์ด์ƒ์˜ ์ธ๊ฐ„ ๋ฐ ๋งˆ์šฐ์Šค ์„ธํฌ์˜ 10์–ต ๊ฐœ ํ† ํฐ ์ฝ”ํผ์Šค ๊ตฌ์„ฑ - Human Cell Atlas, CellxGene ํ†ตํ•ฉ. ์ „์‚ฌ์ฒด ๋ฐ์ดํ„ฐ+์ƒ๋ฌผํ•™์  ํ…์ŠคํŠธ+๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ๋™์‹œ ํ•™์Šต
  3. ๋‹ค์–‘ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—… ์„ฑ๋Šฅ: ์„ธํฌ ํƒ€์ž… ์ฃผ์„(cell type annotation), ์„ธํฌ ์ž„๋ฒ ๋”ฉ(cell embedding), ์„ญ๋™ ๋ฐ˜์‘ ์˜ˆ์ธก, ์ž์—ฐ์–ธ์–ด ํ•ด์„, ๊ณต๊ฐ„ ์ถ”๋ก (spatial reasoning), ์งˆ์˜์‘๋‹ต(QA) ๋“ฑ ์ „๋ฐฉ์œ„ ์šฐ์ˆ˜ ์„ฑ๋Šฅ
  4. ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ: Group Relative Policy Optimization (GRPO)์„ ์ ์šฉํ•˜์—ฌ ๋ชฉํ‘œ ํŠน์ • ์ž‘์—… ์„ฑ๋Šฅ ์ถ”๊ฐ€ ๊ฐœ์„ . ํŠนํžˆ ๋ณต์žกํ•œ ์งˆ์˜์‘๋‹ต ๋ฒค์น˜๋งˆํฌ์—์„œ ํ˜„์ €ํ•œ ๊ฐœ์„ 
  5. ์‹ ๊ทœ ํ‰๊ฐ€ ์ง€ํ‘œ ์ œ์•ˆ: ๋‹จ์ผ์„ธํฌ Frรฉchet Inception Distance (scFID) ๊ฐœ๋ฐœ - ํ‘œํ˜„์‹ ์ˆ˜์ค€์˜ ๋…ธ์ด์ฆˆ์— ๋œ ๋ฏผ๊ฐํ•œ ์ƒ๋ฌผํ•™์ ์œผ๋กœ ์˜๋ฏธ ์žˆ๋Š” ์ƒ์„ฑ ๋ชจ๋ธ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•
Figure 3

Figure 3: C2S-Scale์ด ์ „์‚ฌ์ฒด ์žฌ๋‹จ ๋ชจ๋ธ๊ณผ ์ผ๋ฐ˜ LLM์„ ๋ชจ๋‘ ๋Šฅ๊ฐ€ํ•œ ๋‹ค์–‘ํ•œ ์ž‘์—… ์„ฑ๋Šฅ

How

Figure 4

Figure 4: ๋ชจ๋ธ ์šฉ๋Ÿ‰ ์ฆ๊ฐ€์— ๋”ฐ๋ฅธ ์ผ๊ด€๋œ ์Šค์ผ€์ผ๋ง ์„ฑ๋Šฅ

Originality

Limitation & Further Study

Evaluation

Novelty: 5/5 Technical Soundness: 4.5/5 Significance: 5/5 Clarity: 4/5 Overall: 4.6/5

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ LLM์˜ ์Šค์ผ€์ผ๋ง ํšจ๊ณผ๋ฅผ ๋‹จ์ผ์„ธํฌ ์ƒ๋ฌผํ•™์— ์ฒ˜์Œ ์ฒด๊ณ„์ ์œผ๋กœ ์ž…์ฆํ•˜๊ณ , ์ „์‚ฌ์ฒด ๋ฐ์ดํ„ฐ์™€ ์ž์—ฐ์–ธ์–ด์˜ ํ†ตํ•ฉ์„ ์ „๋ก€ ์—†๋Š” ๊ทœ๋ชจ(50M ์„ธํฌ, 1B ํ† ํฐ)๋กœ ๋‹ฌ์„ฑํ•œ ํš๊ธฐ์  ์—ฐ๊ตฌ์ด๋‹ค. Cell2Sentence ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์šฐ์•„ํ•œ ์„ค๊ณ„, GRPO ๊ฐ•ํ™”ํ•™์Šต ์‘์šฉ, scFID ํ‰๊ฐ€ ์ง€ํ‘œ ๊ฐœ๋ฐœ ๋“ฑ์—์„œ ๋†’์€ ๋…์ฐฝ์„ฑ์„ ๋ณด์ด๋ฉฐ, ๊ณต๊ฐœ ๋ชจ๋ธ ๋ฐ ์ž์› ๊ณต๊ฐœ๋กœ ์ƒ๋ฌผํ•™ ์ปค๋ฎค๋‹ˆํ‹ฐ์— ์‹ค์งˆ์  ๊ธฐ์—ฌ๋ฅผ ํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค. ๋‹ค๋งŒ ํ•ด์„๊ฐ€๋Šฅ์„ฑ ๋ถ€์žฌ์™€ ๊ณ„์‚ฐ ๋น„์šฉ ์ธก๋ฉด์—์„œ๋Š” ๊ฐœ์„ ์ด ํ•„์š”ํ•˜๋ฉฐ, ๋…ผ๋ฌธ์˜ ์ผ๋ถ€ ๊ธฐ์ˆ ์  ์„ธ๋ถ€์‚ฌํ•ญ(ํŠนํžˆ GRPO ์ ์šฉ ๋ฐฉ์‹, scFID ๊ฒ€์ฆ ๋ฐฉ๋ฒ•)์ด ๋‹ค์†Œ ๊ฐ„๋žตํ•˜๊ฒŒ ๊ธฐ์ˆ ๋œ ์ ์ด ์•„์‰ฝ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹จ์ผ์„ธํฌ RNA ๋ถ„์„์˜ ๊ธฐ๋ณธ ํŒŒ์ด์ฌ ์ƒํƒœ๊ณ„(scverse, AnnData, SCANPY ๋“ฑ)์— ๊ธฐ๋ฐ˜ํ•ด Cell2Sentence LLM ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๊ตฌํ˜„๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SciBERT๋Š” ๊ณผํ•™ยท์ƒ๋ช…๊ณผํ•™ ํ…์ŠคํŠธ์— ์ตœ์ ํ™”๋œ LLM์œผ๋กœ, Cell2Sentence์™€ ๊ฐ™์ด ์ƒ๋ฌผํ•™์  ์–ธ์–ด์ •๋ณด ์œตํ•ฉ ํ”Œ๋žซํผ ๊ตฌ์ถ•์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹จ์ผ์„ธํฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ(WNN ๋ฐฉ๋ฒ•)์„ ์ œ์‹œํ•œ ๋…ผ๋ฌธ์œผ๋กœ, Cell2Sentence ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ƒ๋ฌผ์ •๋ณดํ†ตํ•ฉ ์ ‘๊ทผ์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
696์€ ์ฐจ์„ธ๋Œ€ ๋‹จ์ผ์„ธํฌ ๋ถ„์„์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ์ „๋žต์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋‹ค๋ฃจ๋ฉฐ, 306์˜ ๋ฏธ์„ธ์กฐ์ • ๊ธฐ๋ฒ•๊ณผ ์‹œ๋„ˆ์ง€๊ฐ€ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์‹ฑ๊ธ€์…€ ๋ฐ์ดํ„ฐ ๋ฐ LLM ํ™œ์šฉ์˜ ๋Œ€๊ทœ๋ชจ ํ™•์žฅ๊ณผ ๊ด€๋ จ๋œ ์„ฑ๋Šฅ scaling ๊ณ ์ฐฐ์„ ์ œ๊ณตํ•˜๋ฉฐ, ์‹คํ—˜ ์ ์šฉ ๋งฅ๋ฝ์—์„œ ์‹œ์‚ฌ์ ์„ ์ค๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ธฐ์ดˆ ์ƒ๋ฌผ์ •๋ณดํ•™ ๋ถ„์•ผ์—์„œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์ด ๋Œ€๊ทœ๋ชจ ์ƒ๋ฌผํ•™ ๋ฐ์ดํ„ฐ ๋ถ„์„์— ์–ด๋–ป๊ฒŒ ์ ์šฉ๋˜๋Š”์ง€ ๊ฐœ๊ด„์ ์œผ๋กœ ์„ค๋ช…ํ•˜๊ณ  ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹จ์ผ์„ธํฌ RNA/ATAC ๋ถ„์„ LLM์˜ ์Šค์ผ€์ผ์—… ๋ฐ ํšจ์œจํ™” ์—ฐ๊ตฌ๋กœ, CLM-X์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ๋ง์˜ ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
696์€ ์‹ฑ๊ธ€์…€ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ์—์„œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ์Šค์ผ€์ผ๋ง์„ ์‹ค์ฆ์ ์œผ๋กœ ์—ฐ๊ตฌํ–ˆ๊ณ , 3237์€ ์ด๋ฅผ ๊ธฐ์ดˆ๋กœ scaling/quantization ๊ธฐ๋ฒ•์„ ๋ฐœ์ „์‹œํ‚ต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
305๋ฒˆ์€ ๋ฌผ์งˆ ํƒ์ƒ‰์—์„œ LLM๊ธฐ๋ฐ˜ ๋ฒค์น˜๋งˆํฌ ๋ฐ ํ™”ํ•™ ๊ณต๊ฐ„ ํƒ๊ตฌ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, 696๋ฒˆ๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ๋„๋ฉ”์ธ ๋ฐ์ดํ„ฐ-LLM ์œตํ•ฉ์„ ํƒ์ƒ‰ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
scAgent ๋…ผ๋ฌธ์€ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ์ฃผ์„ ๋ถ„์•ผ์—์„œ ๋ฒ”์šฉ LLM ์—์ด์ „ํŠธ๋ฅผ ์ œ์‹œํ•ด Cell2Sentence์™€ ๋ถ„์•ผ์  ์ฐจ๋ณ„์„ฑ๊ณผ ์œ ์‚ฌ์ ์„ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
DNA ๋ฐ ๋‹จ๋ฐฑ์งˆ ์„œ์—ด ์„ค๊ณ„๋ฅผ ์œ„ํ•œ ๋‹ค๋ฅธ ์ƒ์„ฑ ๋ชจ๋ธ์„ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ์ผ์„ธํฌ ๊ธฐ๋ฐ˜ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ๊ตฌ์ถ• ๋ฐ ์ƒ๋ฌผ์ •๋ณด ๋ฐ์ดํ„ฐ์˜ ๋Œ€๊ทœ๋ชจ ํ•™์Šต์— ๊ด€ํ•œ ๋˜ ๋‹ค๋ฅธ ์ตœ์‹  ์ ‘๊ทผ์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ณธ ๋…ผ๋ฌธ์ฒ˜๋Ÿผ LLM ๋ชจ๋ธ์˜ ๋Œ€๊ทœ๋ชจ ํ•™์Šต ํšจ์œจํ™”๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ, single-cell ๋ถ„์„์ด๋ผ๋Š” ์‹ค์ œ ๊ณผํ•™ ๋ฌธ์ œ์—์˜ ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
505๋ฒˆ์€ LLM์„ ํ†ตํ•œ ์œ ์ „์ž ์กฐ์ ˆ ๋„คํŠธ์›Œํฌ์˜ ์ธ๊ณผ ์ถ”๋ก  ๋ฐ ์ƒ๋ช…๊ณผํ•™ ์ง€์‹ ํ†ตํ•ฉ ๋ฌธ์ œ๋ฅผ 696๋ฒˆ์˜ ๋‹จ์ผ์„ธํฌ ๋ถ„์„๊ณผ ์—ฐ๊ฒฐํ•˜์—ฌ ๋ฐœ์ „์‹œํ‚จ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์„ ํ™œ์šฉํ•œ ์ƒ๋ฌผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐ ๋ฐ์ดํ„ฐ ํ•ด์„ ์ž๋™ํ™” ์‚ฌ๋ก€๋กœ, ์ฐจ์„ธ๋Œ€ ๋‹จ์ผ์„ธํฌ ๋ถ„์„์— LLM ์ ์šฉ์˜ ํ™•์žฅ ๋ฐฉํ–ฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
696์€ ์ฐจ์„ธ๋Œ€ ๋Œ€๊ทœ๋ชจ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ์™€ ๊ทธ ์ฒ˜๋ฆฌ/ํ‘œ์ค€ํ™” ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ์–ด, 700์˜ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ ํ‘œ์ค€ํ™”์™€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์—ฐ๊ฒฐ๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Cell2Sentence ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๋‹จ์ผ์„ธํฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ ๋ฐ ๋ถ„์„์— WNN ๋ฐฉ๋ฒ•๋ก ์„ ์‹ค์งˆ์ ์œผ๋กœ ๊ตฌํ˜„ํ•œ ์‚ฌ๋ก€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •