์ ์: Syed Asad Rizvi, Daniel Levine, Aakash Patel, Shiyang Zhang, Eric Wang, Curtis Jamison Perry, Ivan Vrkic, Nicole Mayerli Constante, Zirui Fu, Sizhuang He, David Zhang, Cerise Tang, Zhuoyang Lyu, Rayyan Darji, Chang Li, Emily Sun, David Jeong, Lawrence Zhao, Jennifer Kwan, David Braun, Brian Hafler, Hattie Chung, Rahul M. Dhodapkar, Paul Jaeger, Bryan Perozzi, Jeffrey Ishizuka, Shekoofeh Azizi, David Van Dijk | ๋ ์ง: 2025-04-17 | DOI: 10.1101/2025.04.14.648850 📄 PDF
Essence
Figure 2: C2S-Scale๋ scRNA-seq ๋ฐ์ดํฐ์ ์์ฐ์ธ์ด๋ฅผ ํตํฉํ์ฌ LLM์ ์ด์ฉํ ๋จ์ผ์ธํฌ ๋ถ์ ์ํ
๋จ์ผ์ธํฌ RNA ์ํ์ฑ ๋ฐ์ดํฐ๋ฅผ "์ธํฌ ๋ฌธ์ฅ(cell sentence)" ํํ์ ํ
์คํธ๋ก ๋ณํํ์ฌ ๋๊ท๋ชจ์ธ์ด๋ชจ๋ธ(LLM)๋ก ์ฒ๋ฆฌํ๋ Cell2Sentence ํ๋ ์์ํฌ๋ฅผ 270์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ก ํ์ฅํจ์ผ๋ก์จ, ์ ์ฌ์ฒด ๋ฐ์ดํฐ์ ์๋ฌผํ์ ํ
์คํธ ์ ๋ณด๋ฅผ ํตํฉํ ์ฐจ์ธ๋ ๋จ์ผ์ธํฌ ๋ถ์ ํ๋ซํผ์ ๊ตฌํํ๋ค.
Achievement
Figure 1: C2S ํ๋ ์์ํฌ์ ๋ค์ฐจ์์ ํ์ฅ - ๋ชจ๋ธ ์ฉ๋, ๋ฐ์ดํฐ ํฌ๊ธฐ, ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ, ๋ค์ค์ธํฌ ์ง์, ์๋ฌผํ์ ์ค์ผ์ผ ํตํฉ
- ํ์ฅ ๊ฐ๋ฅํ LLM ์ํคํ
์ฒ: 410M์์ 27B ํ๋ผ๋ฏธํฐ๊น์ง 5๊ฐ ๋ชจ๋ธ ํฌ๊ธฐ์์ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์ ๋ฌ์ฑ. Gemma-2 ๋ฐ Pythia ๊ธฐ๋ฐ ๋ชจ๋ธ๋ก ๊ธฐ์กด ๋จ์ผ์ธํฌ ๋ชจ๋ธ ๋๋น ์๋์ ๊ท๋ชจ ํ๋
- ๋๊ท๋ชจ ๋ค์ค๋ชจ๋ฌ ํ์ต ๋ฐ์ดํฐ: 5์ฒ๋ง ๊ฐ ์ด์์ ์ธ๊ฐ ๋ฐ ๋ง์ฐ์ค ์ธํฌ์ 10์ต ๊ฐ ํ ํฐ ์ฝํผ์ค ๊ตฌ์ฑ - Human Cell Atlas, CellxGene ํตํฉ. ์ ์ฌ์ฒด ๋ฐ์ดํฐ+์๋ฌผํ์ ํ
์คํธ+๋ฉํ๋ฐ์ดํฐ ๋์ ํ์ต
- ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์
์ฑ๋ฅ: ์ธํฌ ํ์
์ฃผ์(cell type annotation), ์ธํฌ ์๋ฒ ๋ฉ(cell embedding), ์ญ๋ ๋ฐ์ ์์ธก, ์์ฐ์ธ์ด ํด์, ๊ณต๊ฐ ์ถ๋ก (spatial reasoning), ์ง์์๋ต(QA) ๋ฑ ์ ๋ฐฉ์ ์ฐ์ ์ฑ๋ฅ
- ๊ฐํํ์ต ๊ธฐ๋ฐ ์ฑ๋ฅ ํฅ์: Group Relative Policy Optimization (GRPO)์ ์ ์ฉํ์ฌ ๋ชฉํ ํน์ ์์
์ฑ๋ฅ ์ถ๊ฐ ๊ฐ์ . ํนํ ๋ณต์กํ ์ง์์๋ต ๋ฒค์น๋งํฌ์์ ํ์ ํ ๊ฐ์
- ์ ๊ท ํ๊ฐ ์งํ ์ ์: ๋จ์ผ์ธํฌ Frรฉchet Inception Distance (scFID) ๊ฐ๋ฐ - ํํ์ ์์ค์ ๋
ธ์ด์ฆ์ ๋ ๋ฏผ๊ฐํ ์๋ฌผํ์ ์ผ๋ก ์๋ฏธ ์๋ ์์ฑ ๋ชจ๋ธ ํ๊ฐ ๋ฐฉ๋ฒ
Figure 3: C2S-Scale์ด ์ ์ฌ์ฒด ์ฌ๋จ ๋ชจ๋ธ๊ณผ ์ผ๋ฐ LLM์ ๋ชจ๋ ๋ฅ๊ฐํ ๋ค์ํ ์์
์ฑ๋ฅ
Evaluation
Novelty: 5/5 Technical Soundness: 4.5/5 Significance: 5/5 Clarity: 4/5 Overall: 4.6/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ๋๊ท๋ชจ LLM์ ์ค์ผ์ผ๋ง ํจ๊ณผ๋ฅผ ๋จ์ผ์ธํฌ ์๋ฌผํ์ ์ฒ์ ์ฒด๊ณ์ ์ผ๋ก ์
์ฆํ๊ณ , ์ ์ฌ์ฒด ๋ฐ์ดํฐ์ ์์ฐ์ธ์ด์ ํตํฉ์ ์ ๋ก ์๋ ๊ท๋ชจ(50M ์ธํฌ, 1B ํ ํฐ)๋ก ๋ฌ์ฑํ ํ๊ธฐ์ ์ฐ๊ตฌ์ด๋ค. Cell2Sentence ํ๋ ์์ํฌ์ ์ฐ์ํ ์ค๊ณ, GRPO ๊ฐํํ์ต ์์ฉ, scFID ํ๊ฐ ์งํ ๊ฐ๋ฐ ๋ฑ์์ ๋์ ๋
์ฐฝ์ฑ์ ๋ณด์ด๋ฉฐ, ๊ณต๊ฐ ๋ชจ๋ธ ๋ฐ ์์ ๊ณต๊ฐ๋ก ์๋ฌผํ ์ปค๋ฎค๋ํฐ์ ์ค์ง์ ๊ธฐ์ฌ๋ฅผ ํ ๊ฒ์ผ๋ก ์์๋๋ค. ๋ค๋ง ํด์๊ฐ๋ฅ์ฑ ๋ถ์ฌ์ ๊ณ์ฐ ๋น์ฉ ์ธก๋ฉด์์๋ ๊ฐ์ ์ด ํ์ํ๋ฉฐ, ๋
ผ๋ฌธ์ ์ผ๋ถ ๊ธฐ์ ์ ์ธ๋ถ์ฌํญ(ํนํ GRPO ์ ์ฉ ๋ฐฉ์, scFID ๊ฒ์ฆ ๋ฐฉ๋ฒ)์ด ๋ค์ ๊ฐ๋ตํ๊ฒ ๊ธฐ์ ๋ ์ ์ด ์์ฝ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋จ์ผ์ธํฌ RNA ๋ถ์์ ๊ธฐ๋ณธ ํ์ด์ฌ ์ํ๊ณ(scverse, AnnData, SCANPY ๋ฑ)์ ๊ธฐ๋ฐํด Cell2Sentence LLM ํ๋ ์์ํฌ๊ฐ ๊ตฌํ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
SciBERT๋ ๊ณผํยท์๋ช
๊ณผํ ํ
์คํธ์ ์ต์ ํ๋ LLM์ผ๋ก, Cell2Sentence์ ๊ฐ์ด ์๋ฌผํ์ ์ธ์ด์ ๋ณด ์ตํฉ ํ๋ซํผ ๊ตฌ์ถ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋จ์ผ์ธํฌ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ ํตํฉ(WNN ๋ฐฉ๋ฒ)์ ์ ์ํ ๋
ผ๋ฌธ์ผ๋ก, Cell2Sentence ํ๋ ์์ํฌ์ ์๋ฌผ์ ๋ณดํตํฉ ์ ๊ทผ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
696์ ์ฐจ์ธ๋ ๋จ์ผ์ธํฌ ๋ถ์์ ์ํ ๋๊ท๋ชจ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ์ ๋ต์ ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฃจ๋ฉฐ, 306์ ๋ฏธ์ธ์กฐ์ ๊ธฐ๋ฒ๊ณผ ์๋์ง๊ฐ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฑ๊ธ์
๋ฐ์ดํฐ ๋ฐ LLM ํ์ฉ์ ๋๊ท๋ชจ ํ์ฅ๊ณผ ๊ด๋ จ๋ ์ฑ๋ฅ scaling ๊ณ ์ฐฐ์ ์ ๊ณตํ๋ฉฐ, ์คํ ์ ์ฉ ๋งฅ๋ฝ์์ ์์ฌ์ ์ ์ค๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ธฐ์ด ์๋ฌผ์ ๋ณดํ ๋ถ์ผ์์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ด ๋๊ท๋ชจ ์๋ฌผํ ๋ฐ์ดํฐ ๋ถ์์ ์ด๋ป๊ฒ ์ ์ฉ๋๋์ง ๊ฐ๊ด์ ์ผ๋ก ์ค๋ช
ํ๊ณ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋จ์ผ์ธํฌ RNA/ATAC ๋ถ์ LLM์ ์ค์ผ์ผ์
๋ฐ ํจ์จํ ์ฐ๊ตฌ๋ก, CLM-X์ ๋ฉํฐ๋ชจ๋ฌ ํ์ด๋ฐ์ด์
๋ชจ๋ธ๋ง์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
696์ ์ฑ๊ธ์
๋จ์ผ์ธํฌ ๋ฐ์ดํฐ์์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ์ค์ผ์ผ๋ง์ ์ค์ฆ์ ์ผ๋ก ์ฐ๊ตฌํ๊ณ , 3237์ ์ด๋ฅผ ๊ธฐ์ด๋ก scaling/quantization ๊ธฐ๋ฒ์ ๋ฐ์ ์ํต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
305๋ฒ์ ๋ฌผ์ง ํ์์์ LLM๊ธฐ๋ฐ ๋ฒค์น๋งํฌ ๋ฐ ํํ ๊ณต๊ฐ ํ๊ตฌ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ฉฐ, 696๋ฒ๊ณผ ์ ์ฌํ๊ฒ ๋๋ฉ์ธ ๋ฐ์ดํฐ-LLM ์ตํฉ์ ํ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
scAgent ๋
ผ๋ฌธ์ ๋จ์ผ์ธํฌ ๋ฐ์ดํฐ ์ฃผ์ ๋ถ์ผ์์ ๋ฒ์ฉ LLM ์์ด์ ํธ๋ฅผ ์ ์ํด Cell2Sentence์ ๋ถ์ผ์ ์ฐจ๋ณ์ฑ๊ณผ ์ ์ฌ์ ์ ํ์
ํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
DNA ๋ฐ ๋จ๋ฐฑ์ง ์์ด ์ค๊ณ๋ฅผ ์ํ ๋ค๋ฅธ ์์ฑ ๋ชจ๋ธ์ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จ์ผ์ธํฌ ๊ธฐ๋ฐ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ๊ตฌ์ถ ๋ฐ ์๋ฌผ์ ๋ณด ๋ฐ์ดํฐ์ ๋๊ท๋ชจ ํ์ต์ ๊ดํ ๋ ๋ค๋ฅธ ์ต์ ์ ๊ทผ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ณธ ๋
ผ๋ฌธ์ฒ๋ผ LLM ๋ชจ๋ธ์ ๋๊ท๋ชจ ํ์ต ํจ์จํ๋ฅผ ๋ค๋ฃจ์ง๋ง, single-cell ๋ถ์์ด๋ผ๋ ์ค์ ๊ณผํ ๋ฌธ์ ์์ ์์ฉ ์ฌ๋ก๋ฅผ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
505๋ฒ์ LLM์ ํตํ ์ ์ ์ ์กฐ์ ๋คํธ์ํฌ์ ์ธ๊ณผ ์ถ๋ก ๋ฐ ์๋ช
๊ณผํ ์ง์ ํตํฉ ๋ฌธ์ ๋ฅผ 696๋ฒ์ ๋จ์ผ์ธํฌ ๋ถ์๊ณผ ์ฐ๊ฒฐํ์ฌ ๋ฐ์ ์ํจ๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ํ์ฉํ ์๋ฌผํ์ ๊ฐ์ค ์์ฑ ๋ฐ ๋ฐ์ดํฐ ํด์ ์๋ํ ์ฌ๋ก๋ก, ์ฐจ์ธ๋ ๋จ์ผ์ธํฌ ๋ถ์์ LLM ์ ์ฉ์ ํ์ฅ ๋ฐฉํฅ์ฑ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
696์ ์ฐจ์ธ๋ ๋๊ท๋ชจ ๋จ์ผ์ธํฌ ๋ฐ์ดํฐ์ ๊ทธ ์ฒ๋ฆฌ/ํ์คํ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ์ด, 700์ ์์ด์ ํธ ๊ธฐ๋ฐ ๋จ์ผ์ธํฌ ๋ฐ์ดํฐ ํ์คํ์ ์์ฐ์ค๋ฝ๊ฒ ์ฐ๊ฒฐ๋๋ค.
์์ฉ ์ฌ๋ก
Cell2Sentence ํ๋ ์์ํฌ๊ฐ ๋จ์ผ์ธํฌ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ ํตํฉ ๋ฐ ๋ถ์์ WNN ๋ฐฉ๋ฒ๋ก ์ ์ค์ง์ ์ผ๋ก ๊ตฌํํ ์ฌ๋ก๋ค.