What Topological and Geometric Structure Do Biological Foundation Models Learn?

์ €์ž: | ๋‚ ์งœ: 2026-02-25 | URL: https://arxiv.org/abs/2602.22289 📄 PDF


Essence

Figure 3

Figure 3: Persistent homology across transformer layers and tissue domains. (a) H1 persistence delta (observed minus

์ƒ๋ฌผํ•™ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ(scGPT, Geneformer)์˜ ๋‚ด๋ถ€ ํ‘œํ˜„์ด ์ธ์ฝ”๋”ฉํ•œ ์œ„์ƒยท๊ธฐํ•˜ ๊ตฌ์กฐ๋ฅผ AI ๊ธฐ๋ฐ˜ ์ž๋™ ๊ฐ€์„ค ์„ ๋ณ„ ๋ฃจํ”„๋กœ 141๊ฐœ ๊ฐ€์„ค์„ ๊ฒ€์ฆํ•˜์—ฌ ๊ทœ๋ช…ํ•œ ์—ฐ๊ตฌ. ๋ชจ๋ธ์ด ์ƒ๋ฌผํ•™์ ์œผ๋กœ ์˜๋ฏธ ์žˆ๋Š” ๊ธฐํ•˜ ๊ตฌ์กฐ๋ฅผ ํ•™์Šตํ•˜์ง€๋งŒ, ๊ตฌ์กฐ๋Š” ๋ฉด์—ญ ์กฐ์ง์— ๊ตญํ•œ๋˜๋ฉฐ ๋ชจ๋ธ ๊ฐ„ ์œ ์‚ฌ์„ฑ๋„ ๋ถ€๋ถ„์ ์ž„์„ ์ž…์ฆ.

Motivation

Achievement

How

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ AI ๊ธฐ๋ฐ˜ ์ž๋™ ๊ฐ€์„ค ์„ ๋ณ„์ด๋ผ๋Š” ํ˜์‹ ์  ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ ์ƒ๋ฌผํ•™ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์œ„์ƒยท๊ธฐํ•˜ ๊ตฌ์กฐ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๊ทœ๋ช…ํ•˜๊ณ , ์—„๊ฒฉํ•œ null ์ œ์–ด์™€ ๋ถ€์ •์  ๊ฒฐ๊ณผ ๊ธฐ๋ก์„ ํ†ตํ•ด ์‹ค์ œ ์‹ ํ˜ธ์™€ artifact์˜ ๊ฒฝ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ tissue ํŠน์ด์„ฑ, PCA ์ฐจ์› ์ถ•์†Œ์˜ ์ •๋ณด ์†์‹ค, ๋ฐ์ดํ„ฐ ํ•œ๊ณ„ ๋“ฑ์œผ๋กœ ์ธํ•ด ๋ฐœ๊ฒฌ์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์€ ์ œํ•œ์ ์ด๋ฉฐ, ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ํ•ด์„ ๋ถ„์•ผ์— ์ค‘์š”ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ์—ฌ์™€ ํ•จ๊ป˜ ์ƒ๋ฌผํ•™ ๋ชจ๋ธ ์‹ ๋ขฐ๋„ ํ‰๊ฐ€์˜ ์ƒˆ๋กœ์šด ๊ธฐ์ค€์„ ์ œ์‹œํ•˜๋Š” ์šฐ์ˆ˜ํ•œ ์—ฐ๊ตฌ.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
320๋ฒˆ ๋…ผ๋ฌธ์€ ์ฝ”๋“œ ๊ธฐ๋ฐ˜ ๋Œ€ํ˜•์–ธ์–ด๋ชจ๋ธ ํ‰๊ฐ€์™€ AI ๋ชจ๋ธ์˜ ๋‚ด์žฌ ํŠน์„ฑ ์ง„๋‹จ์„ ๋‹ค๋ฃจ์–ด, 3282๋ฒˆ์˜ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ๋‚ด๋ถ€ ํ‘œํ˜„ ๋ถ„์„ ๊ธฐ๋ฒ•๊ณผ ์ด๋ก ์ ์œผ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ƒ๋ฌผ์ •๋ณดํ•™์—์„œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๋‚ด๋ถ€ ํ‘œํ˜„์— ๋Œ€ํ•œ ์ „๋ฐ˜์  ํ˜„ํ™ฉ์„ ๋‹ค๋ฃจ๋ฏ€๋กœ ์œ„์ƒ ๋ฐ ๊ธฐํ•˜ ๊ตฌ์กฐ ๋ถ„์„ ๋…ผ๋ฌธ์˜ ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
3245์˜ ๋‹จ๋ฐฑ์งˆ ๊ตฌ์กฐ/์„œ์—ด ์ •๋ณด ์œตํ•ฉ deep learning ๋ชจ๋ธ์ด 3282์˜ ์ƒ๋ฌผํ•™ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ๋‚ด๋ถ€ ๊ตฌ์กฐ ํ•ด์„ ๋ฐ ์ž๋™ ๊ฐ€์„ค ์„ ๋ณ„ ์—ฐ๊ตฌ์˜ ๋ชจํ‹ฐ๋ธŒ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
031๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ์— ๋Œ€ํ•œ ์ข…ํ•ฉ์  ๋ฆฌ๋ทฐ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, 3282๋ฒˆ์˜ ๊ฐ€์„ค ์ž๋™ ๊ฒ€์ฆ ๋ฃจํ”„ ๋ฐฉ๋ฒ•๊ณผ ๋น„๊ต ์ฝ๊ธฐ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
โ€˜Scientific hypothesis generation by large language modelsโ€™๋Š” LLM์˜ ๊ฐ€์„ค ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋ฏ€๋กœ, ๋‚ด๋ถ€ ๊ตฌ์กฐํ•™์Šต๊ณผ ๊ฐ€์„ค ํ‰๊ฐ€ ๊ด€์ ์—์„œ ์ƒํ˜ธ๋ณด์™„์ ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
3282 ๋…ผ๋ฌธ์€ ์ƒ๋ฌผํ•™์  ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์ด ๋‚ด์žฌํ•œ ์œ„์ƒ ๋ฐ ๊ธฐํ•˜ ๊ตฌ์กฐ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ•ด, ๋‹จ์ผ์„ธํฌ ํ‘œํ˜„ ๊ณต๊ฐ„ ํ•ด์„(3179)๊ณผ ์ง์ ‘ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ๋ฌผํ•™์  ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์ด ์Šต๋“ํ•˜๋Š” ์œ„์ƒ์ ยท๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ ํ•™์Šต์„ ํฌ๊ด„์ ์œผ๋กœ ๋ถ„์„ํ•˜๋ฉฐ ๋‹จ๋ฐฑ์งˆ-๋ฆฌ๊ฐ„๋“œ ๋ชจ๋ธ๊ณผ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘˜ ๋‹ค ์ƒ๋ฌผํ•™ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๋‚ด๋ถ€ ํ‘œํ˜„(๊ตฌ์กฐ/ํฌ์†Œ์„ฑ ๋“ฑ)์„ ํ•ด์„ํ•˜๋ ค ์‹œ๋„ํ•˜์ง€๋งŒ, 3282๋Š” ์œ„์ƒยท๊ธฐํ•˜ ๊ตฌ์กฐ์— ์ง‘์ค‘, 3281์€ ํฌ์†Œ ์˜คํ† ์ธ์ฝ”๋” ๊ธฐ๋ฐ˜ ํ•ด์„์„ ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ๋ฌผํ•™์  ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์œ„์ƒ ๋ฐ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ ๋ถ„์„์ด๋ผ๋Š” ์œ ์‚ฌ ๋ชฉ์ ์„ ๊ฐ€์ง€๋‚˜ ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ๋ฌผํ•™์  ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•˜๋Š” ํ† ํด๋กœ์ง€, ๊ตฌ์กฐ์˜ ๊ธฐํ•˜์ ยท์œ„์ƒ์  ํŠน์„ฑ์„ ๋ถ„์„ํ•˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ, ๋Œ€๊ทœ๋ชจ ๊ตฌ์กฐ ์˜ˆ์ธก๊ณผ ์—ฐ๊ณ„ํ•ด๋ณด๋ฉด ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ตฌ์ฒด์  ํ”„๋ ˆ์ž„์›Œํฌ(ViraHinter)์™€ ๋‹ฌ๋ฆฌ ๋‹ค์–‘ํ•œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๋‚ด๋ถ€ ์œ„์ƒ/๊ธฐํ•˜ ๊ตฌ์กฐ๋ฅผ ํ•ด์„์ ์œผ๋กœ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
โ€˜Improving Scientific Hypothesis Generation with Knowledge Graphsโ€™๋Š” ๋‚ด๋ถ€ ํ‘œํ˜„์˜ ์˜๋ฏธ๋ก ์  ๊ตฌ์กฐ ํ•™์Šต์„ ์‹ค์ œ ๊ฐ€์„ค ์ถ”๋ก ์— ์—ฐ๊ฒฐํ•˜๋Š” ์‘์šฉ ์—ฐ๊ตฌ๋กœ ํ•จ๊ป˜ ์ฐธ๊ณ ํ•  ๋งŒํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์ด ์ธ์ฝ”๋”ฉํ•œ ๊ตฌ์กฐ์  ํŠน์ง•์— ๋Œ€ํ•œ ์‹ค์ œ ๋ถ„์„, ์‹คํ—˜์  ๊ฒ€์ฆ์„ ์ˆ˜ํ–‰ํ•œ ๋…ผ๋ฌธ์œผ๋กœ, ์ด๋ก ์  ๋…ผ์˜์˜ ์ ์šฉ ์‚ฌ๋ก€์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ƒ๋ฌผํ•™์  ์ง€์‹์˜ ๋‹ค์ฐจ์› ์ŠคํŽ™ํŠธ๋Ÿด ๊ธฐํ•˜ ๋ถ„์„ ๋ฐฉ๋ฒ•์œผ๋กœ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๊ตฌ์กฐ ์˜๋ฏธ์„ฑ ํ•ด์„์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ƒ๋ฌผํ•™์  foundation model์ด ๋‚ด๋ถ€์ ์œผ๋กœ ์Šต๋“ํ•˜๋Š” ๊ธฐํ•˜ยท์œ„์ƒ ๊ตฌ์กฐ ํ•ด์„์„ ์‹œ๋„ํ•˜์—ฌ, PLL์˜ ํ•ด์„์  ํŠน์ง•๊ณผ ์‹ค์งˆ์  ์˜๋ฏธ๋ฅผ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
SAE ๊ธฐ๋ฐ˜ ๋‚ด๋ถ€ ๊ตฌ์กฐ ํ•ด์„์„ ๋„˜์–ด์„œ ์œ„์ƒ ๋ฐ ๊ธฐํ•˜ํ•™์  ์˜๋ฏธ๋ฅผ ์‹คํ—˜ ๋ฃจํ”„์™€ ์—ฐ๊ณ„ํ•ด ๊ฒ€์ฆํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
3245์˜ ์ƒ๋ฌผํ•™์  ์„œ์—ด-๊ตฌ์กฐ ์ •๋ณด ์œตํ•ฉ์„ 3282๊ฐ€ ์ƒ๋ฌผํ•™ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ๋‚ด๋ถ€์˜ ์œ„์ƒ-๊ธฐํ•˜ ๊ตฌ์กฐ ํ•ด์„ ๋ฐ ์ž๋™ ๊ฐ€์„ค ์„ ๋ณ„ ์—ฐ๊ณ„๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
What Topological and Geometric Structure Do Biological Foundation Models Compute? ๋…ผ๋ฌธ์€ ๋‹จ๋ฐฑ์งˆ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๋‚ด๋ถ€ ๊ตฌ์กฐ์ /ํ† ํด๋กœ์ง€ ์ •๋ณด ํ•™์Šต์„ ์‹ค์ฆ์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ, AlphaInterp ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ƒ๋ฌผํ•™์  ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์œ„์ƒยท๊ธฐํ•˜์  ๊ตฌ์กฐ ํ‰๊ฐ€๊ฐ€ ๋ฆฌ๊ฐ„๋“œ-ํƒ€๊นƒ ๊ฒฐํ•ฉ ๋ฒค์น˜๋งˆํฌ์™€ ์ง์ ‘ ์—ฐ๊ด€๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋‹จ๋ฐฑ์งˆ-๊ธ€๋ฆฌ์นธ ๊ฐ™์€ ์‹ค์ œ ์ƒํ˜ธ์ž‘์šฉ ๋ชจ๋“ˆ์˜ ๋ณตํ•ฉ์  ๊ตฌ์กฐ ๋ถ„์„์— ๋ณธ ๋…ผ๋ฌธ์˜ ๊ตฌ์กฐ ํ•ด์„ ํ†ต์ฐฐ์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
3282๋ฒˆ ๋…ผ๋ฌธ์—์„œ ์ƒ๋ฌผํ•™ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๋‚ด๋ถ€ ํ‘œํ˜„์ด AI ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ๊ฒ€์ฆ์— ์‚ฌ์šฉ๋˜๋Š” ์‚ฌ๋ก€๋Š”, 3280๋ฒˆ์˜ WaveFormer์—์„œ ์‹ ํ˜ธ์ž„๋ฒ ๋”ฉ์˜ ํ•ด์„ ๋ฐ ํ™œ์šฉ์˜ ์‹ค์ œ์  ์‘์šฉ ์˜ˆ์‹œ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
๋‚ด๋ถ€ ๊ตฌ์กฐ ๋ถ„์„์˜ ์ธ์ง€์  ํ•œ๊ณ„์™€ AI์™€ ์ธ๊ฐ„ ๊ฐ„ ์ถ”๋ก  ํŽธํ–ฅ์„ ๋‹ค๋ฃจ์–ด ๋‚ด๋ถ€ ๊ตฌ์กฐ์˜ ์˜๋ฏธ ํ•ด์„์— ๋น„ํŒ์  ์‹œ๊ฐ์„ ์ œ๊ณตํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •