Essence
Figure 2. Sparse autoencoder architecture and the feature-to-experiment pipeline. (Left) Model activations (h โ
์ด ๋
ผ๋ฌธ์ ๋จ๋ฐฑ์ง๊ณผ DNA ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ๋ด๋ถ ํํ์ sparse autoencoder(SAE)๋ก ๋ถํดํ์ฌ ์๋ฌผํ์ ์ผ๋ก ํด์ ๊ฐ๋ฅํ ํน์ง ์ฌ์ ์ ํ์ตํ๊ณ , ๊ธฐ์กด behavioral ๋ฐฉ๋ฒ๋ค์ด ๋์น๋ ๋ชจ๋ธ์ ๋ด๋ถ ๊ณ์ฐ ์กฐ์งํ ๋ฐฉ์์ ๊ท๋ช
ํ๋ ์ฒด๊ณ์ ๋ฆฌ๋ทฐ๋ฅผ ์ ์ํ๋ค.
Achievement
Figure 1. Overview of behavioral interpretation methods for biological foundation models. (A) Attention analysis extract
SAE ์ ์ฉ ๋ฒ์ ํ๋: 1๋
๋ฏธ๋ง์ ๊ธฐ๊ฐ์ ๋จ๋ฐฑ์ง ์ธ์ด ๋ชจ๋ธ, ๊ฒ๋ ์ธ์ด ๋ชจ๋ธ, ๋ณ๋ฆฌํ vision transformer, ๋จ์ผ์ธํฌ ํ์ด๋ฐ์ด์
๋ชจ๋ธ, ๋จ๋ฐฑ์ง ๊ตฌ์กฐ ์์ฑ๊ธฐ ๋ฑ ๋ค์ํ ์๋ฌผํ์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ SAE ๋ถ์์ด ์ ์ฉ๋จ. ์๋ ด์ ์ฆ๊ฑฐ: ์๋ก ๋ค๋ฅธ ์ํคํ
์ฒ์ ํ๊ฐ ์ ๋ต์ ์ฌ์ฉํ ๋
๋ฆฝ์ ์ฐ๊ตฌ๋ค์ด ์ผ๊ด๋๊ฒ 2์ฐจ ๊ตฌ์กฐ ์์, ๊ธฐ๋ฅ ๋๋ฉ์ธ, transcription factor binding site, regulatory element ๋ฑ ์๋ฌผํ์ ๊ท๋ชจ์ ๊ฑธ์น ํน์ง์ ๋ณต๊ตฌ. ์ธ ๊ฐ์ง ํด์์ฑ ํ๋ ์์ํฌ ์ ์: representational, computational, mechanistic ์์ค์ ์๊ณ์ ํด์ ํ ๋์
.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ์๋ฌผํ์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ํด์์ฑ์ ๊ดํ ์ฒด๊ณ์ ์ด๊ณ ๊ท ํ ์กํ ๋ฆฌ๋ทฐ๋ฅผ ์ ๊ณตํ๋ฉฐ, sparse autoencoder๊ฐ ๋ด๋ถ ๊ณ์ฐ ์กฐ์ง์ ๊ท๋ช
ํ๋ ์๋ก์ด ๋๊ตฌ์์ ๋ช
ํํ ํ๋ค. ๋ค๋ง ํ์ฅ์ ๋๋ถ๋ถ ์ฐ๊ตฌ๊ฐ peer-reviewed ๊ฒ์ฆ ์ด์ ์ํ์ด๊ณ , ์คํ์ ๊ฒ์ฆ๊ณผ ์ธ๊ณผ์ ๋ฉ์ปค๋์ฆ ๊ท๋ช
์ ๊ฒฝ๋ก๊ฐ ์์ง ํ๋ฆฝ๋์ง ์์, ์ง์ ํ ์๋ฌผํ์ ์ดํด๋ก์ ์ ํ์ด ์์ผ๋ก์ ๊ณผ์ ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
017์ ํธ๋์คํฌ๋จธ ๋ฉ์ปค๋์ฆ ํด์์ ์ต์ ํ๋ฆ์ ์ ๋ฆฌํ์ฌ 3281์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ๋ด๋ถ ํํ ํด์ ๋ฐฉ๋ฒ๋ก ์ ์ง์ ์ ์ธ ์ด๋ก ์ ๊ทผ๊ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ๋ด๋ถ ํํ ํ์ฉ์ด ์๋ ์๊ธฐ ๋ฐ์ฑ ๊ธฐ๋ฐ ๊ธฐ๊ณํ์ต(์๋ฌผํ์ ํ์คํฌ)์ ์ง์คํ๋ ๋์์ ์ฐ๊ตฌ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋ค ์๋ฌผํ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ๋ด๋ถ ํํ(๊ตฌ์กฐ/ํฌ์์ฑ ๋ฑ)์ ํด์ํ๋ ค ์๋ํ์ง๋ง, 3282๋ ์์ยท๊ธฐํ ๊ตฌ์กฐ์ ์ง์ค, 3281์ ํฌ์ ์คํ ์ธ์ฝ๋ ๊ธฐ๋ฐ ํด์์ ์๋ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
What Do Biological Foundation Models Compute ๋
ผ๋ฌธ์ ์๋ฌผํ์ ๋ฐ์ดํฐ์ ์์ฑ๊ณผ ์ ๋ขฐ๋ ๋ฌธ์ ์ ๋ํ ์ค์ฆ์ ๋์ ํด์์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฌผํ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ด ๊ณ์ฐํ๋ feature sparsity ๋ฐ ํํ ํน์ฑ์ ํด์ํ๋ ๋ค๋ฅธ ์ ๊ทผ๋ฐฉ์์ด๋ค.
ํ์ ์ฐ๊ตฌ
344๋ ์๋ฌผ์ ๋ณด ๋ถ์ผ์์ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ์ญํ ์ ์๋ฒ ์ดํ์ฌ 3281์ ์ธ๋ฐํ ๋ด๋ถ ๊ณ์ธต ํด์์ ์ค์ ์๋ฌผํ์ ์๋ฏธ๋ก ์ฐ๊ฒฐํ๋ ํ์ฅ ์ฌ๋ก๊ฐ ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
SAE ๊ธฐ๋ฐ ๋ด๋ถ ๊ตฌ์กฐ ํด์์ ๋์ด์ ์์ ๋ฐ ๊ธฐํํ์ ์๋ฏธ๋ฅผ ์คํ ๋ฃจํ์ ์ฐ๊ณํด ๊ฒ์ฆํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
์๋ช
๊ณผํ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ๋ด๋ถ ์ ์ฌํํ์ OT ๊ธฐ๋ฐ์ผ๋ก ํด์ํ๋ ๋ฑ, sparse autoencoder์ ๊ฒฐํฉํ ๋ด์ฌ์ ํน์ง ์ถ์ถ์ ์ฌํํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
ViraHinter๊ฐ ๋ค๋ฃฌ ๋ฐ์ด์ค ํ์ด๋ฐ์ด์
๋ชจ๋ธ ๋ด๋ถ ํํ์ ๊ดํ ๋ถ์์ ์ฌ๋ ์๊ฒ ๋ค๋ฃจ๊ณ , sparse autoencoder๋ฅผ ํตํด ๋ด๋ถ ๊ณ์ฐ ๊ตฌ์กฐ๋ฅผ ํด์ํฉ๋๋ค.
์์ฉ ์ฌ๋ก
3237์ ๋๊ท๋ชจ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ 3281์ฒ๋ผ ์๋ฌผํ์ ๊ตฌ์กฐ ์ธ์ ๋ฐ ํฌ์ ์คํ ์ธ์ฝ๋ ์์ฉ ๋ฑ ์ค์ ํฌ๋ค๋ฏน ์์ธก์ด๋ ๋จ๋ฐฑ์ง ๊ธฐ๋ฅ ์ถ๋ก ์ ์ ์ฉํ ์ ์์ต๋๋ค.
๋ฐ๋ก /๋นํ
3281 ๋
ผ๋ฌธ์ ๋ฐ์ด์ค ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ๊ณ์ฐ์ ํ๊ณ๋ฅผ ์ง์ ํ๋ฉฐ, 3091์ ์ด๋๊ท๋ชจ ํ์ ์ ๊ทผ์ ํจ์๋ฅผ ์ฌ๊ณ ํ๊ฒ ํฉ๋๋ค.