Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ Transformer์ ์๊ธฐ์ฃผ๋ชฉ ๋ฉ์ปค๋์ฆ์ ํตํด DNA ์์ด๋ก๋ถํฐ์ ์ ์ ์ ๋ฐํ ์์ธก์ด๋ผ๋ ์ค๋ ๋ฌธ์ ๋ฅผ ์ค์ง์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ๋ค์ํ ์๋ฌผํ์ ๊ฒ์ฆ์ ํตํด ๋ชจ๋ธ์ ์๋ฌผํ์ ํ๋น์ฑ๊น์ง ์
์ฆํ ๋งค์ฐ ๋์ ์์ค์ ์ฐ๊ตฌ์ด๋ค. ํนํ ์ฅ๊ฑฐ๋ฆฌ ๊ท์ ์ํธ์์ฉ ํตํฉ์ด๋ผ๋ ์๋ฌผํ์ ์ง๊ด์ ๊ธฐ์ ์ ์ผ๋ก ๊ตฌํํ๊ณ , ์ธ๊ฐ ์ ์ ํ์ ์ฌ๋ฌ ์์ฉ ๋ถ์ผ์์ ์ฆ๊ฐ์ ์ธ ์์ ๊ฐ๋ฅ์ฑ์ ์ ์ํ ์ ์์ ๋์ด ํ๊ฐ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
SCANPY๋ ๋๊ท๋ชจ ๋จ์ผ์ธํฌ ์ ์ ์ ๋ฐํ ๋ฐ์ดํฐ์ ํจ์จ์ ๋ถ์์ ์ํ ์ํํธ์จ์ด๋ก, ๋ณธ ์ฐ๊ตฌ์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
100kb ์ฅ๊ฑฐ๋ฆฌ ๊ท์ ์ ๋ณด๋ฅผ Transformer์์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ๋ฐฉ๋ฒ๋ก ์ด AlphaGenome์ ๋๊ท๋ชจ DNA-์ ์ ์ฒด ๋ชจ๋ ์์ธก์ ์ง์ ์ ์ธ ์๊ฐ์ ์ค๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
302 ๋
ผ๋ฌธ์ ์ ์ ์ ๋ฐํ ์์ธก๊ณผ ์ํ์ค ๊ธฐ๋ฐ ๊ธฐ๋ฒ์ ํจ์จํ ์ ๋ต์ ๋ค๋ค, 483์์ ์ ์ํ๋ ์ธ๊ณผ ์กฐ์ ์์ ๊ธฐ๋ฐ ํ๋ ์์ํฌ์ ๊ธฐ๋ฐ ์ฐ๊ตฌ๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
PLM์ ์์ด ํจํด ํ์ต ๋ฐฉ์์ ๋ํ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ ์ ์ฒด ์์ด ๊ธฐ๋ฐ ์ ์ ์ ๋ฐํ ์์ธก์ ํ์ค์ ์ ๊ทผ๋ฒ์ ๊ฐ๊ดํด MEIsensor ๊ฐ์ ์์ด-๊ธฐ๋ฐ deep learning ์ฐ๊ตฌ์ ์์ด๊ฐ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
DNA ์์ด๋ก ์ ์ ์ ๋ฐํ์ ์์ธกํ๋ ๋ฌธ์ ์ ๋นํด, ๋ณธ ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ๋จ์ผ์ธํฌ ๋ฐ์ดํฐ๋ฅผ ํตํฉ ๋ถ์ํ๋ ๋์์ ์ฐ๊ตฌ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Transformer ๊ธฐ๋ฐ ๊ฒ๋ ๊ธฐ์ด ๋ชจ๋ธ๋ก ์ ์ ์ ๊ท์ ์์ธก์ ์ํํ๋ ๋์์ ์ ๊ทผ๋ฒ์ด๋ค
๋ค๋ฅธ ์ ๊ทผ
DNA ์์ด๋ก๋ถํฐ ์ ์ ์ ๋ฐํ์ ์์ธกํ๋ ์ ์ฌํ Transformer ๊ธฐ๋ฐ ๋ฅ๋ฌ๋ ์ ๊ทผ๋ฒ์ ์ทจํ๋ ์ฐ๊ตฌ์ด๋ค
๋ค๋ฅธ ์ ๊ทผ
์๊ธฐ์ฃผ๋ชฉ ๋ฉ์ปค๋์ฆ์ ํ์ฉํ์ฌ ๊ฒ๋ ์์ด์ ์ ์ ์ ๊ท์ ๋ฅผ ๋ชจ๋ธ๋งํ๋ ๋์์ ์ฐ๊ตฌ์ด๋ค
๋ค๋ฅธ ์ ๊ทผ
DNA ์์ด ๊ธฐ๋ฐ์ ์ ์ ์ ๋ฐํ ์์ธก ๋ฌธ์ ๋ฅผ LLM, ํธ๋์คํฌ๋จธ ๋ฑ ๋ค์ํ ์ ๊ทผ์ผ๋ก ์๋ํ ๋
ผ๋ฌธ์ผ๋ก์ ์๋ก ๋ค๋ฅธ ํนํ ๋ชจ๋ธ์ ๊ฐ์ ์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ ์ ์ ๋ฐํ ์์ธก ๋ฌธ์ ์์ ์ํ์ค์ ๊ธฐ๋ฅ ๋ฐ์ดํฐ๋ฅผ ๊ฒฐํฉํ๋ ๋์์ ์ ๊ทผ๋ฒ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋จ์ผ์ธํฌ ์์ค ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ๋ฅผ ํตํฉ ๋ถ์ํ๋ WNN ๋ฐฉ๋ฒ๋ ์ ์ ์ ๋ฐํ ์์ธก์ ์ ๋ฐ๋๋ฅผ ๋์ด๊ธฐ ์ํ ํ์ฅ ์ฐ๊ตฌ๋ก ๋ณผ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ์ผ๋ก ์ ์ ์ ์กฐ์ ๋คํธ์ํฌ ๋ฐ๊ฒฌ์ ์๋ํ LLM4GRN์ ๋ณธ ๋
ผ๋ฌธ์ ์์ธก ๋ชจ๋ธ์ ๋ฐ์ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Effective gene expression prediction from sequence ๋
ผ๋ฌธ์ ์ํ์ค ๊ธฐ๋ฐ ์ ์ ์ ๋ฐํ ์์ธก์ ๋ค๋ค, edgePython์ ๋ค์ํ ์์ธก ๋ฐ ๋ถ์ ๋ฐฉ๋ฒ๋ก ์ ์ต์ ๋ฅ๋ฌ๋ ๊ธฐ๋ฒ๊ณผ ์ฐ๊ฒฐํด์ค๋๋ค.
์์ฉ ์ฌ๋ก
MMC ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ์ฐจํธ ์ดํด๋ผ๋ ๋ณตํฉ ์๋ช
๊ณผํ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋ฌธ์ ์ LMM์ ์ ์ฉํ์ฌ, DNA ์์ด-๋ฐํ ์์ธก ๊ตฌ์กฐ์ ์ค์ ๋ฐ์ดํฐํด์ ์ฐ๊ฒฐ๊ณ ๋ฆฌ๋ฅผ ์ ์ํฉ๋๋ค.
์์ฉ ์ฌ๋ก
์ฑ๊ธ์
์ ์ ์ ๋ฐํ ๋ฑ ์ค์ ๋ฐ์ด์ค ๋น
๋ฐ์ดํฐ์์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์์ธก์ ์ ์ฉ์ฌ๋ก๋ก, sequence-to-expression ๋ฌธ์ ํด๊ฒฐ์ ์ค์ ์ฑ๊ณผ ํ๊ณ๋ฅผ ๋ณด์ฌ์ค๋ค.