Physical formula enhanced multi-task learning for pharmacokinetics prediction
์ ์: Yuqiang Li, Ruifeng Li, Dongzhan Zhou, Ancheng Shen, Ao Zhang, Mao Su, Mingqian Li, Hongyang Chen, Gang Chen, Yin Zhang, Shufei Zhang, Wanli Ouyang | ๋ ์ง: 2024 | DOI: [๋ฏธ์ ๊ณต] 📄 PDF
Essence
์ฝ๋ํ ์์ธก์ ์ํ ๋ฌผ๋ฆฌ ๊ณต์ ๊ฐํ ๋ค์ค ์์
ํ์ต์ ๊ฐ์. (a) AI ๊ธฐ๋ฐ ์ ์ฝ ๊ฐ๋ฐ์ ๊ณผ์ , (b) ๋ฌผ๋ฆฌ ๊ณต์ ์ ์ฝ์ ์ ๊ฒฝ๋ง์ ํตํฉํ์ฌ ์์
๊ฐ ์ง์ ์ ์ด์ ๋ชฉํ ์ ๋ ฌ ๊ฐํ
๋ณธ ๋
ผ๋ฌธ์ ๋ฌผ๋ฆฌ ๊ณต์(physical formula) ์ ์ฝ์ ๋ค์ค ์์
ํ์ต(multi-task learning)์ ํตํฉํ์ฌ ์ฝ๋ํ(pharmacokinetics)์ 4๊ฐ์ง ํต์ฌ ํ๋ผ๋ฏธํฐ(AUC, CL, Vdss, T1/2)๋ฅผ ๋์์ ์์ธกํ๋ PEMAL ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ ํ๋ ๋ฐ์ดํฐ์ ๋์ ๋
ธ์ด์ฆ ํ๊ฒฝ์์ ๋ฌผ๋ฆฌ ์ ์ฝ์ ํ์ฉํ ๋ช
์์ ์์
๊ฐ ์ฐ๊ฒฐ์ ํตํด ์์ธก ์ ํ๋์ ๊ฒฌ๊ณ ์ฑ์ ํ์ ํ ํฅ์์ํจ๋ค.
Motivation
- Known:
- AI ๊ธฐ๋ฐ ์ ์ฝ ๊ฐ๋ฐ(AIDD)์ ์ฝ๋ํ ์์ธก์ ํตํด ์ฉ๋, ์์ ์ฑ, ์ ํจ์ฑ ๊ฒฐ์ ์ ํ์์ ์ญํ ์ํ
- ๊ธฐ์กด ๊ธฐ๊ณํ์ต์ ์์์
์ผ๋ก ์ค๊ณ๋ ๋ถ์ ์์ ์(descriptor) ๋๋ ์ง๋ฌธ(fingerprint)์ ์์กดํ๋ฉฐ ํํ๋ ฅ ์ ํ
- ๋ฅ๋ฌ๋์ ๋ถ์ ๊ตฌ์กฐ์์ ์๋์ผ๋ก ํน์ง ์ถ์ถ ๊ฐ๋ฅํ์ง๋ง ๋จ์ผ ์์
(single-task) ๋ชจ๋ธ์ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ํด๊ฒฐ ๋ฏธํก
- Gap:
- ์ฝ๋ํ ํ๋ผ๋ฏธํฐ๋ค(AUC, CL, Vdss, T1/2) ๊ฐ์ ๋ฌผ๋ฆฌ์ ๊ด๊ณ(AUCรCL=Kโ, CLรTโ/โ=VdssรKโ)๋ฅผ ํ์ฉํ์ง ์์
- ๊ธฐ์กด ๋ค์ค ์์
ํ์ต์ ์๋ฌต์ ํน์ง ๊ณต์ ์๋ง ์์กดํ์ฌ ๋ช
์์ ์ ์ฝ ๋ถ์ฌ
- ์ต์ ์คํ์ ๊ณ ๋น์ฉ ๋ฐ ๋
ธ์ด์ฆ๋ก ์ธํ ์ฌ๊ฐํ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฏธํด๊ฒฐ
- Why:
- ๋ฌผ๋ฆฌ ๊ณต์์ ์ ๊ฒฝ๋ง์ ํตํฉํ๋ฉด ์์
๊ฐ ๋ช
์์ ์ ์ฝ์ ํตํ ์ง์ ์ ์ด ํจ์จ์ฑ ์ฆ๋
- ์ํธ ์ ์ฝ์ ๋จ์ผ ์์
์ ๋ถํ์ค์ฑ ๊ฐ์ ๋ฐ ๋
ธ์ด์ฆ ๊ฐ๊ฑด์ฑ ํฅ์ ๊ฐ๋ฅ
- Approach:
- 3๋จ๊ณ ํ๋ ์์ํฌ: (Stage I) ์์จ ์ง๋ํ์ต(self-supervised learning)์ผ๋ก ์ผ๋ฐ ๋ถ์ ํํ ํ์ต, (Stage II) ๋ผ๋ฒจ๋ง๋ ์ฝ๋ํ ๋ฐ์ดํฐ(CL, Vdss, T1/2)๋ก ์์
๋ณ ์ฌ์ ํ์ต, (Stage III) ๋ฌผ๋ฆฌ ๊ณต์ ์ ์ฝ์ ํตํ ๋ค์ค ์์
ํ์ต
Achievement
PEMAL๊ณผ GIN์ ์ฝ๋ํ ์์ธก ์๊ฐํ. (a-d) ๊ฐ ํ๋ผ๋ฏธํฐ๋ณ ์์ธก๊ฐ๊ณผ ๊ด์ธก๊ฐ์ ์๊ด๊ด๊ณ
- ๋ฐ์ดํฐ ํจ์จ์ฑ ๊ทน๋ํ: ๊ณต๊ฐ ๋ฐ์ดํฐ 170๊ฐ ํฌ์ธํธ๋ง์ผ๋ก๋ ์ ํต ๊ธฐ๊ณํ์ต(Random Forest, Gaussian Process, XGBoost) ๋ฐ ๋จ์ผ ์์
๋ฅ๋ฌ๋(GIN) ์ด๊ณผ ์ฑ๋ฅ ๋ฌ์ฑ. ๋ฌผ๋ฆฌ ์ ์ฝ์ด ์๋ฌต์ ํน์ง ๊ณต์ ๋ณด๋ค ๋ ํจ๊ณผ์ ์ธ ์ง์ ์ ์ด ์คํ
- ๋
ธ์ด์ฆ ๊ฐ๊ฑด์ฑ ์ฐ์์ฑ: ๋ฐ์ดํฐ์ ์๋์ ๋
ธ์ด์ฆ ์ถ๊ฐ ์ GIN์ ์ฑ๋ฅ ๊ธ๊ฒฉํ ์ ํํ๋, PEMAL์ ์์
๊ฐ ๋ฌผ๋ฆฌ์ ์ ์ฝ์ผ๋ก ์ธํด ์๋์ ์ผ๋ก ์์ ์ ์์ธก ์ ์ง. ๋
ธ์ด์ฆ ํ๊ฒฝ์์์ ์ฐ์์ฑ์ ์ต์ ์คํ์ ๊ณ ์ ํ ๋ถํ์ค์ฑ ํน์ฑ ๋ฐ์
- ๋ค์ํ ๋ฐ์ดํฐ ํฌ์์ฑ ์กฐ๊ฑด ๋์: ํ๋ จ ๋ฐ์ดํฐ ๊ท๋ชจ๋ฅผ ๋จ๊ณ์ ์ผ๋ก ๊ฐ์์ํฌ ๋ PEMAL์ ์ฑ๋ฅ ์ ํ์จ์ด GIN๋ณด๋ค ํ์ ํ ๋ฎ์. ๊ทน๋๋ก ์ ํ๋ ์ํ์์๋ ์ผ๋ฐํ ์ฑ๋ฅ ์ ์ง
How
๋ค์ํ ๋ฐ์ดํฐ ๋ณผ๋ฅจ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋น๊ต. PEMAL๊ณผ GIN์ ๊ฐ ์ฝ๋ํ ํ๋ผ๋ฏธํฐ๋ณ ์ฑ๋ฅ ๋ณํ
Stage I - ์์จ ์ง๋ํ์ต (Dual-level Reconstruction):
- ์์(atom) ๋ถ๊ธฐ: ๋ฌด์์ ๋ง์คํน๋ ์์์ ๋ํด ์ฌ๊ตฌ์ฑ ์์
์ํ. MAE ์์ค๋ก ๊ฐ๋
- ๋ชจํฐํ(motif) ๋ถ๊ธฐ: ๊ธฐ๋ฅ ๊ทธ๋ฃน ์์ค์ ์ ๋ณด ํฌ์ฐฉ. ๋ชจํฐํ ํน์ง ๋ง์คํน ๋ฐ ์ฌ๊ตฌ์ฑ
- ๊ต์ฐจ ์์ค ๋์กฐํ์ต(cross-level contrastive learning): ๋์ผ ๋ถ์ ๋ด ์์-๋ชจํฐํ ๊ฑฐ๋ฆฌ ์ต์ํ, ์๋ก ๋ค๋ฅธ ๋ถ์ ๊ฐ ๊ฑฐ๋ฆฌ ์ต๋ํ๋ก ์ํธ์์ฉ ๊ฐํ
Stage II - ์ฝ๋ํ ๋ฐ์ดํฐ ์ฌ์ ํ์ต:
- Stage I์์ ํ์ต๋ ๊ทธ๋ํ ์ธ์ฝ๋ ๋ก๋
- CL, Vdss, T1/2์ ๋ํด ๊ฐ๊ฐ ์์ ์ฐ๊ฒฐ์ธต(fully connected layer) ์ถ๊ฐ
- ๋ก๊ทธ ๋ณํ๋ ์์ธก๊ฐ๊ณผ ๊ด์ธก๊ฐ ๊ฐ MAE ์์ค๋ก ๊ฐ๋
- AUC๋ ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ์ด ๋จ๊ณ์์ ์ ์ธ (Stage III์์ ๋ฌผ๋ฆฌ ๊ณต์์ผ๋ก ์ ๋)
Stage III - ๋ฌผ๋ฆฌ ๊ณต์ ๊ฐํ ๋ค์ค ์์
ํ์ต:
- 3๊ฐ ๋ณ๋ ฌ ๋ถ๊ธฐ: CL, Vdss, T1/2 ๊ฐ๊ฐ ์์ธก (Stage II ๊ฐ์ค์น ์์)
- ๋ฌผ๋ฆฌ ๊ณต์ ์ ์ฝ ์ ์ฉ:
- ์(1): AUC ร CL = Kโ (Kโ ์์) โ AUC ์ ์ถ
- ์(2): CL ร Tโ/โ = Vdss ร Kโ (Kโ ์์) โ ๋ช
์์ ์์
๊ฐ ์ ์ฝ
- ๊ฐ๋
์ ํธ: 4๊ฐ ํ๋ผ๋ฏธํฐ์ MAE ์์ค(L_AUC, L_CL, L_Vdss, L_Tโ/โ) + ์(2)์ ๋ฌผ๋ฆฌ ๊ณต์ ์ ์ฝ
Originality
- ๋ฌผ๋ฆฌ ์ ์ฝ์ ์ ๊ฒฝ๋ง ํตํฉ: ๊ธฐ์กด ๋ค์ค ์์
ํ์ต์ ์๋ฌต์ ํน์ง ๊ณต์ ๋ฅผ ๋์ด, ์ฝ๋ํ์ ๋ฌผ๋ฆฌ ๊ด๊ณ์์ ๋ช
์์ ์ ์ฝ์ผ๋ก ํตํฉํ ํ์ ์ ์ ๊ทผ. ์ฝ๋ํ์ ๋ด์ฌ๋ ๋ฉ์ปค๋์ฆ์ ์ํ์ ์ผ๋ก ์ธ์ฝ๋ฉ
- ์ด์ค ์์ค ์ฌ์ ํ์ต ์ ๋ต: ์์์ ๋ชจํฐํ ์์ค์ ๋์ ์ฌ๊ตฌ์ฑ์ผ๋ก ๋ถ์์ ๊ธฐ๋ณธ ๊ตฌ์ฑ๊ณผ ๊ธฐ๋ฅ ๊ทธ๋ฃน ๋ชจ๋ ํฌ์ฐฉ. ๊ธฐ์กด ์์ฑ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์์ ์์ค๋ง์ ํ๊ณ ๊ทน๋ณต
- ํฌ์ ๋ฐ์ดํฐ ํ๊ฒฝ ์ต์ ํ: ์์จ ์ง๋ํ์ต(unlabeled)๊ณผ ๋ผ๋ฒจ๋ง๋ ๋
ธ์ด์ฆ ๋ฐ์ดํฐ์ 2๋จ๊ณ ์ฌ์ ํ์ต ํตํฉ์ผ๋ก ์ ํ๋ ๊ณ ํ์ง ๋ผ๋ฒจ ํจ์จ์ ํ์ฉ
- ๋ค์ค ์์
๊ฐ ๋ช
์์ ์ ๋ ฌ: ๋ฌผ๋ฆฌ ๊ณต์์ ํตํ ์์
๊ฐ ์ํธ ์ ์ฝ์ด ๋จ์ผ ์์
์ ๋ถํ์ค์ฑ ๊ฐ์ ๋ฐ ๋
ธ์ด์ฆ ๊ฐ๊ฑด์ฑ ํฅ์์ ๋์์ ๋ฌ์ฑํ๋ ์ฐ์ํ ์ค๊ณ
Limitation & Further Study
- ๋ฌผ๋ฆฌ ๊ณต์ ์ ์ฝ์ ๋ณดํธ์ฑ ํ์ : AUC, CL, Vdss, T1/2 ๊ฐ์ ๊ด๊ณ์์ ํน์ ์ฝ๋ํ ๋ชจ๋ธ์ ๊ธฐ๋ฐ. ๋ค๋ฅธ ์ฝ๋ฌผ ์ฑ์ง์ด๋ ์๋ฌผ ์์คํ
์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธํก. ํฅํ ๋ค์ํ ๋ฌผ๋ฆฌ/ํํ ์ ์ฝ ํตํฉ ํ์
- ๋ฐ์ดํฐ์
์ ์ ํ์ฑ: ๊ณต๊ฐ 170๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๋ง ์ฌ์ฉ. ์ ์ฝ์ ํ๊ฒฝ์์์ ์ฑ๋ฅ์ด์ง๋ง, ๋ณด๋ค ๊ด๋ฒ์ํ ์์ ๋ฐ์ดํฐ์
๊ฒ์ฆ ๋ถ์ฌ
- ์์ Kโ, Kโ์ ์ถ์ ๋ฐฉ์ ๋ช
ํํ ํ์: ๋ฌผ๋ฆฌ ๊ณต์์ ์์ ๊ฐ ๊ฒฐ์ ๊ณผ์ ์ด ์์ธํ ๊ธฐ์ ๋์ง ์์. ์ผ๋ฐํ ๋ฐ ์ฌํ์ฑ ๊ฐํ ์ํด ๋ช
์์ ์ค์ ๋ฐฉ๋ฒ ํ์
- ํด์์ฑ(interpretability) ๊ฐํ: ๋ชจ๋ธ์ด ํน์ ์์ธก์ ๋์ถํ๋ ๋ฌผ๋ฆฌ์ ๋ฉ์ปค๋์ฆ์ ๋ํ ํด์ ์ ํ. ํํ์/์ฝํ์์ ์ ๋ขฐ์ฑ ๊ตฌ์ถ ์ํด ์ฃผ์ ๋ถ์ ํน์ฑ์ ๊ธฐ์ฌ๋ ๋ถ์ ์ถ๊ฐ ํ์
- ๋ค๋ฅธ ์ฝ๋ํ ํ๋ผ๋ฏธํฐ ํ์ฅ: ํ์ฌ 4๊ฐ ํ๋ผ๋ฏธํฐ๋ง ๋ค๋ฃธ. ๊ฒฝ๊ตฌ ์๋ฌผ์ด์ฉ๋ฅ (F), ํ์ฒญ ๋จ๋ฐฑ์ง ๊ฒฐํฉ๋ฅ ๋ฑ ์ถ๊ฐ ํ๋ผ๋ฏธํฐ๋ก์ ํ์ฅ ์ฐ๊ตฌ
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๋ฌผ๋ฆฌ ์ ์ฝ์ ์ ๊ฒฝ๋ง์ ๋ช
์์ ์ผ๋ก ํตํฉํ์ฌ ํฌ์ํ๊ณ ๋
ธ์ด์ฆ๊ฐ ๋ง์ ์ฝ๋ํ ๋ฐ์ดํฐ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ๊ธฐ์ ์ ๊ธฐ์ฌ๋ ๋์ ์ฐ๊ตฌ์ด๋ค. ํนํ ์ด์ค ์์ค ๋ถ์ ํํ๊ณผ 2๋จ๊ณ ์ฌ์ ํ์ต ์ ๋ต์ ํ์ ์ ์ด๋ฉฐ, ์ฝ๋ํ์ ๋ฌผ๋ฆฌ ๊ด๊ณ์ ํ์ฉ์ ๋๋ฉ์ธ ์ง์์ ํจ๊ณผ์ ์ธ์ฝ๋ฉ์ ๋ณด์ฌ์ค๋ค. ๋ค๋ง ์์ ๊ฒฐ์ , ์์คํจ์ ์ค๊ณ, ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๊ด๋ จ ์ค๋ช
์ด ๋ณด์๋๋ฉด ๋์ฑ ๊ฒฌ๊ณ ํ ์ฐ๊ตฌ๊ฐ ๋ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ์ ์ ๋ฌธ์ฑ ๋ถํฌ์ AI ํตํฉ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ ํ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
345๋ฒ ๋
ผ๋ฌธ์ ๋ถ์ ์ค๊ณ ๋ฐ ์์ธก์์ ๋ค์ค๋ชจ๋ฌยท๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ์ญํ ์ ๋ถ์ํ์ฌ PEMAL ํ๋ ์์ํฌ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ค๋ช
ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฐ์ด์ค ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ์ ๋ฐ์ ํ์ฉ ํ๋ ์์ํฌ๊ฐ ๋ฌผ๋ฆฌ ์ ์ฝ ๊ธฐ๋ฐ ์์ธก์ ์ด์์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฌผ๋ฆฌํ์ -๋ฅ๋ฌ๋ ํ์ด๋ธ๋ฆฌ๋ ํ๋ ์์ํฌ๋ฅผ ์ด์ฉํ ์กฐํฉ์ ์ฝ๋ํ ์์ธก์ ๋ํ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์คํ์ค ์๋ํ์ AI ํตํฉ์ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ ๊ทผํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฝ๋ํ์ ํน์ ๊ณ์ ์์ธก์ด ์๋, ๋จ๋ฐฑ์ง ๊ตฌ์กฐ ๋ฐ ํน์ด์ฑ ํ๋ฅ ๋ชจ๋ธ ์ ๊ทผ์ผ๋ก ๋ค์ค ํน์ง ์์ธก ์คํ์ ์ํํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ์ฐ๊ตฌ ๋ฐ์ดํฐ์ ๊ฒฌ๊ณ ํ ์ฐํฉํ์ต์ ์ง์คํ ๋ฐฉ๋ฒ์ผ๋ก, ์ ํ๋ ๋ฐ์ดํฐ ํ๊ฒฝ์์์ ๋ชจ๋ธ๋ง ๋์์ด๋ค.
ํ์ ์ฐ๊ตฌ
306๋ฒ ๋
ผ๋ฌธ์ ๋จ์ผ์ธํฌ ๊ธฐ๋ฐ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ํจ์จ์ ํ๋๊ณผ ์ค์ ์ฝ๋ฌผ ๋ฐ์ ์์ธก์ ์ด์ ์ ๋ง์ถ์ด, ์ฝ๋ํ ์์ธก(618)๊ณผ ์ฐ๊ณ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
์ฝ๋ฌผ ์ฐ๊ตฌ ๋ฐ ๊ณ ์ฐจ์ ํ์์์ ๋ฌผ๋ฆฌ์ ์ ๋ณด ์ตํฉ ๋ค์ค๊ณผ์ ํ์ต ๊ตฌ์กฐ ๋
ผ์๊ฐ ๋ฉํ๋ฌผ๋ฆฌ ์คํ์ต์ ํ ๋ฌธ์ ์ ๊ธด๋ฐํ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์