DrugCLIP: Contrastive drug-disease interaction for drug repurposing

์ €์ž: Yingzhou Lu, Yaojun Hu, Chenhao Li | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

Figure 1: Drug repurposing์˜ ๊ฐœ๋… - ๊ธฐ์กด ์Šน์ธ๋œ ์•ฝ๋ฌผ์„ ์ƒˆ๋กœ์šด ์งˆ๋ณ‘ ์น˜๋ฃŒ์— ์žฌ์‚ฌ์šฉํ•˜๋Š” ๊ณผ์ •

๊ธฐ์กด ์ž„์ƒ์‹œํ—˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์•ฝ๋ฌผ-์งˆ๋ณ‘ ์ƒํ˜ธ์ž‘์šฉ(drug-disease interaction)์„ ํ•™์Šตํ•˜๋Š” ๋Œ€์กฐํ•™์Šต(contrastive learning) ๋ฐฉ๋ฒ• DrugCLIP์„ ์ œ์•ˆํ•˜์—ฌ, ์Œ์„ฑ ์ƒ˜ํ”Œ(negative samples) ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ  ์•ฝ๋ฌผ ์žฌ์ฐฝ์ถœ(drug repurposing) ํšจ์œจ์„ 16.5% ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค.

Motivation

Achievement

Figure 2: ๋ฉ”์‹œ์ง€ ์ „๋‹ฌ ์‹ ๊ฒฝ๋ง(MPNN)์„ ์ด์šฉํ•œ ์•ฝ๋ฌผ ๋ถ„์ž ํ‘œํ˜„ - ์ด์›ƒ ๋…ธ๋“œ๋“ค์˜ ํ‘œํ˜„์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ง‘๊ณ„ํ•˜์—ฌ ๊ทธ๋ž˜ํ”„ ๋ ˆ๋ฒจ ํ‘œํ˜„ ์ƒ์„ฑ
  1. ๋ฐ์ดํ„ฐ์…‹ ๊ธฐ์—ฌ: 2000๋…„๋Œ€ ์ดˆ๋ถ€ํ„ฐ ํ˜„์žฌ๊นŒ์ง€ ์•ฝ 35,000๊ฐœ์˜ ์ž„์ƒ์‹œํ—˜์œผ๋กœ ๊ตฌ์„ฑ๋œ ์•ฝ๋ฌผ ์žฌ์ฐฝ์ถœ ์ „๋ฌธ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ๋ฐ ๊ณต๊ฐœ
  2. ๋ฐฉ๋ฒ•๋ก  ์„ฑ๊ณผ: DrugCLIP ๋ชจ๋ธ์ด ์ตœ๊ณ  ์„ฑ๋Šฅ ๊ธฐ์ค€ ๋Œ€๋น„ Hit Rate์—์„œ 16.5% ํ–ฅ์ƒ ๋‹ฌ์„ฑ
  3. ๋‹ค์ค‘์–‘์‹ ํ‘œํ˜„: ์•ฝ๋ฌผ(๋ถ„์ž ๊ทธ๋ž˜ํ”„)๊ณผ ์งˆ๋ณ‘(ICD ์ฝ”๋“œ ๊ณ„์ธต๊ตฌ์กฐ)์˜ ์„œ๋กœ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ ํ˜•์‹์„ ํ†ต์ผ๋œ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„(embedding space)์œผ๋กœ ํšจ๊ณผ์ ์œผ๋กœ ๋ณ€ํ™˜

How

Figure 3: ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์–ดํ…์…˜ ๋ชจ๋ธ ๊ตฌ์กฐ

์•ฝ๋ฌผ ๋ถ„์ž ํ‘œํ˜„ (Drug Molecule Representation)

์งˆ๋ณ‘ ์ฝ”๋“œ ํ‘œํ˜„ (Disease Code Representation)

๋Œ€์กฐํ•™์Šต ๊ธฐ๋ฐ˜ ์•ฝ๋ฌผ-์งˆ๋ณ‘ ์ƒํ˜ธ์ž‘์šฉ (Contrastive Drug-Disease Interaction Learning)

Originality

Limitation & Further Study

Evaluation

์ดํ‰: DrugCLIP์€ ์•ฝ๋ฌผ ์žฌ์ฐฝ์ถœ์ด๋ผ๋Š” ์‹ค์šฉ์  ๋ฌธ์ œ์— ๋Œ€์กฐํ•™์Šต์„ ์ฐฝ์˜์ ์œผ๋กœ ์ ์šฉํ•˜๊ณ  ํ’ˆ์งˆ ๋†’์€ ์ž„์ƒ์‹œํ—˜ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•จ์œผ๋กœ์จ ์˜์•ฝํ•™ AI ๋ถ„์•ผ์— ์˜๋ฏธ ์žˆ๋Š” ๊ธฐ์—ฌ๋ฅผ ํ•œ ๋…ผ๋ฌธ์ด๋‹ค. ๋‹ค๋งŒ ์ƒ๋ฌผํ•™์  ๊ฒ€์ฆ, ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•œ ์ผ๋ฐ˜ํ™” ๊ฒ€์ฆ, ๊ทธ๋ฆฌ๊ณ  ์˜ˆ์ธก ๊ฒฐ๊ณผ์˜ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ์ œ๊ณ  ์ธก๋ฉด์—์„œ ํ–ฅ์ƒ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
419๋ฒˆ ๋…ผ๋ฌธ์€ LLM์„ ํ™œ์šฉํ•œ ๊ฐ€์„ค ์ƒ์„ฑ๊ณผ์ • ์ž์ฒด๋ฅผ ๋‹ค๋ฃจ๋ฉฐ ๋Œ€์กฐํ•™์Šต ๊ธฐ๋ฐ˜ ์•ฝ๋ฌผ-์งˆ๋ณ‘ ์ƒํ˜ธ์ž‘์šฉ ๋ชจ๋ธ๋ง๊ณผ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋Œ€์กฐํ•™์Šต(contrastive learning) ๋ฐฉ๋ฒ•๋ก ์˜ ์ด๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
556๋ฒˆ ๋…ผ๋ฌธ์€ ์•ฝ๋ฌผ ์„ค๊ณ„์—์„œ abductive reasoning ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•ด DrugCLIP์ฒ˜๋Ÿผ ๊ณผํ•™์  ์ถ”๋ก  ๊ธฐ๋ฐ˜ ์•ฝ๋ฌผ์žฌ์ฐฝ์ถœ์˜ ํ‰๊ฐ€์— ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Protein-ligand ๊ฒฐํ•ฉ ์นœํ™”์„ฑ์˜ local ๊ตฌ์กฐ ์ •๋ณด ํ™œ์šฉ์— ๊ธฐ๋ฐ˜ํ•ด, DrugCLIP์˜ ๋ถ„์ž-์ƒ๋ช…์ •๋ณด ์ƒํ˜ธ์ž‘์šฉ ์˜ˆ์ธก์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์•ฝ๋ฌผ-์งˆ๋ณ‘ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ SAR ์˜ˆ์ธก์„ ์œ„ํ•œ ๋Œ€์กฐํ•™์Šต ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋„์ž…ํ•˜์—ฌ, ๋ถ„์ž ํ™œ์„ฑ ์˜ˆ์ธก ์—ฐ๊ตฌ์˜ ํ•ต์‹ฌ ์ด๋ก ์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์•ฝ๋ฌผ ์žฌ์ฐฝ์ถœ์„ ์œ„ํ•ด ๋‹ค๋ฅธ ๋”ฅ๋Ÿฌ๋‹ ๋ฐฉ๋ฒ•๋ก ์„ ์ ์šฉํ•œ ๋Œ€์•ˆ์  ์ ‘๊ทผ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
DrugAgent๋Š” ์•ฝ๋ฌผ ์žฌ์ฐฝ์ถœ ๋“ฑ ์•ฝ๋ฌผ-์งˆ๋ณ‘ ์ถ”๋ก ์— agent ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์„ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ, DrugCLIP์˜ ๋น„๊ต ๋Œ€์ƒ์œผ๋กœ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
291์€ ๋Œ€๊ทœ๋ชจ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ๋Œ€์‹  contrastive ํ•™์Šต ๊ธฐ๋ฐ˜์˜ drug-disease ์ƒํ˜ธ์ž‘์šฉ ์˜ˆ์ธก ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
291๋ฒˆ ๋…ผ๋ฌธ์€ ์•ฝ๋ฌผ ํƒ์ƒ‰์— LLM ๊ธฐ๋ฐ˜ ๋Œ€๋ฆฌ๋ชจ๋ธ ์ตœ์ ํ™” ์ ‘๊ทผ๋ฒ•์„ ์จ์„œ, 305์™€์˜ ํšจ์œจ์„ฑ ๋ฐ ๋ฐฉ์‹ ๋น„๊ต์— ์œ ์ตํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฏธ๋ณด์œ  ์„ธํฌ์ฃผ์— ๋Œ€ํ•œ ์•ฝ๋ฌผ ๋ฐ˜์‘ ์˜ˆ์ธก์˜ ์ผ๋ฐ˜ํ™”๋ฅผ ์œ„ํ•œ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
DrugCLIP ๋…ผ๋ฌธ์€ ์•ฝ๋ฌผ-์งˆ๋ณ‘ ์ƒํ˜ธ์ž‘์šฉ ์ถ”๋ก ์— ๋Œ€์กฐ์  ๋ชจ๋ธ์„ ์ œ์•ˆํ•ด, DeepCRE์˜ ํ™˜์ž ์ˆ˜์ค€ ์˜ˆ์ธก ๋ฐ ๋„๋ฉ”์ธ ์ผ๋ฐ˜ํ™” ์ ‘๊ทผ๊ณผ ๋น„๊ต๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Drugpilot ๋…ผ๋ฌธ์€ ์•ฝ๋ฌผ ์žฌ์ฐฝ์ถœ์„ parameterized reasoning agent๋กœ ํ’€์–ด, DrugCLIP์˜ ๋Œ€์กฐํ•™์Šต ๊ฐ•ํ™” ์ ‘๊ทผ๊ณผ ๋Œ€์กฐ์ ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž„์ƒ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ์•ฝ๋ฌผ ์žฌ์ฐฝ์ถœ์˜ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ฐ„์ ‘ ์ธ๊ณผ๊ด€๊ณ„ ์ถ”๋ก ์„ ํ†ตํ•œ ์ƒ์˜ํ•™ ์‘์šฉ์˜ ์œ ์‚ฌํ•œ ๋ฐฉ๋ฒ•๋ก ์„ ์ทจํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์•ฝ๋ฌผ ํ›„๋ณด ๊ตฌ์กฐ ๋ณ€ํ™˜ ๋ฌธ์ œ๋ฅผ ๋Œ€์กฐ ํ•™์Šต ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ์ ‘๊ทผํ•˜์—ฌ, 3231์˜ MMPT-RAG์™€ ์„œ๋กœ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ ํ™œ์šฉ๋ฒ•์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
DrugCLIP์€ ๋“œ๋Ÿฌ๊ทธ-์งˆ๋ณ‘ ์ƒํ˜ธ์ž‘์šฉ ์˜ˆ์ธก์— contrastive learning์„ ํ™œ์šฉํ•˜๋Š”๋ฐ, GPS ํ”Œ๋žซํผ์˜ deep-learning ๊ธฐ๋ฐ˜ ์‹œ๊ทธ๋‹ˆ์ฒ˜ ์˜ˆ์ธก๊ณผ ๋น„๊ต๋ชจ๋ธ๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์•ฝ๋ฌผ ์žฌ์ฐฝ์ถœ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ์ถ”๊ฐ€์ ์ธ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
DrugCLIP์˜ ํšจ์œจ์ ์ธ ์•ฝ๋ฌผ-์งˆ๋ณ‘ ์ƒํ˜ธ์ž‘์šฉ ์ถ”๋ก ์„ ๋‹ค์ค‘ ์—์ด์ „ํŠธ์™€ ๋„๊ตฌํ˜• LLM ์œตํ•ฉ์œผ๋กœ ํ™•์žฅํ•œ ์—ฐ๊ตฌ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
3062 ๋…ผ๋ฌธ์€ ๋Œ€์กฐํ•™์Šต์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ญ์ฒด-ํ•ญ์› ์ƒํ˜ธ์ž‘์šฉ๊นŒ์ง€ ๋ฒ”์œ„๋ฅผ ํ™•์žฅํ•˜์—ฌ DrugCLIP์˜ ๋ฐฉ๋ฒ•๋ก ์„ ์‹ฌํ™”์‹œํ‚ต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •