From General-Purpose to Disease-Specific Features: Aligning LLM Embeddings on a Disease-Specific Biomedical Knowledge Graph for Drug Repurposing

์ €์ž: | ๋‚ ์งœ: 2026-03-07 | URL: https://www.biorxiv.org/content/10.64898/2026.03.07.707871v1 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ์งˆํ™˜ ํŠนํ™” ์ง€์‹ ๊ทธ๋ž˜ํ”„ ์œ„์ƒ ๊ตฌ์กฐ์™€ ์ผ๋ฐ˜์šฉ๋„ LLM ์ž„๋ฒ ๋”ฉ์„ ์ •๋ ฌํ•˜๋Š” CLEAR ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, ์•Œ์ธ ํ•˜์ด๋จธ๋ณ‘ ๋ฐ ๊ด€๋ จ ์น˜๋งค(ADRD) ์•ฝ๋ฌผ ์žฌ์ฐฝ์ถœ ์ž‘์—…์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•œ๋‹ค. ๋‹ค์ค‘ ๋ชจ๋‹ฌ ํ‘œํ˜„(LLM ์ž„๋ฒ ๋”ฉ, ์•ฝ๋ฌผ-์งˆํ™˜-๋‹จ๋ฐฑ์งˆ ๊ด€๊ณ„, ๋„คํŠธ์›Œํฌ ์‹ ํ˜ธ)์„ ์ฃผ์˜ ๊ธฐ๋ฐ˜ ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง์œผ๋กœ ์œตํ•ฉํ•˜์—ฌ ์งˆํ™˜ ํŠนํ™” ๋งฅ๋ฝ์„ ์ธ์ฝ”๋”ฉํ•œ ํ†ตํ•ฉ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์„ ํ•™์Šตํ•œ๋‹ค.

Motivation

Achievement

Figure 3

Fig. 3 | CLEAR aligns feature space to validate relationships of five FDA-approved AD drugs:

์ฃผ์š” ์„ฑ๊ณผ: 1) ๋ฒค์น˜๋งˆํฌ ํ‰๊ฐ€ - 5๊ฐœ ์•ฝ๋ฌผ-์งˆํ™˜ ์—ฐ๊ด€์„ฑ ์˜ˆ์ธก ๊ณผ์ œ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ, F1 score ์ตœ๋Œ€ 30% ํ–ฅ์ƒ. 2) ์ƒ๋ฌผํ•™์  ์ผ๊ด€์„ฑ - CLEAR๊ฐ€ ํ•™์Šตํ•œ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์ด ์ƒ๋ฌผํ•™์ ์œผ๋กœ ์ผ๊ด€์„ฑ ์žˆ์œผ๋ฉฐ, FDA ์Šน์ธ AD ์•ฝ๋ฌผ๋“ค์˜ ์•Œ๋ ค์ง„ ์น˜๋ฃŒ ๊ด€๊ณ„๋ฅผ ์ •ํ™•ํžˆ ์žฌ๊ตฌ์„ฑ. 3) ์•ฝ๋ฌผ ์žฌ์ฐฝ์ถœ ํ›„๋ณด - ADRD(์•Œ์ธ ํ•˜์ด๋จธ๋ณ‘, ํŒŒํ‚จ์Šจ๋ณ‘ ๊ด€๋ จ ์น˜๋งค, Lewy body ์น˜๋งค) ์•ฝ๋ฌผ ์žฌ์ฐฝ์ถœ ํ›„๋ณด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์‹๋ณ„ ๋ฐ ์šฐ์„ ์ˆœ์œ„ํ™”. 4) ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ - ์‹ฌํ˜ˆ๊ด€์งˆํ™˜, ์ž๊ฐ€๋ฉด์—ญ์งˆํ™˜, ๋Œ€์‚ฌ์งˆํ™˜ ๋“ฑ ๋‹ค์–‘ํ•œ ์งˆํ™˜ ๋ฒ”์ฃผ์— ํ™•์žฅ ์ ์šฉ ๊ฐ€๋Šฅํ•จ์„ ์ œ์‹œ.

How

Figure 3

Fig. 3 | CLEAR aligns feature space to validate relationships of five FDA-approved AD drugs:

โ€ข ๋‹ค์ค‘ ๋ชจ๋‹ฌ LLM ํŠน์ง•(MoLFormer, BioBERT, ESM-2)์„ ๋‹จ์ผ ์ง€์‹ ๊ทธ๋ž˜ํ”„๋กœ ํ†ตํ•ฉํ•˜์—ฌ ํ˜ธํ™˜๋˜์ง€ ์•Š๋Š” ๊ณ ์ฐจ์› ๊ณต๊ฐ„์˜ ์ •๋ ฌ ๋ฌธ์ œ ํ•ด๊ฒฐ. โ€ข ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๊ธฐ๋ฐ˜ ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง์„ ์‚ฌ์šฉํ•˜์—ฌ ์•ฝ๋ฌผ-์งˆํ™˜-๋‹จ๋ฐฑ์งˆ ๊ฐ„ ๋น„์„ ํ˜• ์œ„์ƒ ๊ด€๊ณ„ ํ•™์Šต. โ€ข ADRD ํŠนํ™” ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ตฌ์ถ•์œผ๋กœ ์ผ๋ฐ˜์šฉ๋„ LLM ์ž„๋ฒ ๋”ฉ์— ์งˆํ™˜ ํŠนํ™” ๋งฅ๋ฝ ์ฃผ์ž…. โ€ข ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹ 5๊ฐœ์™€ ADRD ์‹ค์ œ ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ํ†ตํ•ด ์„ฑ๋Šฅ ๊ฒ€์ฆ. โ€ข ์•Œ๋ ค์ง„ ์•ฝ๋ฌผ-์งˆํ™˜ ์—ฐ๊ด€์„ฑ๊ณผ ๋ฌธํ—Œ ๊ฒ€์ƒ‰์œผ๋กœ ์ƒ๋ฌผํ•™์  ์ผ๊ด€์„ฑ ํ™•์ธ.

Originality

โ€ข ์ผ๋ฐ˜์šฉ๋„ LLM ์ž„๋ฒ ๋”ฉ๊ณผ ์งˆํ™˜ ํŠนํ™” ์ง€์‹ ๊ทธ๋ž˜ํ”„ ์œ„์ƒ์„ ์ •๋ ฌํ•˜๋Š” novel framework ์ œ์•ˆ์œผ๋กœ, ๊ธฐ์กด์˜ LLM ๋˜๋Š” KG ์ค‘ ํ•˜๋‚˜๋ฅผ ์„ ํƒ์ ์œผ๋กœ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ์‹์„ ๋„˜์–ด ํ†ตํ•ฉ์  ์ ‘๊ทผ ์ œ์‹œ. โ€ข ์•ฝ๋ฌผ(MoLFormer), ์งˆํ™˜(BioBERT), ๋‹จ๋ฐฑ์งˆ(ESM-2) ๋…ธ๋“œ์— ๊ฐ๊ฐ ์ตœ์ ํ™”๋œ LLM ๋ชจ๋ธ์„ ์ ์šฉํ•˜๋Š” ๋‹ค์ค‘ ๋ชจ๋‹ฌ ํŠน์ง• ์ดˆ๊ธฐํ™” ์ „๋žต์€ ๊ธฐ์กด AMVL ๋“ฑ๊ณผ ๋‹ฌ๋ฆฌ ์ƒ๋ฌผํ•™์  entity๋ณ„ ๋งž์ถคํ˜• ํ‘œํ˜„ ์ œ๊ณต. โ€ข ์ฃผ์˜ ๊ธฐ๋ฐ˜ ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง์œผ๋กœ ์ผ๋ฐ˜์šฉ๋„ ์ž„๋ฒ ๋”ฉ์˜ ์ฐจ์› ํ˜ธํ™˜์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋ฉด์„œ ์งˆํ™˜ ํŠนํ™” ์‹ ํ˜ธ๋ฅผ ๋ถ€ํ˜ธํ™”ํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ novelํ•œ ์œตํ•ฉ ๋ฐฉ์‹.

Limitation & Further Study

ํ•œ๊ณ„: (1) ADRD ํŠนํ™” ์ง€์‹ ๊ทธ๋ž˜ํ”„์—๋งŒ ์ ์šฉ๋˜์—ˆ์œผ๋ฉฐ, ๋‹ค๋ฅธ ์งˆํ™˜ ๋ฒ”์ฃผ(์‹ฌํ˜ˆ๊ด€์งˆํ™˜ ๋“ฑ)์—์„œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ๋ฏธ๊ฒ€์ฆ. (2) ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹ ์™ธ์— ADRD ์‹คํ—˜์ด ๊ณต๊ฐœ ์ž„์ƒ ์‹œํ—˜ ๋ฐ์ดํ„ฐ ๋“ฑ ๋…๋ฆฝ์  ์™ธ๋ถ€ ๊ฒ€์ฆ ๋ถ€์กฑ. (3) ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ๋ถ„์„(attention weight ๋ถ„์„) ๋ฏธ์ œ์‹œ๋กœ ๋ชจ๋ธ ํˆฌ๋ช…์„ฑ ์ œํ•œ. (4) ๊ณ„์‚ฐ ๋ณต์žก๋„ ๋ฐ ํ™•์žฅ์„ฑ(์•ฝ๋ฌผยท์งˆํ™˜ยท๋‹จ๋ฐฑ์งˆ ์ˆ˜ ์ฆ๊ฐ€ ์‹œ)์— ๋Œ€ํ•œ ๋ถ„์„ ๋ถ€์žฌ. (5) ์‚ฌ์šฉ๋œ LLM ๋ชจ๋ธ(BioBERT, ESM-2 ๋“ฑ) ๋ฒ„์ „ ๋ฐ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ์‹œ๊ฐ„์  ํŽธํ–ฅ์ด ๊ฒฐ๊ณผ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ ๋ฏธ๊ฒ€ํ† . ํ›„์† ์—ฐ๊ตฌ: (1) ๋‹ค์–‘ํ•œ ์งˆํ™˜ ๋ฒ”์ฃผ์— ๋Œ€ํ•œ CLEAR ํ”„๋ ˆ์ž„์›Œํฌ ์ ์šฉ ๋ฐ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ํ‰๊ฐ€. (2) ์ž„์ƒ ์‹œํ—˜ ๋‹จ๊ณ„ ์•ฝ๋ฌผ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ์™ธ๋ถ€ ๊ฒ€์ฆ. (3) ์ฃผ์˜ ์Šค์ฝ”์–ด ๋ถ„์„์„ ํ†ตํ•œ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ๊ฐ•ํ™”. (4) ๋” ์ตœ์‹ ์˜ LLM ๋ชจ๋ธ(GPT-4 ๊ธฐ๋ฐ˜ ์ž„๋ฒ ๋”ฉ ๋“ฑ) ํ†ตํ•ฉ ๊ฒ€ํ† .

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์ผ๋ฐ˜์šฉ๋„ LLM ์ž„๋ฒ ๋”ฉ๊ณผ ์งˆํ™˜ ํŠนํ™” ์ง€์‹ ๊ทธ๋ž˜ํ”„๋ฅผ ์ฃผ์˜ ๊ธฐ๋ฐ˜ ๊ทธ๋ž˜ํ”„ ํ•™์Šต์œผ๋กœ ํ†ตํ•ฉํ•˜๋Š” CLEAR ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, 5๊ฐœ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ(F1 score ์ตœ๋Œ€ 30% ํ–ฅ์ƒ)์„ ๋‹ฌ์„ฑํ•˜๊ณ  ์•Œ์ธ ํ•˜์ด๋จธ๋ณ‘ ์•ฝ๋ฌผ ์žฌ์ฐฝ์ถœ์— ์ƒ๋ฌผํ•™์ ์œผ๋กœ ์ผ๊ด€์„ฑ ์žˆ๋Š” ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๋‹ค์ค‘ ๋ชจ๋‹ฌ ํ‘œํ˜„ ์œตํ•ฉ๊ณผ ์งˆํ™˜ ํŠนํ™” ๋งฅ๋ฝ ์ฃผ์ž…์˜ novel ๋ฉ”์ปค๋‹ˆ์ฆ˜, ๋†’์€ ๊ธฐ์ˆ ์  ๊ฑด์ „์„ฑ, ์ž„์ƒ ์ ์šฉ ์ž ์žฌ๋ ฅ ๋“ฑ์ด ๊ฐ•์ ์ด๋‚˜, ๋‹ค์งˆํ™˜ ๋ฒ”์ฃผ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๊ฒ€์ฆ ๋ถ€์กฑ๊ณผ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ์ œํ•œ์ด ๋ณด์™„ ํ•„์š”ํ•˜๋‹ค. ์ „์ฒด์ ์œผ๋กœ ์•ฝ๋ฌผ ์žฌ์ฐฝ์ถœ ์—ฐ๊ตฌ์— ์‹ค์งˆ์  ๊ธฐ์—ฌ๋ฅผ ํ•˜๋Š” ๊ฐ€์น˜ ์žˆ๋Š” ๋…ผ๋ฌธ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
505 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์œ ์ „์ž ์กฐ์ ˆ ๋„คํŠธ์›Œํฌ ์ถ”์ถœ์˜ ์ธ๊ณผ์  ํ•ด์„์„ ํฌํ•จํ•ด, CLEAR ํ”„๋ ˆ์ž„์›Œํฌ(3107)์˜ ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์งˆํ™˜ ํŠน์ด์  ์ž„๋ฒ ๋”ฉ์— ์ด๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
PharmAgents๋Š” ๋Œ€ํ˜•์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์•ฝ๋ฌผ ๊ฐœ๋ฐœ ๋ฐ ํ›„๋ณด์ถ”์ฒœ์— ๋Œ€ํ•œ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ์ ‘๊ทผ์„ ๋„์ž…ํ•ด, ์งˆํ™˜ํŠนํ™” ์ง€์‹๊ทธ๋ž˜ํ”„ ์ •๋ ฌ ๊ธฐ๋ฐ˜ CLEAR์˜ ๊ทผ๊ฑฐ๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
666๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณผํ•™์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ๊ฐ€์„ค ์ƒ์„ฑ ๋ฒค์น˜๋งˆํฌ๋กœ, 3107์˜ ์งˆ๋ณ‘ ํŠน์ด embedding alignment ๋ฐ ๋„คํŠธ์›Œํฌ ์‹ ํ˜ธ ํ†ตํ•ฉ์˜ ๊ทผ๊ฑฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
116 ๋…ผ๋ฌธ์€ AI ํ˜‘์—…์ด ์ธ๊ฐ„ ์—ฐ๊ตฌ์ž์˜ ์ฐฝ์˜์„ฑ๊ณผ ์–ด๋–ป๊ฒŒ ๊ฒฐํ•ฉ๋˜๋Š”์ง€ ๋ณด์—ฌ์ฃผ์–ด, ์งˆํ™˜ ํŠน์ด์  AI ์‹œ์Šคํ…œ์˜ ์ธ๊ฐ„-์—์ด์ „ํŠธ ํ˜‘์—… ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
490๋ฒˆ ๋…ผ๋ฌธ(LIDDIA)์€ LLM ๊ธฐ๋ฐ˜ ํ•ญ์ฒด ๊ฒฐํ•ฉ ์˜ˆ์ธก์„ ๋‹ค๋ฃจ๋ฏ€๋กœ, 3107์˜ ์งˆํ™˜ ํŠนํ™” embedding alignment์™€ ์ถฉ๋ถ„ํžˆ ๋น„๊ตํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
CLEAR ํ”„๋ ˆ์ž„์›Œํฌ์™€ Tool-augmented drug repurposing์˜ ์œตํ•ฉ์„ ํ†ตํ•ด ์งˆํ™˜ ํŠนํ™” ์•ฝ๋ฌผ์žฌ์ฐฝ์ถœ ์ ์šฉ์„ฑ์„ ํ™•์žฅํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •