BioMiner: A Multi-modal System for Automated Mining of Protein-Ligand Bioactivity Data from Literature
์ ์: | ๋ ์ง: 2026-04-23 | URL: https://arxiv.org/abs/2604.21508 📄 PDF
Essence
Figure 1. Overview of protein-ligand bioactivity extraction framework BIOMINER and benchmark BIOVISTA. (a) The whole
๋จ๋ฐฑ์ง-๋ฆฌ๊ฐ๋ ์๋ฌผํ์ฑ ๋ฐ์ดํฐ๋ฅผ ๋ฌธํ์์ ์๋์ผ๋ก ์ถ์ถํ๋ ๋ค์ค๋ชจ๋ฌ ์์คํ
BIOMINER๋ฅผ ์ ์ํ๋ค. ์๋ฌผํ์ฑ ์๋ฏธ ํด์๊ณผ ๋ฆฌ๊ฐ๋ ๊ตฌ์กฐ ๋ณต์์ ๋ช
์์ ์ผ๋ก ๋ถ๋ฆฌํ์ฌ ์ฒ๋ฆฌํ๋ฉฐ, 16,457๊ฐ ํญ๋ชฉ์ BIOVISTA ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ๊ณ F1 0.32์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ๋จ๋ฐฑ์ง-๋ฆฌ๊ฐ๋ ์๋ฌผํ์ฑ ๋ฐ์ดํฐ๋ ์ ์ฝ ๊ฐ๋ฐ์ ํต์ฌ์ด๋, ๊ธฐ์กด ์๋ ์ถ์ถ ๋๊ตฌ๋ ์ํํ ์๋ฏธ ํด์๊ณผ ์ ํํ ํํ๊ตฌ์กฐ(ํนํ Markush ๊ตฌ์กฐ) ํํ์ ๋์์ ์ฒ๋ฆฌํ์ง ๋ชปํ๋ค. NLP์ CV ๊ธฐ์ ๋ฐ์ ์๋ ๋ถ๊ตฌํ๊ณ ์ด๋ฌํ ํนํ๋ ์๋ํ ๋๊ตฌ์ ๋ถ์ฌ๊ฐ ๋ฌธ์ ๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ ๊ฐ๋ณ ์ ๋ณด ์ถ์ถ(NER, OCSR) ๋๋ ์ผ๋ฐ์ ํ
์คํธ ๋ง์ด๋์ ์ค์ ์ ๋์์ผ๋, ๋ค์ค๋ชจ๋ฌ ๋ถํฌ(ํ
์คํธ, ํ, ๋ํ), ๋ณต์กํ Markush ๊ตฌ์กฐ ์ด๊ฑฐ, ํ์คํ๋ ๋๊ท๋ชจ ๋ฒค์น๋งํฌ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ์ข
ํฉ์ ์ผ๋ก ๋ค๋ฃจ์ง ์์๋ค.
- Why: ์ฝ๋ฌผ ๋ฐ๊ฒฌ ๊ฐ์ํ๋ฅผ ์ํด ๋ฌธํ์ ์ฐ์ฌ๋ ๋ฐฉ๋ํ ์๋ฌผํ์ฑ ๋ฐ์ดํฐ๋ฅผ ์๋์ผ๋ก ์์งํ๊ณ ์ ์ ํ๋ ๊ฒ์ด ์ค์ํ๋ฉฐ, ์ด๋ QSAR ๋ชจ๋ธ ํ์ต, ๊ตฌ์กฐ ๊ธฐ๋ฐ ์ค๊ณ, ํ๋ณด๊ตฐ ๋ฐ๊ตด์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: BIOMINER๋ ๋ฌธ์ ํ์ฑ, ํํ๊ตฌ์กฐ ์ถ์ถ, ์๋ฌผํ์ฑ ์ธก์ ์ถ์ถ, ๊ต์ฐจ๋ชจ๋ฌ ํตํฉ์ผ๋ก ์ถ์ถ ์์
์ ๋ถํดํ๋ค. ์๋ฌผํ์ฑ์ semantic reasoning์ผ๋ก, ํํ๊ตฌ์กฐ๋ chemical-structure-grounded visual semantic reasoning (CSG-VSR) ๋ฉ์ปค๋์ฆ์ผ๋ก ์ฒ๋ฆฌํ๋, MLLM๊ณผ domain-specific models ๋ฐ ํํ ๋๊ตฌ๋ฅผ ํตํฉํ๋ค.
Achievement
Figure 1. Overview of protein-ligand bioactivity extraction framework BIOMINER and benchmark BIOVISTA. (a) The whole
โข BIOVISTA ๋ฒค์น๋งํฌ ๊ตฌ์ถ: 500๊ฐ ๋
ผ๋ฌธ์์ ์ ๋ฌธ๊ฐ๊ฐ ์ ์ ํ 16,457๊ฐ ์๋ฌผํ์ฑ ํญ๋ชฉ๊ณผ 8,735๊ฐ ๊ณ ์ ํํ๊ตฌ์กฐ ์๋ก. 6๊ฐ ํ๊ฐ ์์
์ง์. \nโข ๊ธฐ๋ณธ ์ฑ๋ฅ: ์๋ฌผํ์ฑ triplet ์ถ์ถ์์ F1 0.32 ๋ฌ์ฑ. \nโข ์ ์ดํ์ต ๊ฐ์ : 82,262๊ฐ ๋ฐ์ดํฐ๋ก ๊ตฌ์ถํ ์ฌ์ ํ์ต ๋ฐ์ดํฐ๋ฒ ์ด์ค๊ฐ PDBbind v2016, CSAR-HiQ์์ 3.9% RMSE ๊ฐ์ . \nโข HITL ์ํฌํ๋ก์ฐ: 26์๊ฐ ๋ด NLRP3 ์๋ฌผํ์ฑ ๋ฐ์ดํฐ 1,592๊ฐ ์์ง(ChEMBL ๋๋น 2๋ฐฐ), QSAR ๋ชจ๋ธ 38.6% EF1% ๊ฐ์ , 16๊ฐ ์ ๊ท scaffold ํ๋ณด ์๋ณ. \nโข ๊ตฌ์กฐ ์ฃผ์ ๊ฐ์ํ: PoseBusters ๋ฐ์ดํฐ์
์์ ์๋ ์์
๋๋น 5.59๋ฐฐ ๊ณ ์ํ, ์ ํ๋ 96.25%(์๋ 90.5%).
How
Figure 1. Overview of protein-ligand bioactivity extraction framework BIOMINER and benchmark BIOVISTA. (a) The whole
โข ๋ฌธ์ ํ์ฑ agent: ๋ค์ค๋ชจ๋ฌ ์์ค์์ ์ ๋ณด ์ถ์ถ \nโข Bioactivity agent: semantic reasoning์ ํตํ ์๋ฌผํ์ฑ ๊ฐ, ํ์
, ๋จ์ ์ถ์ถ \nโข Chemical structure agent: CSG-VSR ํจ๋ฌ๋ค์์ผ๋ก MLLM์ด ํํ ๊ธฐ๋ฐ ์๊ฐ ํํ์ ๋ํด ์ถ๋ก ํ ํ domain chemistry tools๋ก ๋ถ์ ๊ตฌ์ฑ \nโข Integration agent: ์ถ์ถ๋ ๋ฐ์ดํฐ ๋ณํฉ ๋ฐ ๊ฒ์ฆ \nโข Markush ๊ตฌ์กฐ ์ด๊ฑฐ: ์๋ ํด๊ณผ MLLM ์ถ๋ก ์ ๋ฐ๋ณต์ ๊ฐ์
Originality
โข ์๋ฌผํ์ฑ ์๋ฏธ ์ถ์ถ๊ณผ ํํ๊ตฌ์กฐ ๋ณต์์ ๋ช
์์ ์ผ๋ก ๋ถ๋ฆฌํ๋ ์ค๊ณ \nโข ๋ณต์กํ Markush ๊ตฌ์กฐ๋ฅผ ์๋์ผ๋ก ๊ฐ๋ณ ๋ถ์๋ก ์ด๊ฑฐํ๋ CSG-VSR ๋ฉ์ปค๋์ฆ(๊ธฐ์กด ๋ฏธํด๊ฒฐ ๊ณผ์ ) \nโข MLLM๊ณผ domain-specific ๋๊ตฌ ๊ฒฐํฉ์ ํตํ ์ ํํ ๊ธฐํธ ํํ ์์ฑ \nโข ๋ค์ค๋ชจ๋ฌ agent ๊ธฐ๋ฐ ๋ถํด ์ํคํ
์ฒ
Limitation & Further Study
โข ์ฑ๋ฅ ์ ์ฝ: F1 0.32๋ ์์ง ์ค์ ์ด์ ๊ธฐ์ค์ผ๋ก ๋ฎ์ HITL ์ํฌํ๋ก์ฐ ํ์. \nโข ๋ฒค์น๋งํฌ ๊ท๋ชจ: 16,457๊ฐ๋ ์ฃผ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค(ChEMBL ์๋ฐฑ๋ง)์ ๋นํด ์ ํ์ ์ด๊ณ , 500๊ฐ ๋
ผ๋ฌธ๋ง ๋์. \nโข Markush ์ฒ๋ฆฌ ํ๊ณ: ๋ณต์กํ R-group ๊ตฌ์กฐ๋ ํน์ ํํ ์กฐ๊ฑด์์์ ์ ํ์ฑ ๋ฏธ๊ฒ์ฆ. \nโข ์ผ๋ฐํ ๋ถํ์ค์ฑ: PDBbind ๊ธฐ๋ฐ ๋
ผ๋ฌธ์ ํนํ๋์ด ๋ค๋ฅธ ํ๋ฌธ ์์ญ ์ ์ฉ์ฑ ๋ฏธ๋ช
ํ. \nโข ๋น์ฉ-ํจ์จ: MLLM API ํธ์ถ ๋น์ฉ, chemistry tools ์์กด์ฑ ๋ฑ ์ค์ด์ ๋ณต์ก๋. \n\nํ์์ฐ๊ตฌ: ๋ ํฐ ๋ฒค์น๋งํฌ ์์ง, F1 ๊ฐ์ , ๋ค๋ฅธ ๊ณผํ ๋๋ฉ์ธ ํ์ฅ, end-to-end ์ฑ๋ฅ ํฅ์.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: BIOMINER๋ ๋ค์ค๋ชจ๋ฌ ์๋ฌผํ์ฑ ๋ฐ์ดํฐ ์ถ์ถ์ด๋ผ๋ ์ ์๋์ง ์์ ๋ฌธ์ ๋ฅผ ๋ช
ํํ ์ ์ํ๊ณ , CSG-VSR์ ํตํด Markush ์ด๊ฑฐ ๊ฐ์ ๊ธฐ์ ์ ๊ณผ์ ๋ฅผ ์ฐฝ์์ ์ผ๋ก ํด๊ฒฐํ๋ค. BIOVISTA ๋ฒค์น๋งํฌ๋ ํฅํ ์ฐ๊ตฌ๋ฅผ ์ํ ์์คํ ์์ฐ์ด๋ฉฐ, ์ธ ๊ฐ์ง ์์ฉ ์๋๋ฆฌ์ค(์ฌ์ ํ์ต, HITL, ๊ตฌ์กฐ ์ฃผ์)๊ฐ ์ค์ง์ ๊ฐ์น๋ฅผ ์
์ฆํ๋ค. ๋ค๋ง ์ ๋ ์ฑ๋ฅ(F1 0.32)๊ณผ ๋ฒค์น๋งํฌ ๊ท๋ชจ ์ ์ฝ์ด ๊ด๋ฒ์ํ ์ฐ์
์ ์ฉ์๋ ํ๊ณ๊ฐ ์์ผ๋ฏ๋ก ์ง์์ ๊ฐ์ ์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Bioinformatics ๋ถ์ผ์ ๋ํ ์ธ์ด๋ชจ๋ธ, ๋ฐ์ดํฐ, ๋ค์ค๋ชจ๋ฌ ์ฒ๋ฆฌ ์ด๋ก ์ด BioMiner์ ์์คํ
๋ฐ ๋ฒค์น๋งํน ๊ตฌ์กฐ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
131 ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ํ๋กํ
์ค๋ฏน์ค ์ฐ๊ตฌ ์๋ํ๋ฅผ ๋ค๋ฃจ์ด, 3043๊ณผ ๊ฐ์ด ๋๊ตฌ ๋ฐ ํ
์คํธ์์ ๋ฐ์ดํฐ ์ถ์ถ ๋ฐฉ๋ฒ์ ๋น๊ตํ ๋งํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
ProtAgents ๋
ผ๋ฌธ์ ๋จ๋ฐฑ์ง ๋ฐ๊ฒฌ AI ๋ฉํฐ์์ด์ ํธ ์์
์ ๋ค๋ฃจ์ด, BioMiner์ ๋จ๋ฐฑ์ง-๋ฆฌ๊ฐ๋ ์ ๋ณด ์ถ์ถ๋ฌธ์ ์ ๋ํ agent ๊ธฐ๋ฐ ๋์ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
524 ๋
ผ๋ฌธ์ ์๊ฐ์ ๊ณผํ๋ฌธํ์์ ์ ๋ณด ์ถ์ถ ๋ฐ ๊ตฌ์กฐ ๋ณต์์ ๋ค๋ฃจ์ด, 3043์ ๋จ๋ฐฑ์ง-๋ฆฌ๊ฐ๋ ์๋ฌผํ์ฑ ๋ฐ์ดํฐ ๋ง์ด๋ ๋ฐฉ๋ฒ์ ๊ธฐ์ ์ ์ผ๋ก ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
3043์ ๋จ๋ฐฑ์ง ์ ๋ณด ์ถ์ถ์ ์ํ ๋ฉํฐ๋ชจ๋ฌ ์์คํ
์ ์ ์ํ์ฌ, 2186์ ChemMiner๊ฐ ์ ์ํ LLM ๊ธฐ๋ฐ ํํ์ ๋ณด ์๋ํ์ ์ ์ฉ ํ์ฅํ์ด๋ค.
ํ์ ์ฐ๊ตฌ
BioMiner์ ๋ฌธํ๊ธฐ๋ฐ ๋ถ์ยท๋จ๋ฐฑ์ง์ ๋ณด ์ถ์ถ๊ณผ์ ์ด retrieval-augmented foundation model ๊ธฐ๋ฐ ๋ถ์๋งค์นญ์ผ๋ก ํ์ฅ ์ฐ๊ตฌ๋๋ค.
ํ์ ์ฐ๊ตฌ
BioPipelines๋ BioMiner์์ ๋ฌธํ์ผ๋ก ์ถ์ถํ ๋จ๋ฐฑ์ง-๋ฆฌ๊ฐ๋ ์๋ฌผํ์ฑ ๋ฐ์ดํฐ์ ์ค์ ์ค๊ณ/๋ถ์ ํ๋ก์ธ์ค ์ ์ฒด ํ์ดํ๋ผ์ธ์ ์ ๊ณตํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
BioMiner๋ ๋ฉํฐ๋ชจ๋ฌ ์์คํ
์ ํตํ ๋จ๋ฐฑ์ง ์ด๋ฏธ์ง์ ๊ธฐ๋ฅ์ ๋ณด ๋ง์ด๋์ ํ์ฌ, ์์ฑ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ถ์์ ์ค์ง์ ์์ฉ์ด ๊ฐ๋ฅํฉ๋๋ค.
์์ฉ ์ฌ๋ก
๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด์ถ์ถ๊ณผ ๋๊ตฌ ๊ฒฐํฉ ๊ธฐ๋ฐ์ ๊ณผํ์์ ๋ถ์ ์ฌ๋ก๋ฅผ ํตํด aiscivision์ด ์ค์ ์๋ฌผํยท์ํ ๋ฑ ์์ญ์์ ์ด๋ป๊ฒ ์ฐ์ผ ์ ์๋์ง ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
BioMiner ๋
ผ๋ฌธ์ multi-modal protein-ligand data extraction์ ๋ค๋ฃจ์ด M2UMol์ modality knowledge transfer ๋ฐฉ์์ ์ค์ ์๋ฌผํ ๋ฐ์ดํฐ์ ์ ์ฉํ๋ ์์๊ฐ ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์