Benchmarking Single-Pose Docking, Consensus Rescoring, and Supervised ML on the LIT-PCBA Library

Essence

Figure 1. illustrates an example of EF1% calculation, where the percentage of actives in the entire library is 5%.

본 논문은 LIT-PCBA 라이브러리의 15개 타깃과 578,000+ 리간드-타깃 쌍에서 AutoDock-GPU, DiffDock, GNINA, DiffDock-NMDN 등 여러 도킹 및 재랭킹 방법의 성능을 체계적으로 벤치마킹한다. 지도학습 재랭킹이 가장 우수한 성능을 달성했으며, 어느 한 가지 도킹 기법도 모든 타깃에서 일관되게 작동하지 않음을 보여준다.

Motivation

Known: Virtual screening은 약물 발견 파이프라인에 필수적인 도구이며, 전통적인 벤치마크(DUD, MUV, DUD-E)는 화학적 편향으로 인해 성능을 과대평가한다는 것이 알려져 있다. DiffDock은 확산 모델을 통해 인상적인 도킹 성능을 보고했으나, 훈련 세트 편향 가능성이 지적되었다. GNINA는 3D CNN을 활용한 재랭킹으로 Vina를 능가하는 것으로 보고되었다.
Gap: 기존 연구들은 인공적으로 구성된 벤치마크나 PDBBind 같은 제한된 데이터셋에서 평가되었으며, 실제 고처리량 스크리닝 조건을 반영하는 실험 검증된 라이브러리에서의 대규모 비교 평가가 부족하다. 또한 최신 AI 기반 도킹 방법(DiffDock)과 재랭킹 방법들이 편향되지 않은 실험 데이터에서 어떻게 성능을 보이는지 불명확하다.
Why: 이 평가는 실험 기반의 대규모 라이브러리(LIT-PCBA)에서 수행되어 실제 약물 발견 환경의 조건을 더 정확히 반영한다. 다양한 도킹 및 재랭킹 기법의 장단점을 이해하는 것은 Virtual screening 파이프라인을 설계할 때 중요한 의사결정 정보를 제공한다.
Approach: 두 가지 도킹 경로(AutoDock, DiffDock)와 두 가지 재랭킹 방법(GNINA, NMDN)의 조합을 평가한다. AutoDock 경로는 10회 실행에서 최고 친화력 포즈를 선택하고, DiffDock 경로는 20개 포즈에서 신뢰도가 가장 높은 포즈를 선택한다. 합의 기반 랭킹과 점수 필터링을 적용하며, 다양한 ML 모델을 훈련하여 재랭킹 성능을 평가한다.

Achievement

Figure 4. Comparison of EF1% performance across scoring methods for the DiffDock and AutoDock pathways.

AutoDock-GNINA 성능: 중위 EF1% = 2.14, Precision = 1.85%, Recall = 2.02%, balanced accuracy = 50.5%로 가장 신뢰할 수 있는 단일 방법
DiffDock 성능: DiffDock-GNINA의 중위 EF1% = 0.84로 AutoDock-GNINA 대비 열등
합의 도킹: 중위 EF1% = 1.8로 강건성 개선, 2개 타깃 구출
지도학습 재랭킹: 최고 ML 모델이 EF1% = 4.49 달성 (+110% vs AutoDock-GNINA 2.14), balanced accuracy를 50.5%에서 55.4%로 개선
처리량 및 비용: AutoDock이 DiffDock 대비 4~8배 빠르고 저렴
타깃별 편차: OPRK1에서 AutoDock-GNINA는 EF1% = 12.5인 반면 모든 DiffDock 기반 방법은 EF1% = 0

How

Figure 3. The flowchart of consensus docking.

578,295개 리간드-타깃 쌍(활성 10,008개, 비활성 568,287개) 도킹
AutoDock 경로: 리간드당 10회 실행, 최고 친화력 포즈 선택
DiffDock 경로: 20개 포즈 샘플링, 신뢰도 최고 포즈 선택
GNINA와 NMDN으로 포즈 재랭킹
단일 점수, 다중 합의 스킴(각 경로별), 글로벌 합의(두 경로 통합) 랭킹 생성
주요 메트릭: EF1%, EF10%, ROC-AUC, BEDROC(α=20)
다양한 아키텍처의 ML 모델 훈련

Limitation & Further Study

평가 대상이 15개 타깃으로 제한적이어서 일반화 가능성이 불완전함
AutoDock-GNINA 조차 중위 EF1% = 2.14로 무작위 스크리닝(EF1% ≈ 1)과 크게 차이나지 않음
DiffDock 훈련 데이터와 테스트 세트 간의 관계성에 대한 상세한 분석 부재
NMDN이 일부 타깃에서만 이득을 제공하는 원인에 대한 메커니즘 분석 부족
ML 모델 훈련에 필요한 충분한 실험 데이터의 가용성이 실제 환경에서 제약적일 수 있음
후속 연구: 더 많은 타깃에서의 평가, 합의 메커니즘의 최적화, NMDN 성능 편차의 근본 원인 규명, 전이학습 가능성 탐색

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 실험 기반 대규모 벤치마크에서 최신 도킹 방법들을 엄밀하게 평가한 의미 있는 연구다. AutoDock-GNINA가 가장 신뢰할 수 있으며, 단순한 ML 기반 최신 방법이 항상 우수하지 않음을 실증적으로 보여준다. 지도학습 재랭킹의 실질적 가치를 입증하되, 어느 기법도 모든 타깃에서 일관되게 작동하지 않음을 강조한다. 제한된 타깃 수와 절대 성능의 낮음이 약점이지만, 실무적 통찰력이 높다.

같이 보면 좋은 논문

기반 연구

Vulnerability of text-matching in ml/ai conference reviewer assignments to collusions

870 논문은 학술 논문 평가(텍스트 매칭)의 한계와 취약점을 지적하여, 3037의 도구 평가 신뢰도 및 도출 지표 해석 시 참고할 수 있다.

기반 연구

A Systematic Survey and Benchmark of Deep Learning for Molecular Property Prediction in the Foundation Model Era

분자 도킹 및 재랭킹 방법 벤치마킹에 초점을 맞춘 논문으로, 같은 표준 평가 접근방식을 논의하므로 함께 비교해보면 유용합니다.

다른 접근

MolX: A Geometric Foundation Model for Protein–Ligand Modelling

단백질-리간드 모델링에서 지오메트릭 파운데이션 모델을 제시하여 본 논문의 도킹 벤치마크와 구조적 다양성 접근법을 비교할 수 있습니다.

다른 접근

Persistent local Laplacian prediction of protein-ligand binding affinities

3203 논문은 단백질-리간드 결합 친화도 예측에서 새로운 모델링 기법을 제안하여, 3037의 다양한 도킹 기법 벤치마킹과 비교해볼 만하다.

다른 접근

Integrative modelling of protein-glycan interactions with HADDOCK3

Benchmarking Single-Pose Docking, Consensus Rescoring, and Small Molecule Conformational Search for Accurate Binding Affinity Prediction은 다른 구조기반(합성 접근) 단백질-리간드 결합 예측을 다뤄, 3139와 비교할 수 있다.

다른 접근

On the Reliability of AI Methods in Drug Discovery: Evaluation of Boltz-2 for Structure and Binding Affinity Prediction

Docking, docking-rescoring, sampling 등 스크리닝 알고리즘 전반을 실험적으로 비교하여, AI 기반 스크리닝 해상도·성능의 현주소를 평가하는 데 도움을 준다.

후속 연구

Augmenting large language models with chemistry tools

화학 도구와 LLM을 결합한 접근법이 도킹·재랭킹에 어떻게 활용될 수 있을지 논의하는 실용적 맥락을 제공합니다.

후속 연구

What Topological and Geometric Structure Do Biological Foundation Models Learn?

생물학적 파운데이션 모델의 위상·기하적 구조 평가가 리간드-타깃 결합 벤치마크와 직접 연관된다.

응용 사례

Proteo-R1: Reasoning Foundation Models for De Novo Protein Design

de novo 단백질 설계의 신뢰성 평가 문맥에서 다중 타깃 벤치마크 결과를 적용해볼 수 있다.