Towards Useful and Private Synthetic Omics: Community Benchmarking of Generative Models for Transcriptomics Data

Essence

Figure 1. Benchmarking framework for evaluating generative models on synthetic bulk RNA-seq data

벌크 RNA-seq 데이터의 합성 생성을 위한 11개 생성 모델을 두 암 코호트와 978개 랜드마크 유전자에 걸쳐 체계적으로 벤치마킹하여, 분포 충실도(distributional fidelity), 다운스트림 유용성(downstream utility), 생물학적 타당성(biological plausibility), 프라이버시 위험도 측면에서 종합적으로 평가한 연구이다. membership inference attack에 대한 취약성과 다른 평가 차원 간의 trade-off를 강조하여 모델 선택의 지침을 제시한다.

Motivation

Known: 합성 데이터 생성은 개인정보 보호와 데이터 공유를 가능하게 하는 유망한 전략이며, differential privacy와 federated learning 등의 기법이 프라이버시 보호에 사용되어 왔다. 그러나 고차원 omics 데이터에서 생성 모델이 생물학적 신호를 보존하면서 동시에 adversarial privacy attacks에 대한 복원력을 유지할 수 있는 정도는 충분히 탐구되지 않았다.
Gap: 기존 연구들은 주로 differential privacy 모델에 초점을 맞추거나 제한된 범위의 생성 방법만 비교했으며, 유전자 발현 데이터의 생물학적 구조(gene-gene co-expression, condition-specific differential expression)를 고려하여 distributional fidelity가 downstream task utility로 실제 전환되는지, 생물학적 신호 보존이 이들 목표와 어떻게 정렬되는지, 프라이버시 위험이 이러한 축을 따라 어떻게 변화하는지를 종합적으로 평가한 연구가 부족하다.
Why: 합성 생물의학 데이터의 품질은 다차원적이며 유용성, 생물학적 보존, 프라이버시 간의 trade-off에 의해 형성되는데, 이러한 trade-off의 본질을 이해하는 것은 실제 임상 및 연구 환경에서 합성 데이터 생성 파이프라인을 설계하고 모델을 선택할 때 핵심적이다. 특히 bulk RNA-seq은 널리 이용 가능하고 다양한 다운스트림 분석을 지원하므로, 실제 데이터 공유 제약 조건 하에서 utility-privacy trade-off를 연구하기에 최적의 대상이다.
Approach: CAMDA 2025 Health Privacy Challenge 프레임워크를 활용하여 두 개의 TCGA 암 코호트(TCGA-BRCA와 TCGA-COMBINED)에 대해 8개의 서로 다른 생성 아키텍처를 다양한 프라이버시 설정으로 적용한 총 11개의 방법을 벤치마킹한다. "blue" 팀은 생물학적으로 의미 있는 합성 데이터셋을 생성하고, "red" 팀은 membership inference attack을 통해 프라이버시 취약성을 조사한다. 평가는 distributional fidelity(MMD, Kullback-Leibler divergence, discriminator-based metrics), downstream utility(AUC-ROC, F1 score, feature importance overlap), biological plausibility(differential expression recovery, co-expression network edge recovery), empirical privacy risk(membership inference attack metrics) 등 4개 핵심 차원에 걸쳐 실시한다.

Achievement

Figure 2. Fidelity metrics for BRCA and COMBINED datasets. Four metrics are shown in separate facets:

모델 아키텍처별 성능 차이 규명: 깊이 있는 생성 모델(expressive deep generative models)은 강한 예측 유용성과 differential expression 복구 능력을 보였으나 membership inference 위험에 더 취약했으며, differential privacy 방법은 공격 저항성을 개선하되 유용성을 희생했고, 단순 통계 방법은 경쟁력 있는 유용성과 중간 수준의 프라이버시 위험을 제공했다.
종합적 평가 프레임워크 확립: 분포 충실도, 다운스트림 유용성, 생물학적 타당성, 프라이버시 위험 간의 multi-dimensional trade-off를 명시적으로 정량화하고 가시화한 벤치마킹 기준을 제시했다.
실무적 지침 제공: 모델 선택이 데이터셋 특성, 의도된 다운스트림 사용, 프라이버시 요구 사항에 따라 조정되어야 함을 입증하고, 프라이버시 위험을 여러 보완적 공격 방법과 형식적 differential privacy 보호로 평가할 필요성을 강조했다.
현황 조사 및 기준점 수립: 합성 transcriptomic 데이터 생성의 현재 방법론 경관을 정리하고 향후 연구를 위한 참조점을 제공했다.

How

Figure 3. Utility metrics for BRCA and COMBINED datasets. Four metrics are shown, each in a separate

978개의 landmark genes를 포함한 두 TCGA 암 코호트(~1,000명 및 ~5,000명 환자)에 걸쳐 11개 방법 벤치마킹
각 방법을 training/test set 분할로 학습하고 synthetic samples 생성
GAN-leaks 등의 black-box membership inference attack 방법으로 프라이버시 위험 평가
MMD, KL divergence, distance-to-closest real record, discriminator-based metrics로 distributional fidelity 측정
합성 vs 실제 데이터로 훈련한 classifier의 AUC-ROC, F1 score, feature importance overlap로 downstream utility 평가
Differential expression 회복(FPR ≤ 0.05 조건)과 co-expression network edge recovery로 biological plausibility 측정
AUCROC 및 TPR@FPR=0.1로 membership inference attack 성능 정량화

Originality

기존의 differential privacy 중심 평가를 벗어나 다양한 생성 모델 아키텍처(deep generative models, statistical methods 포함) 범위의 확대를 통한 포괄적 비교
단순 distributional fidelity 평가를 넘어 downstream task utility와 생물학적 신호 보존의 실제 연계성을 체계적으로 검증
gene-gene co-expression과 condition-specific differential expression 같은 transcriptomic 데이터의 고유한 생물학적 구조를 명시적으로 평가하는 메트릭 도입
membership inference attack을 포함한 실제 프라이버시 공격 기반의 empirical privacy risk 평가
community-driven challenge 프레임워크를 통해 다양한 팀의 방법과 공격 기법을 통합한 벤치마킹

Limitation & Further Study

범위의 한계: 두 암 코호트만 분석하여 다른 질환 유형이나 조직 유형에서의 결과 일반화 가능성 미지
978개 landmark genes 제한: 전체 전장 genome의 모든 유전자를 포함하지 않아 배제된 유전자들의 합성 품질 평가 불가능
공격 모델의 제한: membership inference attack만 평가하였고, attribute inference나 data reconstruction 같은 더 심각한 공격에 대한 저항성은 직접 측정되지 않음
차후 연구: (i) 다양한 질환/조직 유형으로 벤치마킹 확대, (ii) 더 정교한 프라이버시 공격 방법과 형식적 privacy guarantee의 통합, (iii) downstream utility의 추가 분석 작업 (예: 임상 예측 모델) 포함, (iv) synthetic data의 장기적 사용 시나리오에서 누적된 프라이버시 위험 평가

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 합성 생물의학 데이터의 생성에서 utility-privacy-fidelity의 multi-dimensional trade-off를 체계적으로 벤치마킹한 중요한 커뮤니티 연구로, 광범위한 생성 모델을 transcriptomic 데이터라는 구체적이고 중요한 맥락에서 평가하여 모델 선택의 실무적 지침을 제공한다. 다만 평가 범위의 제한(암 코호트, landmark genes, MIA)과 결과의 일반화 가능성 논의가 보강되면 더욱 강력할 것이다.