Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design

저자: Masatoshi Uehara, Xingyu Su, Yulai Zhao, Xiner Li, Aviv Regev | 날짜: 2025 | DOI: 10.48550/arXiv.2502.14944 📄 PDF

Essence

그림 1: 제안된 프레임워크는 반복적 과정을 따르며, 각 반복에서 샘플에 노이즈를 주입한 후 보상을 최적화하면서 디노이징하는 과정

본 논문은 확산 모델(Diffusion Models)에서 테스트 타임 보상 최적화를 위한 반복적 개선 프레임워크를 제안한다. 기존의 단일 샷(single-shot) 방식과 달리, 부분 노이징과 보상 유도 디노이징의 두 단계를 반복하여 점진적으로 설계(design)를 개선할 수 있다.

Motivation

Known: 확산 모델은 텍스트-이미지, 단백질 서열 생성 등 다양한 분야에서 성공적이며, 분류기 유도(classifier guidance)나 도함수-프리(derivative-free) 방법들이 보상 유도 생성(reward-guided generation)에 활용되고 있다.
Gap: 기존 방법들은 완전 노이징 상태에서 디노이징 상태로의 단일 패스에만 의존하며, 두 가지 핵심 문제가 존재한다: (1) 보상 유도 디노이징 중 발생한 오류를 수정할 메커니즘 부재, (2) 특히 마스크 확산 모델에서 한번 변경된 토큰은 끝까지 고정되는 문제, (3) 하드 제약조건(hard constraints) 처리의 어려움.
Why: 생물학적 서열 설계(단백질, DNA)에서는 구조적 안정성, 결합 친화력, 세포타입 특이성 등 복잡한 보상함수 최적화가 필요하며, 추론 시간 계산량을 증가시켜 더 나은 설계를 얻을 수 있을 것으로 예상된다.
Approach: 테스트 타임에 임의의 양의 계산을 활용하여 설계를 지속적으로 개선하는 반복적 개선 알고리즘(noising + reward-guided denoising) 제안.

Achievement

그림 2: 기존 보상 유도 알고리즘은 소프트 최적 정책 {p⋆_t}로부터 순차적 샘플링으로 볼 수 있으며, 알고리즘의 차이는 p⋆_t 근사 방식에 있다

이론적 기여: 제안된 알고리즘이 exp(r(x))p_pre(·) 분포로부터 샘플링함을 수학적으로 증명하여, 생성된 설계의 자연스러움(naturalness)과 보상 최적화 간 균형을 이론적으로 보장.
방법론 혁신: 단순한 반복적 개선을 통해 마스크 확산 모델의 근본적 한계(한번 변경된 토큰 고정)를 극복하고, 하드 제약조건을 포함하는 복잡한 보상함수 최적화 가능.
실험적 우수성: 단백질 구조 설계(target RMSD 최소화)와 세포타입 특이성 DNA 설계에서 기존 방법들을 능가하는 성능 달성.

How

그림 3: RERD 알고리즘 요약 - 반복적으로 부분 노이징과 보상 유도 디노이징 수행

핵심 알고리즘 구조:

반복적 단계: 각 반복 k에서 (1) 현재 샘플 x^(k)에 부분 노이즈 주입 → 중간상태 생성, (2) 보상 유도 디노이징을 통해 x^(k+1) 획득
소프트 최적 정책 근사: 식 (2)의 소프트 가치함수 v_t(x_t)를 근사하기 위해 재구성된 x_0 예측값 x̂_0(x_t)의 보상 r(x̂_0(x_t)) 활용
대규모 행동공간 처리: 분류기 유도(연속) 또는 중요도 샘플링(이산)으로 p⋆_t 근사
하드 제약조건 처리: 초기 시드 시퀀스를 가능 영역 C 내에서 선택하여 제약조건 자동 만족
진화 알고리즘과의 연결: 보상 기반 선택과 부분 변이(노이징)의 조합이 유전 알고리즘(genetic algorithms)과 유사한 구조

Originality

첫 확산 모델 반복 개선: 언어모델의 반복 개선(BERT-style refinement) 개념을 확산 모델에 처음 적용하여 테스트 타임 보상 최적화의 새로운 패러다임 제시.
오류 수정 메커니즘: 기존 단일 패스 방식의 결정 불가역성 문제를 부분 노이징을 통한 재샘플링으로 해결 - 특히 마스크 확산 모델에서 매우 중요.
제약조건 통합 설계: 하드 제약조건을 reward function으로 단순 설정하는 대신, 초기 조건 선택을 통해 실질적으로 달성하는 실용적 방안 제시.
통합 이론 프레임워크: KL 정규화된 보상 최적화 목표(식 1)와 확산 모델의 수학적 연결을 명확히 하고, 제안 알고리즘의 최적성 보장.

Limitation & Further Study

계산비용 증가: 반복적 개선으로 인한 추론 시간 증가는 실제 응용에서 병목이 될 수 있으며, 효율성 개선 방안 필요.
부분 노이징 스케줄 미최적화: 각 반복에서 주입할 노이즈 수준(noise level)을 선택하는 전략이 휴리스틱으로 보이며, 이론적 최적화 부재.
실제 검증 제한: 단백질 설계의 경우 구조 예측(ESMFold)만 사용하고 실제 생화학적 검증 부재, DNA 설계도 세포 실험 검증 미흡.
보상함수 품질 의존성: 알고리즘의 성능이 보상함수의 정확성에 크게 의존하지만, 부정확한 보상함수에 대한 견고성(robustness) 분석 부족.
후속 연구: (1) 적응형 노이징 스케줄 학습, (2) 불완전한 보상함수 환경에서의 성능 특성화, (3) 다른 생성 모델(flow-based, autoregressive)로의 확장, (4) 실제 생물학적 검증 수행.

Evaluation

총평: 확산 모델의 테스트 타임 최적화에 혁신적인 반복 개선 접근을 제시하고, 특히 마스크 확산의 토큰 고정 문제 해결과 하드 제약조건 처리는 실질적 기여다. 단백질/DNA 설계에서 일관된 성능 향상을 보이나, 계산 효율성 분석 부재와 실제 생물학적 검증 부족이 한계. 학술적 우수성은 높으나 실무 적용을 위해서는 효율화와 검증이 필요하다.

같이 보면 좋은 논문

기반 연구

Inference-Time Alignment in Diffusion Models with Reward-Guided Generation: Tutorial and Review

682의 확산모델 보상 유도 반복개선은 428의 reward-guided alignment 방식의 이론적·기술적 연장선에 있습니다.

기반 연구

Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design

446의 보상 기반 디퓨전 파인튜닝 방식은 682에서 소개된 테스트타임 반복적 보상 최적화 프레임워크의 이론적 출발점을 제공한다.

기반 연구

FlashSchNet: Fast and Accurate Coarse-Grained Neural Network Molecular Dynamics

분자 생성 및 시뮬레이션에서 강화 기반 iterative refinement를 적용하여, FlashSchNet의 속도-정확도 균형에서 reward-guided 방법론의 도움을 참고할 수 있습니다.

기반 연구

Reward-Guided Discrete Diffusion via Clean-Sample Markov Chain for Molecule and Biological Sequence Design

Reward-guided iterative refinement in diffusion models 논문은 Test-time 보상 기반 샘플링/최적화의 이론과 실제적 한계를 체계적으로 다룬다.

기반 연구

CAGenMol: Condition-Aware Diffusion Language Model for Goal-Directed Molecular Generation

Diffusion 모델에서 보상 기반 반복적 개선 및 샘플링 기법의 이론·실습적 배경을 제공합니다.

기반 연구

MP2D: Constrained Monte Carlo Tree-Guided Diffusion for Multi-Objective Protein Sequence Design

Diffusion 모델의 reward-guided iterative refinement가 MP2D의 다목적 설계 문제 해결에 기본 알고리즘적 역할을 합니다.

다른 접근

Molgan: An implicit generative model for small molecular graphs

555의 MolGAN은 생성 모델 기반 분자 그래프 설계를 제시하여 682의 디퓨전 기반 반복 최적화와 비교되는 대안이다.

다른 접근

Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding

Derivative-Free Guidance가 테스트 타임 성능 최적화 방법의 다른 구현 방식이므로 두 접근을 비교해볼 수 있습니다.

다른 접근

DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

Reward-Guided Iterative Refinement 논문은 디퓨전 모델에서의 리워드 활용을 다루며, LLM의 자기개선·추론 유도에 대한 다양한 강화학습 응용법을 비교 가능하게 한다.

다른 접근

Generative machine learning in adaptive control of dynamic manufacturing processes: A review

산업 공정 제어를 위한 AI 기반 방법론을 다루는 유사한 연구이다.

다른 접근

Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design

Reward-Guided Iterative Refinement in Diffusion Models 논문은 보상 기반 확산모델 최적화의 또다른 딥러닝 프레임워크를 제시합니다.

다른 접근

Foundation-Model Surrogates Enable Data-Efficient Active Learning for Materials Discovery

둘 다 능동 학습 및 설계 공간 최적화를 강조하지만, 682는 reward 기반 diffusion refinement, 346은 foundation model을 활용한 data-efficient AL에 초점이 다르다.

다른 접근

Molecular Dynamics Simulations of Al-Ti Metallic Alloy Melts Using a Transferable Machine-Learning Potential

분자동역학 시뮬레이션과 reward-guided 모델링의 결합으로 소재 동역학을 효과적으로 탐구하는 다른 방법론입니다.

후속 연구

Molgan: An implicit generative model for small molecular graphs

682는 분자 설계에 활용할 수 있는 보상 유도 테스트타임 디퓨전 모델 최적화로, 555의 GAN 기반 생성 한계를 극복하는 대안을 제시한다.

후속 연구

Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding

682 논문은 미세조정 없는 샘플 생성에서 보상을 활용하는 확산 모델 최적화 방법을 추가적인 정제 기법으로 탐구한다.

후속 연구

State-Free Inference of State-Space Models: The Transfer Function Approach

Reward-Guided Iterative Refinement in Diffusion Models at Test Time 논문은 state-space approach처럼 병렬 추론 알고리즘의 효율 향상 및 성능 개선을 목표로 합니다.

후속 연구

LLM × MapReduce-V2: Entropy-Driven Convolutional Test-Time Scaling for Generating Long-Form Articles from Extremely Long Resources

테스트 타임 개선, 반복적 디퓨전 및 샘플 리파인먼트에 Entropy-Driven 컨셉을 확장해 적용합니다.

후속 연구

Inference-Time Alignment in Diffusion Models with Reward-Guided Generation: Tutorial and Review

Reward-Guided Iterative Refinement in Diffusion Models at Test Time(682)는 확산 모델의 테스트 타임 보상 기반 정렬을 다양한 과학적 응용에 적용하며, 428에서 다룬 리뷰의 실제적 확장 사례이다.

후속 연구

Dynamic Search for Inference-Time Alignment in Diffusion Models

테스트타임 reward-guided 정렬에 대한 FMVACC 대신 iterative refinement 방식을 적용하여 실시간 최적화의 발전적 관점을 보여준다.

후속 연구

Generative Replica-Exchange: A Flow-based Framework for Accelerating Replica Exchange Simulations

Reward-Guided Iterative Refinement in Diffusion Models at Test Time은 정상화 흐름과 강화학습 기반 샘플링 개선을 다루며, 3119의 replica-exchange 가속 또는 샘플 효율 논의와 맞닿아 있다.

응용 사례

Reward-Guided Discrete Diffusion via Clean-Sample Markov Chain for Molecule and Biological Sequence Design

682에서의 분자설계 확산모델 보상 조정방식이 3233의 강화 보상 기반 이산적 분자생성 문제로 실제 적용된 사례와 잘 연결됩니다.

← 목록으로 돌아가기