Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding

저자: Xiner Li, Yulai Zhao, Chenyu Wang, Gabriele Scalia, Gökçen Eraslan | 날짜: 2024 | DOI: 10.48550/arXiv.2408.08252 📄 PDF

Essence

Figure 1: Summary of SVDD. v denotes value

본 논문은 pre-trained diffusion models를 사용하여 보상 함수를 최적화하면서 자연스러운 데이터 분포를 보존하는 새로운 방법인 Soft Value-based Decoding (SVDD)를 제안한다. SVDD는 미분 불가능한 보상 함수를 직접 사용할 수 있고 연속 및 이산 diffusion models 모두에 적용 가능한 추론 시간 방법이다.

Motivation

Known: Diffusion models는 이미지, 분자, 생물학적 서열 생성에서 강력한 성능을 보였다. 기존의 보상 최적화 방법으로는 classifier guidance (미분 가능한 프록시 모델 필요), classifier-free guidance, RL-based fine-tuning 등이 있으나, 미분 불가능한 보상 함수를 직접 활용할 수 없거나 계산 비용이 크다는 문제가 있다.
Gap: 기존 방법들은 (1) 미분 가능한 프록시 모델 구성이 필수적이어서 분자 설계나 단백질 서열 생성 등에서 흔히 사용되는 미분 불가능한 특징이나 피드백을 직접 활용할 수 없고, (2) 이산 diffusion models에 원칙적으로 적용하기 어렵다는 한계가 있다.
Why: 비생물리학적 시뮬레이션(Vina, Rosetta) 등 미분 불가능한 보상 함수는 분자 설계, 단백질 공학, 생물 서열 최적화 등의 실제 응용에서 매우 중요하며, 최근 이산 diffusion models의 빠른 발전으로 이들을 지원하는 일반화된 방법의 필요성이 높다.
Approach: Soft value functions v(x_{t-1}) := E[r(x_0)|x_{t-1}]를 도입하여 중간 노이즈 상태가 미래에 높은 보상으로 이어지는 방식을 예측한다. 추론 시에 pre-trained diffusion model에서 여러 노이즈 상태를 생성하고 각 타임스텝에서 value function이 가장 높은 샘플을 선택한다. SVDD-MC와 SVDD-PM 두 가지 변형을 제시하며, 특히 SVDD-PM은 diffusion model의 forward process 특성을 활용하여 추가 학습 없이 작동한다.

Achievement

Figure 1: Summary of SVDD. v denotes value

이미지 생성: 미분 불가능한 보상 함수로 이미지 조건부 생성 성공 / 분자 생성: Docking score, QED, SA 점수 최적화에서 높은 성능 달성 / DNA/RNA 생성: 활성도 수준 최적화에서 효과 입증 / 방법론적 기여: Fine-tuning 불필요, 비차별화 보상 직접 사용 가능, 이산 diffusion models에 통일된 방식으로 적용 가능 / 계산 효율성: Pre-trained 모델 활용으로 학습 비용 절감

How

Figure 1: Summary of SVDD. v denotes value

Soft value function을 통한 look-ahead 메커니즘으로 중간 상태의 장기 가치 평가
Denoising process 동안 각 타임스텝에서 최고 value를 가진 샘플 선택하는 greedy 디코딩
SVDD-MC: Monte Carlo 샘플링을 통한 value function 학습
SVDD-PM: Diffusion model의 forward process를 이용한 직접 추정 (학습 불필요)
연속/이산 diffusion models 모두에 적용 가능한 통일된 프레임워크

Originality

미분 불가능한 보상 함수를 diffusion models에 직접 통합하는 새로운 접근법
Soft value functions 기반의 look-ahead 디코딩이 기존 best-of-N이나 classifier guidance와 차별화됨
Diffusion model의 forward process 특성을 창의적으로 활용한 SVDD-PM 알고리즘 (학습 없이 작동)
연속 및 이산 diffusion models을 통일적으로 처리하는 프레임워크 제시

Limitation & Further Study

SVDD-MC는 여전히 value function 학습이 필요하므로 완전 무학습이 아님 / - 각 타임스텝에서 다중 샘플 생성으로 인한 추론 시간 증가 (M배 증가) / - 복잡한 보상 함수 구조에서 value function 근사의 정확도 의존성 / - 이산 diffusion models에서의 탐색 공간이 매우 크면 그리디 선택의 한계 가능 / 후속 연구: Value function 근사 개선 방법, 추론 비용 최적화 기법 연구 필요

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 미분 불가능한 보상 함수 최적화와 이산 diffusion models 지원이라는 중요한 문제를 해결하는 실용적이고 원칙적인 방법을 제시한다. 이론적 근거가 충분하고 다양한 응용 도메인에서 실증적 성과를 보여주는 수준 높은 연구이다. 추론 비용 증가라는 제약이 있으나 생물학 및 화학 분야의 실제 응용성이 높아 게재 가치가 있다.

같이 보면 좋은 논문

기반 연구

Dynamic Search for Inference-Time Alignment in Diffusion Models

296은 확산 모델의 이론적 기반이나 디코딩 방법론을 제공하여 SVDD 개발의 방법론적 토대가 된다.

기반 연구

SamplingDesign: RNA design via continuous optimization with coupled variables and Monte-Carlo sampling

RNA 설계 최적화의 방법론적 기반이 되는 이산 최적화 관련 연구이다.

기반 연구

A collaborative constrained graph diffusion model for the generation of realistic synthetic molecules

269번 논문은 확산 모델의 미분 및 비연속 도메인에서의 guidance 기법을 소개해, CoCoGraph의 알고리즘적 철학과도 연결됩니다.

다른 접근

Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design

446은 확산 모델에서의 가이던스 또는 보상 최적화를 위한 다른 접근법을 제시하여 SVDD와 대안적으로 비교된다.

다른 접근

Inference-Time Alignment in Diffusion Models with Reward-Guided Generation: Tutorial and Review

Derivative-Free Guidance in Continuous and Discrete Diffusion Models(269)은 모델 미세조정 없이 보상 기반 유도 기법을 개발하여, 428의 테스트타임 정렬 아이디어와 직접 비교된다.

다른 접근

Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design

Derivative-Free Guidance가 테스트 타임 성능 최적화 방법의 다른 구현 방식이므로 두 접근을 비교해볼 수 있습니다.

다른 접근

Autonomous platform for solution processing of electronic polymers

고분자 또는 전자 재료의 처리 공간을 AI 기반으로 탐색하는 유사한 방법론을 사용한다.

다른 접근

Finetuning-Free Diffusion Model with Adaptive Constraint Guidance for Inorganic Crystal Structure Generation

Adaptive Constraint Guidance 기반 파인튜닝 없는 확산모델 생성법 논문으로, 파생적 보상 유도 및 reward-guidance의 또다른 실현 방안을 비교할 수 있습니다.

다른 접근

Intermediate Layers Encode Optimal Biological Representations in Single-Cell Foundation Models

생물학적 파운데이션 모델의 중간 층 표현을 다른 관점에서 분석한다.

다른 접근

Equivariant Efficient Joint Discrete and Continuous MeanFlow for Molecular Graph Generation

이산-연속 혼합 공간에서의 디퓨전 및 가이드 방식에 관한 최신 프레임워크의 대안적 접근을 제공합니다.

후속 연구

Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design

682 논문은 미세조정 없는 샘플 생성에서 보상을 활용하는 확산 모델 최적화 방법을 추가적인 정제 기법으로 탐구한다.

응용 사례

Interactive agents: Simulating counselor-client psychological counseling via role-playing llm-to-llm interactions

269의 reward 기반 생성 원리는 433의 RL 기반 실험적 의사결정 및 실험 시뮬레이션에 실제로 적용될 수 있다.

← 목록으로 돌아가기