DiWA: Diffusion Policy Adaptation with World Models

Essence

Figure 1: (a) Standard diffusion policies trained via imitation learning are limited by offline data. (b) DPPO [17]

DiWA는 학습된 world model을 활용하여 diffusion 기반 로봇 정책을 오프라인으로 미세조정하는 프레임워크로, RL을 통해 상상 속 롤아웃에서 정책을 개선한다.

Known: Diffusion policy는 모방학습에서 안정성이 우수하지만 분포 이동에 취약하며, DPPO는 온라인 PPO를 통해 미세조정할 수 있지만 수백만 번의 환경 상호작용이 필요하다.
Gap: 현재 diffusion policy의 미세조정 방법들은 온라인 환경 상호작용에 크게 의존하여 실제 로봇에서 비효율적이고 안전 문제가 있다.
Why: 로봇 학습에서 실제 환경 상호작용은 비용이 크고 시간이 오래 걸리며 위험하므로, 오프라인에서 효율적으로 정책을 개선하는 방법이 실무적으로 중요하다.
Approach: 데이터 효율성이 높은 world model을 오프라인 play 데이터로 학습한 후, 이를 안전한 시뮬레이터로 사용하여 diffusion policy를 오프라인 RL로 미세조정한다.

Figure 1: (a) Standard diffusion policies trained via imitation learning are limited by offline data. (b) DPPO [17]

오프라인 Diffusion Policy 미세조정: Dream Diffusion MDP를 공식화하여 실제 또는 시뮬레이션 환경과의 상호작용 없이 diffusion policy를 완전히 오프라인으로 미세조정하는 최초의 프레임워크 제시
샘플 효율성 향상: CALVIN 벤치마크에서 수십만 개의 오프라인 play 상호작용으로 학습한 world model만으로 모형 없는 기준선 대비 수 배 이상 적은 물리적 상호작용으로 성능 개선
제로샷 실제 환경 배포: World model로 완전히 미세조정된 diffusion 정책이 추가 물리적 상호작용 없이 실제 로봇에 배포 가능함을 입증

Figure 2: DiWA framework: (1) A world model is trained on unstructured robot play data to learn latent dynamics.

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: DiWA는 world model을 활용한 offlineRL로 diffusion policy 미세조정의 샘플 효율성을 획기적으로 개선한 혁신적 연구로, 실제 로봇 학습의 실무적 도전 과제를 해결하는 의미 있는 기여이다.