One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation
์ ์: Zhendong Wang, Zhaoshuo Li, Ajay Mandlekar, Zhenjia Xu, Jiaojiao Fan, Yashraj Narang, Linxi Fan, Yuke Zhu, Yogesh Balaji, Mingyuan Zhou, Ming-Yu Liu, Yu Zeng | ๋ ์ง: 2024-10-28 | URL: https://arxiv.org/abs/2410.21257 📄 PDF
Essence
Figure 1: Comparison of Diffusion Policy and One-Step Diffusion Policy (OneDP). We demon-
One-Step Diffusion Policy (OneDP)๋ ์ฌ์ ํ์ต๋ diffusion policy์ ์ง์์ ๋จ์ผ ๋จ๊ณ action generator๋ก distillํ์ฌ ๋ก๋ด ์ ์ด์ ์ถ๋ก ์๋๋ฅผ 42๋ฐฐ ํฅ์์ํจ๋ค. KL divergence ์ต์ํ๋ฅผ ํตํด ์๋ณธ policy ๋ถํฌ์์ ์ ๋ ฌ์ ๋ณด์ฅํ๋ฉด์๋ 2%-10%์ ์ถ๊ฐ ํ์ต ๋น์ฉ๋ง ํ์ํ๋ค.
Motivation
- Known: Diffusion model์ ์์ฑ AI์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ ๋ก๋ด ์ ์ด์ behavior cloning์๋ ์ ์ฉ๋๊ณ ์๋ค. ๊ทธ๋ฌ๋ iterative denoising step์ผ๋ก ์ธํ ๋๋ฆฐ ์ถ๋ก ์๋(1.49 Hz)๋ ์ค์๊ฐ ๋ก๋ด ์ ํ๋ฆฌ์ผ์ด์
์ ๋ถ์ ํฉํ๋ค.
- Gap: ๊ธฐ์กด diffusion policy ๊ฐ์ํ ์ฐ๊ตฌ๋ ODE solver ๋๋ ๋ช ๋จ๊ณ์ sampling์ ์์กดํ๋ฉฐ, Consistency Policy๋ ์ฌ์ ํ ์ฌ๋ฌ ๋ฐ๋ณต์ด ํ์ํ๋ค. ์ง์ ํ ๋จ์ผ ๋จ๊ณ distillation์ผ๋ก robotic control์ ๊ฐ์ํํ๋ ์ฐ๊ตฌ๋ ๋ถ์กฑํ๋ค.
- Why: ๋์ ํ๊ฒฝ๊ณผ ์์ ์ ์ฝ ๋ก๋ด์์๋ ๋น ๋ฅธ ์๋ต์ด ํ์์ ์ด๋ฉฐ, ํ๊ฒฝ ๋ณํ์ ์ ์ํ๊ฒ ๋์ํ ์ ์์ผ๋ฉด task ์คํจ๋ก ์ด์ด์ง๋ค. ๋จ๊ณ inference๋ก ์ค์๊ฐ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ๊ฒ์ด ์ค์ํ๋ค.
- Approach: ์ฌ์ ํ์ต๋ diffusion policy์ score network์ ์๋ก์ด one-step generator์ score network ๊ฐ KL divergence๋ฅผ ์ต์ํํ๋ distillation ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. Generator์ generator score network๋ฅผ ์๋ณธ ๋ชจ๋ธ๋ก ์ด๊ธฐํํ์ฌ ํจ์จ์ ์ธ ํ์ต์ ๋ฌ์ฑํ๋ค.
Achievement
Figure 1: Comparison of Diffusion Policy and One-Step Diffusion Policy (OneDP). We demon-
- ์ถ๋ก ์๋ ๋ํญ ๊ฐ์ : 1.49 Hz์์ 62.5 Hz๋ก 42๋ฐฐ ํฅ์ (real-world ๋ก๋ด ์คํ)
- ์ต๊ณ ์์ค์ ์ฑ๋ฅ: Robomimic ๋ฒค์น๋งํฌ 6๊ฐ ๊ณผ์ ์์ state-of-the-art ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ํจ์จ์ ํ์ต: Distillation ์๋ ด์ ํ์ํ ์ถ๊ฐ ํ์ต ๋น์ฉ์ด ์๋ณธ ํ์ต์ 2%-10%์ ๋ถ๊ณผ
- ๋น ๋ฅธ task ์๋ฃ: ์ค์ task ์๋ฃ ์๊ฐ 36.36์ด์์ 25.81์ด๋ก ๋จ์ถ
- ๋์ ํ๊ฒฝ ๋์: ํ๊ฒฝ ๋ณํ(object perturbation)์ ๋ํ ์ ์ํ ๋ฐ์์ผ๋ก ๋์ ์ฑ๊ณต๋ฅ ์ ์ง
How
Figure 2: Diffusion Distillation Pipeline. a) Our one-step action generator processes image-based
- One-step implicit action generator Gฮธ ์ค๊ณ: ๋
ธ์ด์ฆ z์ observation O๋ฅผ ์
๋ ฅ๋ฐ์ single-step action ์์ฑ
- Generator score network ฯฯ ๋์
: Generator๊ฐ ์์ฑํ actions์ score ์ถ์
- KL divergence ์ต์ํ: ์ฌ์ ํ์ต๋ diffusion policy์ score network ฯฯ์ generator score network ฯฯ์ ์ฐจ์ด๋ฅผ ์์ค ํจ์๋ก ์ ์
- Score difference loss ํ์ฉ: KL divergence์ gradient๋ฅผ score difference๋ก ํํํ์ฌ ํจ์จ์ ํ์ต
- ์ด๊ธฐํ ์ ๋ต: Generator์ generator score network๋ฅผ ์๋ณธ diffusion model๋ก ์ด๊ธฐํํ์ฌ ๋น ๋ฅธ ์๋ ด ๋ฌ์ฑ
- Forward diffusion chain ํ์ฉ: Generated actions์ diffusion process๋ฅผ ์ ์ฉํ์ฌ ๋ค์ํ noise level์์ policy ์ ๋ ฌ
Originality
- Robotic control์ ์ํ ์ต์ด์ ์ง์ ํ one-step diffusion distillation ๋ฐฉ๋ฒ ์ ์ (Consistency Policy๋ ์ฌ์ ํ ์ฌ๋ฌ ๋จ๊ณ ํ์)
- SDS/VSD์ ์ฑ๊ณต์ robot policy ์์ญ์ผ๋ก ์ฒ์ ์ ์ฉํ policy-matching distillation ๋ฐฉ๋ฒ๋ก
- Action distribution์ KL divergence๋ฅผ diffusion chain ์ ์ฒด์ ๊ฑธ์ณ ์ต์ํํ๋ novel loss formulation
- Initialization ์ ๋ต์ผ๋ก 2%-10% ์ถ๊ฐ ํ์ต๋ง์ผ๋ก ์๋ ด ๊ฐ๋ฅํ๊ฒ ํ ํจ์จ์ ์ค๊ณ
Limitation & Further Study
- ํ๊ฐ๊ฐ 6๊ฐ simulation task์ 4๊ฐ real-world task๋ก ์ ํ์ ์ด๋ฉฐ, ๋ ๋ค์ํ task ๋ฒ์์ ๊ฒ์ฆ ํ์
- Diffusion chain ์ ์ฒด์ ๋ํ KL divergence ๊ณ์ฐ์ผ๋ก ์ธํ ๋ฉ๋ชจ๋ฆฌ ์ค๋ฒํค๋ ๋ฏธ๋ถ์
- Generator score network์ ์๋ ด์ฑ๊ณผ ์์ ์ฑ์ ๋ํ ์ด๋ก ์ ๋ถ์ ๋ถ์ฌ
- One-step generator์ generalization ๋ฅ๋ ฅ ๋ฐ ์๋ก์ด ํ๊ฒฝ์ ๋ํ transfer learning ์ฑ๋ฅ ๋ฏธํ๊ฐ
- Offline RL ์ค์ ์์์ ์ฑ๋ฅ์ ๋ค๋ฃจ์ง ์์ผ๋ฉฐ, online learning ์๋๋ฆฌ์ค์์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ ๋ฏธํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: One-Step Diffusion Policy๋ diffusion ๊ธฐ๋ฐ ๋ก๋ด ์ ์ด์ ์ถ๋ก ์๋ ๋ฌธ์ ๋ฅผ ์ฐ์ํ๊ฒ ํด๊ฒฐํ๋ ํ์ ์ ์ ๊ทผ๋ฒ์ด๋ค. ์คํ ๊ฒฐ๊ณผ๊ฐ ๊ฐ๋ ฅํ๊ณ ๋ฐฉ๋ฒ๋ก ์ด ๋ช
ํํ๋ฉฐ ์ค์ ๋ก๋ด ์ ํ๋ฆฌ์ผ์ด์
์ ๊ฐ๋ฅ์ฑ์ ํฌ๊ฒ ํ๋ํ ์ค์ํ ์ฐ๊ตฌ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์