ManiFlow: A General Robot Manipulation Policy via Consistency Flow Training
์ ์: Ge Yan, Jiyue Zhu, Yuquan Deng, Shiqi Yang, Ri-Zhao Qiu, Xuxin Cheng, Marius Memmel, Ranjay Krishna, Ankit Goyal, Xiaolong Wang, Dieter Fox | ๋ ์ง: 2025-09-01 | URL: https://arxiv.org/abs/2509.01819 📄 PDF
Essence
Figure 2: Policy Architecture of ManiFlow. Our system processes 2D or 3D visual observations,
ManiFlow๋ flow matching๊ณผ consistency training์ ๊ฒฐํฉํ์ฌ 1-2 inference step์ผ๋ก ๊ณ ํ์ง์ dexterous action์ ์์ฑํ๋ visuomotor imitation learning policy์ด๋ค. DiT-X ์ํคํ
์ฒ๋ฅผ ํตํด visual, language, proprioceptive ์
๋ ฅ์ ํจ์จ์ ์ผ๋ก ์กฐ๊ฑดํํ๋ฉฐ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
Motivation
- Known: ์ต๊ทผ diffusion-based ๋ฐ flow matching ๊ธฐ๋ฐ ์ ์ฑ
ํ์ต์ด robot manipulation์์ ์ฑ๊ณผ๋ฅผ ๋ณด์์ผ๋, ๊ธฐ์กด flow matching ์ ์ฑ
๋ค์ inference ํจ์จ์ฑ, robustness, ๊ทธ๋ฆฌ๊ณ ๋ณต์กํ dexterous task์์์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ ํ์ ์ด๋ค.
- Gap: ๊ธฐ์กด flow matching ์ ์ฑ
๋ค์ multi-fingered interaction์ ๋ณต์ก์ฑ ํฌ์ฐฉ, ์๊ฐ์ coherence ์ ์ง, ๋ฏธํ์ต ์๋๋ฆฌ์ค๋ก์ ์ผ๋ฐํ, ๊ทธ๋ฆฌ๊ณ ๋ค์ค ๋ชจ๋ฌ ์
๋ ฅ(visual, language, proprioception)์ ์ถฉ๋ถํ ๋ชจ๋ธ๋งํ์ง ๋ชปํ๋ ์ํคํ
์ฒ ์ ์ฝ์ด ์๋ค.
- Why: ์ ๋ฐํ๊ณ dexterousํ action ์์ฑ์ ์ค์ ๋ก๋ด ์กฐ์ ์์
์ ํต์ฌ์ด๋ฉฐ, inference ํจ์จ์ฑ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์์ ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋์ด๊ณ ๋ณต์กํ multi-robot ์์
์ ์๋ํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: ManiFlow๋ flow matching loss์ continuous-time consistency training objective๋ฅผ ์ถ๊ฐํ์ฌ flow path๋ฅผ straightenํ๊ณ , DiT-X ์ํคํ
์ฒ์์ adaptive cross-attention๊ณผ AdaLN-Zero conditioning์ ํตํด ๋ค์ค ๋ชจ๋ฌ ์
๋ ฅ์ ์ ํ์ ์ผ๋ก ์กฐ๊ฑดํํ๋ค.
Achievement
Figure 1: We introduce ManiFlow, a flow matching model excelling in complex manipulation tasks,
- ๊ณ ํจ์จ action ์์ฑ: 1-2 inference step์ผ๋ก ๊ณ ํ์ง dexterous action ์์ฑ, pretrained teacher model ๋ถํ์
- ์๋ฎฌ๋ ์ด์
์ฑ๋ฅ ํฅ์: 12๊ฐ dexterous task์์ image ๊ธฐ์ค 45.6%, pointcloud ๊ธฐ์ค 11.0%, 48๊ฐ multi-task ์ค์ ์์ 31.4% ๊ฐ์
- ์ค์ ๋ก๋ด ์ฑ๋ฅ: single-arm, bimanual, humanoid ๋ก๋ด ์ค์ ์์ 3D Diffusion Policy ๋๋น 58% ์ด์์ ์ฑ๊ณต๋ฅ ๊ฐ์
- ๊ฐ๊ฑด์ฑ ๋ฐ ์ผ๋ฐํ: novel object์ background ๋ณํ์ ๋ํ ์ฐ์ํ robustness, 4๊ฐ robustness test task์์ ฯ0 ๋ชจ๋ธ ๋๋น 58% ๊ฐ์
- ํ์ฅ์ฑ: ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์ ๋ํ ์ฐ์ํ scaling capability ์
์ฆ
How
Figure 3: ManiFlow Consistency Training. Given a flow path that smoothly transforms action
- Continuous-time Consistency Training: flow model์ ฮt ์ธ์ ์ถ๊ฐ, ์ด์ํ trajectory ์ ๋ค์ ์ผ๊ด์ฑ์ enforcingํ์ฌ flow path straightening
- Time Space Sampling Strategy: Uniform, logit-normal, mode, CosMap ๋ฑ 5๊ฐ์ง timestep sampling ์ ๋ต ๋น๊ต ๋ฐ beta/continuous-time sampling์ ์ฐ์์ฑ ์
์ฆ
- DiT-X ์ํคํ
์ฒ: DiT ๊ธฐ๋ฐ์ผ๋ก high-dimensional input์๋ cross-attention, low-dimensional input์๋ AdaLN-Zero conditioning ์ ์ฉ
- Multi-modal Conditioning: visual tokens, language tokens, proprioceptive input์ selective feature modulation์ ํตํด ํจ์จ์ ์ผ๋ก ํตํฉ
- EMA Model: consistency training ์์ ํ๋ฅผ ์ํด exponential moving average ๊ธฐ๋ฐ teacher model ํ์ฉ
- Joint Optimization: flow matching loss์ consistency training loss๋ฅผ ๋์์ ์ต์ ํํ์ฌ ํจ์จ์ฑ๊ณผ ํ์ง ๋์ ๋ฌ์ฑ
Originality
- Flow matching์ continuous-time consistency training์ ์ฒ์์ผ๋ก ํตํฉํ์ฌ few-step generation ๋ฌ์ฑ
- Timestep sampling ์ ๋ต์ ๋ํ ์ฒด๊ณ์ ์ธ ablation study๋ก flow matching์ ์ค๊ณ ์๋ฆฌ ๊ท๋ช
- DiT-X ์ํคํ
์ฒ์ adaptive cross-attention + AdaLN-Zero ์กฐํฉ์ผ๋ก multi-modal ์กฐ๊ฑดํ์ ์๋ก์ด ์ ๊ทผ
- Teacher model ์์ด consistency training์ ๊ตฌํํ์ฌ training efficiency ํฅ์
- Single-arm, bimanual, humanoid ๋ก๋ด์ ์์ฐ๋ฅด๋ ํฌ๊ด์ ์ธ ์ค์ ํ๊ฒฝ ํ๊ฐ
Limitation & Further Study
- Continuous-time consistency training์ theoretical justification ๋ฐ convergence ๋ถ์ ๋ถ์กฑ
- EMA model์ update frequency์ decay rate์ ๋ํ hyperparameter sensitivity ๋ฏธ๋ถ์
- ์๊ฐ ์์ธก(temporal consistency) ๋ช
์์ ๋ฉ์ปค๋์ฆ ๋ถ์ฌ - sequence level coherence ๊ฒ์ฆ ํ์
- ๊ณ์ฐ ๋ณต์ก๋ ๋ถ์ ๋ฏธํก - real-time ์ฑ๋ฅ ์๊ตฌ์ฌํญ ํ์ธ ํ์
- ํ์ ์ฐ๊ตฌ: (1) consistency training์ ์๋ ด ์ด๋ก ๋ฐ ์ต์ step size ์ ํ ๋ฐฉ๋ฒ ์ฐ๊ตฌ, (2) temporal consistency๋ฅผ ๋ช
์์ ์ผ๋ก enforcingํ๋ ์์คํจ์ ๊ฐ๋ฐ, (3) ๋ ๋ณต์กํ long-horizon task์์์ ์ฑ๋ฅ ํ๊ฐ, (4) ๋ค์ํ ๋ก๋ด ํํ์ ๋ํ transfer learning ์ฑ๋ฅ ๋ถ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ManiFlow๋ flow matching๊ณผ consistency training์ ํจ๊ณผ์ ์ธ ๊ฒฐํฉ, ์ฒด๊ณ์ ์ธ ablation ๋ถ์, ๊ทธ๋ฆฌ๊ณ ํฌ๊ด์ ์ธ ์ค์ ํ๊ฒฝ ๊ฒ์ฆ์ ํตํด robot manipulation ๋ถ์ผ์์ ์๋นํ ์ง์ ์ ์ด๋ฃจ์๋ค. ํนํ inference ํจ์จ์ฑ๊ณผ ์ค์ ์ฑ๋ฅ์ ๋์ ํฅ์์ ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋์ด๋ ์ค์ํ ๊ธฐ์ฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์