CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies
์ ์: Fan Du, Feng Yan, Jianxiong Wu, Xinrun Xu, Weiye Zhang, Weinong Wang, Yu Guo, Bin Qian, Zhihai He, Fei Wang, Heng Yang | ๋ ์ง: 2026-04-27 | URL: https://arxiv.org/abs/2604.24622 📄 PDF
Essence
Figure 1: Teaser of CF-VLA. Standard flow matching requires multiple iterative steps to recover action structure from un
๋ณธ ๋
ผ๋ฌธ์ flow matching ๊ธฐ๋ฐ VLA ์ ์ฑ
์ ๋นํจ์จ์ฑ์ ํด๊ฒฐํ๊ธฐ ์ํด coarse-to-fine ๋ ๋จ๊ณ ์์ฑ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์๋ Gaussian ๋
ธ์ด์ฆ๋ฅผ action-prior-guided ์ด๊ธฐํ๋ก ๋ณํํ๊ณ , ๋ ๋ฒ์งธ ๋จ๊ณ์์๋ ๋จ์ผ ์คํ
๊ตญ์ ์ ๊ตํ๋ฅผ ์ํํ์ฌ ์ถ๋ก ์ง์ฐ์๊ฐ์ 75.4% ๊ฐ์์ํค๋ฉด์ ์ฑ๋ฅ์ ์ ์งํ๋ค.
Motivation
- Known: Flow matching ๊ธฐ๋ฐ VLA ์ ์ฑ
๋ค(ฯโ, ฯโ.โ
๋ฑ)์ ๊ฐ๋ ฅํ ํํ๋ ฅ์ ์ ๊ณตํ์ง๋ง, Gaussian ๋
ธ์ด์ฆ์์ ํ๋ ๊ตฌ์กฐ๋ฅผ ๋ณต๊ตฌํ๊ธฐ ์ํด ๋ค์ค ์คํ
์ถ๋ก ์ด ํ์ํ์ฌ ์ค์๊ฐ ์ ์ฝ ์กฐ๊ฑด ํ์์ ํจ์จ์ฑ-ํ์ง ํธ๋ ์ด๋์คํ๊ฐ ์ด์
ํ๋ค. Minimal Iterative Policy (MIP)๋ ๋ ๋จ๊ณ ํ๊ท ์ค๊ณ๋ก ์ ์ฌํ ํจ์จ์ฑ ๊ฐ์ ์ ์๋ํ์ผ๋, ์ก์
์ธ์ ์ด๊ธฐํ ๋ถํฌ๋ฅผ ๋ช
์์ ์ผ๋ก ํ์ตํ์ง ์๋๋ค.
- Gap: ๊ธฐ์กด flow matching ๋ฐฉ์์ ์ด๊ธฐ ๋จ๊ณ์ ์ ์ญ ์์ก(global transport)๊ณผ ํ๊ธฐ ๋จ๊ณ์ ๊ตญ์ ์ ๊ตํ(local refinement)๋ฅผ ๋จ์ผ ์๋์ฅ์ผ๋ก ์ฒ๋ฆฌํ์ฌ, ๋ฎ์ NFE(Number of Function Evaluations) ์์ฐ์์ ๋ถ์ต์ ์ ํจ์จ์ฑ์ ์ด๋ํ๋ค. ๋ฌธ์ ์ ๊ตฌ์กฐ(Gaussian์์ ํ๋ ๋ถํฌ๋ก์ ์ด๋)์ ๊ณ์ฐ ๊ตฌ์กฐ(๋์ง์ ๋ฐ๋ณต ์๋ฒ) ๊ฐ์ ๋ถ์ผ์น๊ฐ ํต์ฌ ๋ฌธ์ ์ด๋ค.
- Why: ์ค์๊ฐ ๋ก๋ด ์กฐ์์์ ์ถ๋ก ์ง์ฐ์๊ฐ์ ํ์๋ฃจํ ์ ์ด ์ฑ๋ฅ์ ์ง์ ์ ์ผ๋ก ์ํฅ์ ๋ฏธ์น๋ค. Flow matching์ ๊ตฌ์กฐ์ ๋นํจ์จ์ฑ์ ํด๊ฒฐํ์ฌ ์ต์ํ์ ๊ณ์ฐ ๋น์ฉ์ผ๋ก ๊ณ ํ์ง ํ๋์ ์์ฑํ ์ ์๋ค๋ฉด, ์ค์ ๋ก๋ด ๋ฐฐํฌ์ ์ค์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค. ๋ํ coarse-to-fine ๋ถํด๋ ์์ฑ ๋ชจ๋ธ๋ง์ ๊ทผ๋ณธ์ ์ธ ๊ตฌ์กฐ ์ดํด๋ฅผ ์ ๊ณตํ๋ค.
- Approach: CF-VLA๋ ๋ ๊ฐ์ง ํต์ฌ ๊ธฐ์ ์ ๊ฒฐํฉํ๋ค: (1) ์กฐ๊ฑด๋ถ ์ฌํ ๋ถํฌ๋ฅผ ํ์ตํ์ฌ Gaussian ๋
ธ์ด์ฆ๋ฅผ action-aware ์ด๊ธฐํ๋ก ๋ณํํ๋ coarse ์คํ
์ด์ง, (2) ๊ณ ์ ์๊ฐ ์ ๊ตํ๋ฅผ ์ํํ๋ fine ์คํ
์ด์ง. ์์ ์ ์ธ ํ์ต์ ์ํด ๋จ๊ณ์ ์ต์ ํ ์ ๋ต์ ๋์
ํ์ฌ ๋จผ์ ์ ์ด๋ coarse ์์ธก๊ธฐ๋ฅผ ํ์ตํ ํ ์ ์ฒด ๊ฒฐํฉ ์ต์ ํ๋ก ์ ํํ๋ค.
Achievement
- CALVIN ๋ฒค์น๋งํฌ: NFE=2 ์กฐ๊ฑด์์ ฯโ.โ
(NFE=10) ์ฑ๋ฅ์ ํ์ ํ๋ฉด์ 75.4% ์ง์ฐ์๊ฐ ๊ฐ์\n- LIBERO ๋ฒค์น๋งํฌ: ๋์ ์ฑ๊ณต๋ฅ ๊ณผ ํจ์จ์ฑ ๋ฌ์ฑ\n- ์ค๋ก๋ด ์คํ: 5๊ฐ ๋ํ ์กฐ์ ์์
์์ ํ๊ท 83.0% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ, MIP ๋๋น 19.5ํฌ์ธํธ, ฯโ.โ
๋๋น 4.0ํฌ์ธํธ ํฅ์\n- ์ผ๋ฐํ: contact-rich ๋ฐ bimanual ์์
์์ ์ถ๊ฐ ์ด๋ ํ์ธ
How
Figure 3: Geometric view of CF-VLA. Standard flow matching starts
- Coarse ์คํ
์ด์ง: ์กฐ๊ฑด๋ถ ๋ถํฌ q(u|o)๋ฅผ ํ์ตํ์ฌ Gaussian ๋
ธ์ด์ฆ ฯต์ endpoint ์๋๋ก ๋ณํ (u = ฯต - ฮด)\n- Fine ์คํ
์ด์ง: ๊ณ ์ ์๊ฐ flow matching์ผ๋ก coarse ์ด๊ธฐํ์์ ์ต์ข
ํ๋์ผ๋ก ์ ๊ตํ\n- ๋ถ์ฐ ์ธ์ ๊ณต์ํ: ๊ตฌ์กฐํ๋ ์ด๊ธฐํ ์ง์ ๊ทผ์ฒ์ ์ ๊ตํ ๋์ญํ ์ง์ค\n- ๋จ๊ณ์ ํ๋ จ: Phase 1์์ coarse ์์ธก๊ธฐ ๋จ๋
ํ์ต, Phase 2์์ coarse์ fine ๊ฒฐํฉ ์ต์ ํ
Originality
- ์๋ก์ด ๊ด์ : Flow matching์ ๋นํจ์จ์ฑ์ ์ํ๋ง ๊ถค์ ๋จ์ถ์ด ์๋ ์์์ ์ฌ๊ตฌ์ฑ ๊ด์ ์์ ์ ๊ทผํ๋ ๊ฒ์ด ํ์ ์ ์\n- ๋ช
์์ ๋ถํด: ์ ์ญ ์ ๋ ฌ(global alignment)๊ณผ ๊ตญ์ ์ ๊ตํ(local refinement)๋ฅผ ๋ช
์์ ์ผ๋ก ๋ถ๋ฆฌํ ํ๋ ์์ํฌ\n- ๋ถ์ฐ ์ธ์ ๊ณต์ํ: ์กฐ๊ฑด๋ถ ์ฌํ ๋ถํฌ๋ฅผ ํตํ action-prior-guided ์ด๊ธฐํ๋ ์ด์ ๋ฐฉ๋ฒ๋ค์์ ์๋๋์ง ์์ ์ ๊ทผ\n- ํ๋ฌ๊ทธ-์ค-ํ๋ ์ด ์ค๊ณ: ์์์ flow-based VLA ์ ์ฑ
์ ์ ์ฉ ๊ฐ๋ฅํ ๋ฒ์ฉ์ฑ
Limitation & Further Study
- NFE ์ ์ฝ: ๋ ์คํ
๊ณ ์ ์ค๊ณ๋ก ์ธํด ๋ ๋ง์ ํจ์ ํ๊ฐ๊ฐ ํ์ํ ๊ฒฝ์ฐ ์ถ๊ฐ ๊ฐ์ ๊ฐ๋ฅ์ฑ ์ ํ\n- ํ๋ จ ๋ณต์ก๋: ๋จ๊ณ์ ์ต์ ํ ์ ๋ต์ ์ถ๊ฐ ํ๋ จ ๋ณต์ก๋์ hyperparameter ํ๋ ํ์\n- ๋ถ์ ๊น์ด: Liu et al.์ oracle velocity ๋ถ์์ ์์กดํ๋ฉฐ, coarse ์คํ
์ด์ง์ ์ด๋ก ์ ์๋ ด์ฑ ๋ณด์ฅ ๋ถ์ฌ\n\nํ์ ์ฐ๊ตฌ ๋ฐฉํฅ:\n- ์ ์์ NFE๋ฅผ ํตํ ๋์ ๋จ๊ณ ๊ฐ์ ์กฐ์ \n- ๋ค์ํ ํ๋ ๋ถํฌ์ ๋ํ generalization ๋ถ์\n- ๋ค๋ฅธ ์กฐ๊ฑด๋ถ ์์ฑ ๋ชจ๋ธ (diffusion, score matching ๋ฑ)๊ณผ์ ํตํฉ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: CF-VLA๋ flow-based VLA ์ ์ฑ
์ ๊ตฌ์กฐ์ ๋นํจ์จ์ฑ์ ๋ช
ํํ๊ฒ ํ์
ํ๊ณ , coarse-to-fine ๋ถํด๋ฅผ ํตํด ์ค์ฉ์ ์ด๊ณ ํจ๊ณผ์ ์ธ ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ค. 75.4%์ ์ง์ฐ์๊ฐ ๊ฐ์์ ์ค๋ก๋ด 83.0% ์ฑ๊ณต๋ฅ ์ ๊ฐ๋ ฅํ ๊ฒฝํ์ ๊ฒ์ฆ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋ฐฉ๋ฒ์ ํ๋ฌ๊ทธ-์ค-ํ๋ ์ด ํน์ฑ์ผ๋ก ์ธํด ๊ด๋ฒ์ํ ์ ์ฉ์ฑ์ ๊ฐ์ง๋ค. ๋ค๋ง ์ด๋ก ์ ๋ถ์๊ณผ ๋ ๊น์ ํต์ฐฐ์ด ์ถ๊ฐ๋๋ฉด ๋์ฑ ์์ฑ๋ ์๋ ์ฐ๊ตฌ๊ฐ ๋ ๊ฒ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์