VITA: Vision-to-Action Flow Matching Policy
์ ์: Dechen Gao, Boqi Zhao, Andrew Lee, Ian Chuang, Hanchu Zhou, Hang Wang, Zhe Zhao, Junshan Zhang, Iman Soltani | ๋ ์ง: 2025-07-17 | URL: https://arxiv.org/abs/2507.13231 📄 PDF
Essence
VITA๋ ์๊ฐ ํํ์์ ์ ์ฌ ํ๋์ผ๋ก ์ง์ ํ๋ฅด๋ noise-free flow matching ์ ์ฑ
์ผ๋ก, ๊ธฐ์กด์ ๋ฐ๋ณต์ ์ธ ์๊ฐ ์กฐ๊ฑดํ ๋ชจ๋์ ์ ๊ฑฐํ์ฌ ์ถ๋ก ์๋์ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ํฅ์์ํจ๋ค.
Motivation
- Known: Flow matching๊ณผ diffusion ๊ธฐ๋ฐ ์ ์ฑ
๋ค์ด cross-modal ์์ฑ ์์
์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์์ผ๋, Gaussian ๋ถํฌ์์ ์ํ๋งํ๊ณ generative ๊ณผ์ ์ ๊ฐ ๋จ๊ณ์์ ์๊ฐ ์ ๋ณด๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ฃผ์
ํ๋ conditioning ๋ชจ๋์ ํ์๋ก ํ์ฌ ์๊ฐ๊ณผ ๋ฉ๋ชจ๋ฆฌ ์ค๋ฒํค๋๊ฐ ํฌ๋ค.
- Gap: ๊ธฐ์กด flow matching ์ ์ฑ
์ robotic control์์ ํ์ํ ์ค์๊ฐ ์ฒ๋ฆฌ(50-200Hz)๋ฅผ ์ํด ์กฐ๊ฑดํ ๋ฉ์ปค๋์ฆ์ ๋นํจ์จ์ฑ์ ๊ทน๋ณตํด์ผ ํ๋ฉฐ, ์๊ฐ ํํ๊ณผ ํ๋ ๊ฐ์ ์ฐจ์ ๋ฐ ๊ตฌ์กฐ์ ๋ถ์ผ์น ๋ฌธ์ ๊ฐ ํด๊ฒฐ๋์ง ์์๋ค.
- Why: ๋ก๋ด ์ ์ด์ ์ค์๊ฐ์ฑ ์๊ตฌ์ ์ ํ๋ ํ๋ ๋ฐ์ดํฐ๋ก๋ถํฐ ํจ์จ์ ์ผ๋ก ์ ์ฑ
์ ํ์ตํ๋ ๊ฒ์ด ํ์์ ์ด๋ฉฐ, noise-free flow matching์ ํตํด ์ํคํ
์ฒ๋ฅผ ๋จ์ํํ๊ณ ๊ณ์ฐ ํจ์จ์ฑ์ ํฌ๊ฒ ๊ฐ์ ํ ์ ์๋ค.
- Approach: Action autoencoder๋ฅผ ํตํด raw action์ ์๊ฐ ์ ์ฌ ๋ฒกํฐ์ ์ ๋ ฌ๋ ๊ตฌ์กฐํ๋ ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ๋งคํํ๊ณ , flow latent decoding์ ์ ์ํ์ฌ ODE ํด๊ฒฐ ๋จ๊ณ๋ฅผ ํตํด ํ๋ ์ฌ๊ตฌ์ฑ ์์ค์ ์ญ์ ํํจ์ผ๋ก์จ end-to-end ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Achievement
Figure 4: Autonomous rollouts of VITA on five challenging real-world tasks, including two bimanual
- ์ถ๋ก ์๋ ํฅ์: ๊ธฐ์กด conditioning ๋ชจ๋ ๋ฐฉ์ ๋๋น 1.5ร-2ร ๋น ๋ฅธ ์ถ๋ก ์๋ ๋ฌ์ฑ
- ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ: 18.6%-28.7% ๋ฎ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ผ๋ก ๋์ผํ ๋ชจ๋ธ ํฌ๊ธฐ์์ ์ฐ์ํ ์ฑ๋ฅ ๊ตฌํ
- ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ: ALOHA์ Robomimic์ 9๊ฐ ์๋ฎฌ๋ ์ด์
๋ฐ 5๊ฐ ์ค์ ์์
์์ ์ต์ฒจ๋จ ์ ์ฑ
๊ณผ ๋๋ฑํ๊ฑฐ๋ ์ฐ์ํ ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ์ํคํ
์ฒ ๋จ์ํ: ์ฒซ MLP-only flow matching ์ ์ฑ
์ผ๋ก ALOHA ์ด์ ์กฐ์๊ณผ ๊ฐ์ด ๋์ ์ ์ธ ์์
์ ์ฑ๊ณต
- ํ์ต ์์ ์ฑ: ๋น ๋ฅธ ์๋ ด๊ณผ ๋์ ์ ๋ฐ๋๋ฅผ ์ ์งํ๋ฉด์ ์์ ์ ์ธ ํ์ต ๋ฌ์ฑ
How
Figure 2: An overview of the VITA architecture: The vision encoder maps observations into a source
- ์๊ฐ ์ธ์ฝ๋๋ก ์นด๋ฉ๋ผ ์ด๋ฏธ์ง๋ฅผ latent image ๋ถํฌ๋ก ๋ณํ
- Action autoencoder๋ฅผ ํตํด raw action์ structured latent action space๋ก ์ธ์ฝ๋ฉ
- Flow matching์ ์ฌ์ฉํ์ฌ latent image distribution์์ latent action distribution์ผ๋ก์ ์ง์ ํ๋ฆ ํ์ต
- Flow latent decoding: ODE ํด๊ฒฐ ๋จ๊ณ ๋์ ํ๋ ์ฌ๊ตฌ์ฑ ์์ค์ ์ญ์ ํํ์ฌ latent action collapse ๋ฐฉ์ง
- Action decoder๋ฅผ ํตํด ์์ฑ๋ latent action์ ์ค์ ํ๋์ผ๋ก ๋์ฝ๋ฉ
- Action autoencoder์ flow matching ๋ชจ๋ธ์ joint training์ผ๋ก ํจ๊ป ์ต์ ํ
Originality
- Flow matching์ ์ด๋ก ์ ์ ์ฐ์ฑ(source ๋ถํฌ ๋ฌด์ ์ฝ)์ ์ฒ์์ผ๋ก visuomotor ์ ์ฑ
์ ์ค์ ๋ก ์ ์ฉํ์ฌ noise-free framework ๊ฐ๋ฐ
- Action autoencoder์ flow matching์ ๊ฒฐํฉ์ ํตํด ์ฐจ์ ๋ฐ ๊ตฌ์กฐ ๋ถ์ผ์น ๋ฌธ์ ํด๊ฒฐ
- Flow latent decoding์ด๋ผ๋ ์๋ก์ด ๊ธฐ๋ฒ์ผ๋ก sparse action ๋ฐ์ดํฐ ํ๊ฒฝ์์ latent space collapse๋ฅผ ๋ฐฉ์งํ๋ end-to-end ํ์ต ์ ๋ต ์ ์
- ๊ธฐ์กด์ ์ฌ์ ํ์ต๋ ๊ณ ์ latent space(image generation์์ ์ฌ์ฉ) ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, ์ ํ๋ action ๋ฐ์ดํฐ๋ก๋ถํฐ jointly ํ์ตํ๋ ์๋ก์ด ํจ๋ฌ๋ค์ ์ ์
Limitation & Further Study
- ํ๊ฐ๊ฐ ALOHA์ Robomimic ๋ฒค์น๋งํฌ๋ก ์ ํ๋์ด ์์ผ๋ฉฐ, ๋ ๋ค์ํ ๋ก๋ด ํ๋ซํผ๊ณผ ์์
์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ด ๋ฏธ๊ฒ์ฆ๋จ
- Grid-based visual representation ์ฌ์ฉ ์ transformer ๊ฐ์ ๋ณต์กํ ์ํคํ
์ฒ๊ฐ ์ฌ์ ํ ํ์ํ๋ฏ๋ก, vector-based ํํ ๋๋น ํจ์จ์ฑ ์ด์ ์ด ์ ํ๋จ
- Flow latent decoding์ ์ถ๊ฐ ๊ณ์ฐ ๋น์ฉ(ODE ๋จ๊ณ๋ณ ์ญ์ ํ)์ ๋ํ ์์ธ ๋ถ์์ด ๋ถ์กฑํจ
- ํ์ ์ฐ๊ตฌ๋ก multi-modal observation(์: ์ด๊ฐ, ์์ฑ)์ ๋ํ ํ์ฅ๊ณผ ๋ ๋ณต์กํ ์กฐ์ ์์
์์์ ์ ์ฉ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: VITA๋ flow matching์ ์ด๋ก ์ ์์ ๋๋ฅผ ์๋ฆฌํ๊ฒ ํ์ฉํ์ฌ visuomotor ์ ์ฑ
์ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๋์์ ๋ฌ์ฑํ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ด๋ฉฐ, noise-free framework์ flow latent decoding์ ๋
์ฐฝ์ ์ธ ๊ธฐ์ ์ ํ์ ์ผ๋ก์ ๋ก๋ด ์ ์ด ๋ถ์ผ์ ์ค์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์