Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies
์ ์: Zhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Tian Nian, Liuao Pei, Shunbo Zhou, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo | ๋ ์ง: 2025-08-27 | URL: https://arxiv.org/abs/2508.20072 📄 PDF
Essence
Figure 1: Paradigm comparison. Continuous diffusion over action chunks (left) versus discrete
Vision-Language-Action (VLA) ๋ชจ๋ธ์ discrete diffusion์ ์ ์ฉํ์ฌ action token์ ์ ์์ ์ผ๋ก ๋์ฝ๋ฉํ๋ unified transformer ์ ์ฑ
์ ์ ์ํ๋ค. ์ด๋ฅผ ํตํด ์๋ํ๊ท ๋ฐฉ์์ ์์ ์ ์ฝ์ ๊ทน๋ณตํ๊ณ ๋ถ๋ฆฌ๋ decoder ๊ตฌ์กฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
Motivation
- Known: ๊ธฐ์กด VLA๋ ์๋ํ๊ท ๋ฐฉ์์ผ๋ก ๊ณ ์ ๋ ์์๋ก action์ ์์ฑํ๊ฑฐ๋ backbone ์ธ๋ถ์ MLP/diffusion head๋ฅผ ๋ถ์ฐฉํ์ฌ ์ ๋ณด ๊ฒฝ๋ก๊ฐ ๋จํธํ๋๊ณ ํ๋ จ์ด ๋ณต์กํ๋ค.
- Gap: VLM์ ์ฌ์ ํ์ต๋ priors๋ฅผ ๋ณด์กดํ๋ฉด์๋ unified transformer ๋ด์์ ์ ๊ตํ action ๋ชจ๋ธ๋ง์ ์ํํ ์ ์๋ ๋ฐฉ๋ฒ์ด ๋ถ์ฌํ๋ค.
- Why: Robot manipulation์์ ์ ํํ action ๋ชจ๋ธ๋ง๊ณผ ํจ์จ์ ์ธ ๋ณ๋ ฌ ๋์ฝ๋ฉ์ด ํ์์ ์ด๋ฉฐ, ํตํฉ๋ ๊ตฌ์กฐ๋ ํฅํ ๋๊ท๋ชจ VLA ํ์ฅ์ ๊ธฐ์ด๊ฐ ๋ ์ ์๋ค.
- Approach: Discretized action token์ ๋ํด masked token denoising์ ํตํ discrete diffusion์ ๋จ์ผ transformer ๋ด์์ ์ํํ๋ค. ์ ์์ ๋์ฝ๋ฉ ์์์ secondary re-masking์ ํตํด ๋ถํ์คํ ์์ธก์ ์ฌ๊ฒํ ํ์ฌ ์ผ๊ด์ฑ๊ณผ ์ค๋ฅ ์ ์ ์ ๊ฐ์ ํ๋ค.
Achievement
Figure 3: Benchmarks and tasks. We evaluate Discrete Diffusion VLA across three robot set-
- Unified Architecture: Vision, language, action ์์ฑ์ ๋จ์ผ transformer์์ ์ํํ๋ฉด์ VLM backbone์ ์ฌ์ ํ์ต๋ ๋ฅ๋ ฅ ๋ณด์กด
- Adaptive Decoding: 'easy-then-hard' ์ฒ ํ์ผ๋ก ์ฌ์ด action ์์๋ถํฐ ์ฐ์ ํด๊ฒฐํ๊ณ secondary re-masking์ผ๋ก ๋ถํ์คํ token ์ฌ๋ฐฉ๋ฌธ", '์ฑ๋ฅ ๊ฐ์ : LIBERO 96.3%, SimplerEnv-Fractal 71.2% visual matching, SimplerEnv-Bridge 54.2% ๋ฌ์ฑ (ฯ0 ๋๋น +14.7%, ฯ0-FAST ๋๋น +6.4%)
- ํจ์จ์ฑ: Autoregressive ๋ฐฉ์ ๋๋น ๋ณ๋ ฌ ๋์ฝ๋ฉ์ผ๋ก function evaluation ์ ๊ฐ์
- ์ผ๋ฐํ: LIBERO-OOD ๋ฒค์น๋งํฌ์์ out-of-distribution ๋ฅ๋ ฅ ๊ฐ์
How
- ์ฐ์ control dimension์ binning ๋ฐฉ์์ผ๋ก discrete token์ผ๋ก ๋ณํํ๊ณ ๊ณ ์ ๊ธธ์ด action chunk์ผ๋ก ๊ตฌ์ฑ
- Discrete diffusion์ Markov chain์ ์ ์ฉํ์ฌ ๊ฐ token์ mask token์ผ๋ก ๋
๋ฆฝ์ ์ผ๋ก ์์
- Frozen visual features์ pretrained LM text embeddings์ ํจ๊ป ๋จ์ผ transformer์์ cross-entropy loss๋ก masked token ์์ธก ํ๋ จ
- Inference ์ ๋ชจ๋ action token์ผ๋ก ์์ํ์ฌ ์ ๋ขฐ๋์ ๋ฐ๋ผ ์์ธกํ๊ณ ๋ฎ์ ์ ๋ขฐ๋ token์ re-maskํ์ฌ ์๋ ด๊น์ง ๋ฐ๋ณต
- Secondary re-masking์ผ๋ก ์๋ก ๋ค๋ฅธ denoising step ๊ฐ ์ผ๊ด์ฑ ๋ณด์ฅ
Originality
- VLA ๋ถ์ผ์์ discrete diffusion์ ์ฒ์ ์ ์ฉํ์ฌ unified transformer ๋ด์์ action ๋์ฝ๋ฉ ์ํ
- Adaptive decoding order์ iterative re-masking์ ๊ฒฐํฉํ ์๋ก์ด ์ถ๋ก ๋ฉ์ปค๋์ฆ ๋์
- Vision-language capabilities๋ฅผ ๋ณด์กดํ๋ฉด์ action ๋ชจ๋ธ๋ง์ ํตํฉํ๋ ์ํคํ
์ฒ ์ค๊ณ
- Discrete diffusion์ด language ์์ฑ์์ ์ฑ๊ณตํ ์ ๊ทผ์ ์ฒ์์ผ๋ก robot action ๋๋ฉ์ธ์ ํ์ฅ
Limitation & Further Study
- ํ๊ฐ๊ฐ RGB input๋ง ์ฌ์ฉํ๋ฉฐ, depth๋ affordance ์ ๋ณด ํ์ฉ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒํ
- Discrete diffusion์ ์ถ๊ฐ inference step์ผ๋ก ์ธํ ๊ณ์ฐ ์ค๋ฒํค๋์ ๋ํ ์์ธ ๋ถ์ ๋ถ์ฌ
- ๋ณตํฉ ๋ค์ค ๋ก๋ด ํ๋ ฅ ์๋๋ฆฌ์ค์์์ ํ์ฅ์ฑ ๊ฒ์ฆ ํ์
- ์๋ก ๋ค๋ฅธ action discretization ๋ฐฉ์์ ์ํฅ์ ๋ํ ablation study ์ถ๊ฐ ํ์
- ๋ ๋ค์ํ manipulation task์ ํ๊ฒฝ์์์ ์ผ๋ฐํ ์ฑ๋ฅ ํ๊ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ discrete diffusion์ VLA์ ์ฒ์ ์ ์ฉํ์ฌ unified transformer ๊ตฌ์กฐ๋ก vision, language, action์ ํตํฉํ๋ ํ์ ์ ์ธ ์ ๊ทผ์ ์ ์ํ๋ฉฐ, ์ฌ๋ฌ ๋ก๋ด ํ๋ซํผ์์ ๊ฐ๋ ฅํ ์ฑ๊ณผ๋ฅผ ์
์ฆํ๊ณ ํฅํ ๋๊ท๋ชจ VLA ์ฐ๊ตฌ์ ๊ธฐ์ด๋ฅผ ๋ง๋ จํ๋ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์