FAST: Efficient Action Tokenization for Vision-Language-Action Models
๐ง Audio Overview ์์ฑ
์ ์ : Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine | ๋ ์ง : 2025-01-16 | URL : https://arxiv.org/abs/2501.09747 📄 PDF
Essence
Fig. 2: Left: FAST tokenization enables training of autoregres-
Robot action tokenization์ ์ํด discrete cosine transform (DCT) ๊ธฐ๋ฐ์ FAST ๋ฐฉ์์ ์ ์ํ์ฌ, ๊ณ ์ฃผํ ๊ณ ์ ๋ฐ ๋ก๋ด ์ ์ด ์์
์์ autoregressive VLA๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์๊ฒ ํจ.
Motivation
Known : Transformer ๊ธฐ๋ฐ vision-language-action (VLA) ๋ชจ๋ธ์ ๋ณต์กํ ๋ก๋ด ํ๋์ ์ ํฌ์ฐฉํ์ง๋ง, ์ฐ์ action ์ ํธ์ tokenization ๋ฐฉ์ ์ ํ์ด ์ฑ๋ฅ์ ์ค์ํ ์ํฅ์ ๋ฏธ์นจ. ๊ธฐ์กด per-dimension per-timestep binning ๋ฐฉ์์ ๋จ์ํ๊ณ ๋๋ฆฌ ์ฌ์ฉ๋๊ณ ์์.
Gap : ํ์ฌ์ simple binning tokenization ๋ฐฉ์์ ๊ณ ์ฃผํ ๋ฐ์ดํฐ์์ ์๊ฐ ๋จ๊ณ ๊ฐ ๋์ ์๊ด๊ด๊ณ๋ก ์ธํด dexterous skill ํ์ต์์ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ์ ํ๋จ. ์ด๋ก ์ธํด autoregressive VLA๊ฐ diffusion ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋นํด ๊ณ ์ฃผํ ์ ์ด ์์
์์ ๋ค๋จ์ด์ง.
Why : Autoregressive ๋ชจ๋ธ์ ๊ณ์ฐ ํจ์จ์ฑ๊ณผ ํ์ฅ์ฑ ์ธก๋ฉด์์ ์ฐ์ํ์ง๋ง, action tokenization์ ํ๊ณ๋ก ๊ณ ์ ๋ฐ ์กฐ์ ์์
์ ์ ์ฉ๋์ง ๋ชปํ๊ณ ์์. ์ด๋ฅผ ํด๊ฒฐํ๋ฉด ๋ ๋น ๋ฅด๊ณ ํจ์จ์ ์ธ VLA ํ์ต์ด ๊ฐ๋ฅํด์ง.
Approach : Action sequence๋ฅผ DCT ๊ธฐ๋ฐ time-series compression์ ํตํด tokenizeํ์ฌ ์ฐ์ ์ ํธ ๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ์ค์. 1M ๊ฐ์ ์ค์ ๋ก๋ด trajectory๋ก ํ์ตํ ๋ฒ์ฉ tokenizer FAST+๋ฅผ ์ ๊ณตํจ.
Achievement
Fig. 1: We propose FAST, a simple yet effective approach
๊ณ ์ฃผํ ์ ์ด ์์
ํด๊ฒฐ : FAST tokenization์ผ๋ก ํ์ค binning ๋ฐฉ์์ด ์์ ํ ์คํจํ๋ ๊ณ ์ฃผํ(20Hz ์ด์) dexterous ์์
์์ autoregressive VLA ํ์ต ์ฑ๊ณต
DROID ๋ฐ์ดํฐ์
์ ์ฉ : ์ฒ์์ผ๋ก ๋๊ท๋ชจ multitask ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ์
DROID์์ ํจ์จ์ ์ธ VLA ํ์ต ๋ฌ์ฑ
์ฑ๋ฅ ๋ฐ ํจ์จ์ฑ : Diffusion VLA์ ๋๋ฑํ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ training time 5๋ฐฐ ๋จ์ถ
๋ฒ์ฉ tokenizer : FAST+ tokenizer๋ก ๋จ์ผ ํ, ์ํ, mobile robot ๋ฑ ๋ค์ํ ๋ก๋ด์ action space ์ง์
๋๊ท๋ชจ ํ์ต : 10k ์๊ฐ์ ๋ก๋ด ๋ฐ์ดํฐ๋ก scaling ๊ฐ๋ฅํจ์ ์
์ฆ
How
Fig. 4: Overview of the FAST action tokenization pipeline. Given a normalized chunk of actions, we apply discrete cosine
Action sequence์์ ์๊ฐ ์๊ด๊ด๊ณ๋ฅผ ์ ๊ฑฐํ๊ธฐ ์ํด discrete cosine transform (DCT)๋ฅผ ์ ์ฉํ์ฌ frequency domain์ผ๋ก ๋ณํ
DCT ๊ณ์๋ฅผ quantizationํ์ฌ action sequence๋ฅผ discrete token์ผ๋ก ๋ณํ
Action chunk ๋ด ์๊ฐ ๋จ๊ณ ๊ฐ ๋์ ์๊ด๊ด๊ณ๋ฅผ ์์ถ์ผ๋ก ํด๊ฒฐํ์ฌ next token prediction objective์ ํจ๊ณผ์ฑ ํฅ์
ํ์ต๋ FAST+ tokenizer๋ฅผ pi0 VLA์ ๊ฒฐํฉํ์ฌ ฯ0-FAST ์ ์ฑ
๊ตฌ์ถ
๋ค์ํ ๋ก๋ด embodiment, action space, control frequency๋ฅผ ํฌํจํ 1M trajectory๋ก ๋ฒ์ฉ tokenizer ํ์ต
Originality
Audio spectrogram๊ณผ JPEG ์์ถ์์ ์๊ฐ์ ๋ฐ์ ์ฒ์์ผ๋ก robot action tokenization์ DCT ๊ธฐ๋ฐ frequency-domain ์์ถ ์ ์ฉ
Per-dimension per-timestep binning์ด๋ผ๋ ๊ด๋ก์ ๋ฐฉ์์์ ๋ฒ์ด๋ time-series compression ๊ด์ ์ผ๋ก ๋ฌธ์ ์ฌ์ ์
Byte-pair encoding, VQ-VAE ๋ฑ ๊ธฐ์กด ์์ถ ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ continuous signal ํน์ฑ์ ๋ง์ถ DCT ๊ธฐ๋ฐ ์ค๊ณ
๋ฒ์ฉ action tokenizer FAST+์ ๊ฐ๋ฐ๋ก ๋ค์ํ ๋ก๋ด์ ์ฆ์ ์ ์ฉ ๊ฐ๋ฅํ ์ค์ฉ์ ์๋ฃจ์
์ ์
Limitation & Further Study
DCT ๊ธฐ๋ฐ tokenization์ frequency domain ํด์์ ๋ํ ์ฌ์ธต์ ์ด๋ก ์ ๋ถ์ ๋ถ์กฑ
Hyperparameter ์ ํ(์: quantization level, token vocabulary size)์ ๋ฏผ๊ฐ๋ ๋ถ์ ์ ํ์
FAST+ tokenizer ํ์ต์ ์ฌ์ฉ๋ 1M trajectory์ ํน์ฑ๊ณผ ๋ถํฌ๊ฐ ๋ช
์๋์ง ์์ generalization ๋ฒ์ ๋ถ๋ช
ํ
Real robot ์คํ์ด ์ ํ์ ์ด๋ฉฐ ๋๋ถ๋ถ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์์ ํ๊ฐ - ์ค์ dexterous manipulation ํ๊ฐ ํ๋ ํ์
Vector-quantized ๋ฐฉ์๊ณผ์ ์์ธํ ablation study ๋ฐ ์ฑ๋ฅ ๋น๊ต ๋ถ์ ๋ณด์ ํ์
ํ์์ฐ๊ตฌ: ๋ค์ํ ์ฃผํ์ ํน์ฑ ์ ํธ์ ๋ํ ์ต์ DCT ํ๋ผ๋ฏธํฐ ์๋ ์ ํ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ, online learning์ผ๋ก FAST+ ์
๋ฐ์ดํธ, cross-embodiment transfer learning ์ฑ๋ฅ ํฅ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : ๊ณ ์ฃผํ ๋ก๋ด ์ ์ด ์์
์์ autoregressive VLA์ ์ค์ฉ์ฑ์ ํฌ๊ฒ ๋์ด๋ ์ฐ์ํ๊ณ ํจ๊ณผ์ ์ธ tokenization ๋ฐฉ๋ฒ๋ก ์ ์ ์ํจ. DCT ๊ธฐ๋ฐ ์ ๊ทผ์ ์๋ก์, ๊ด๋ฒ์ํ ์คํ, 5๋ฐฐ ๋น ๋ฅธ ํ์ต๊ณผ ๋๋ฑํ ์ฑ๋ฅ ๋ฌ์ฑ์ ๋ก๋ด ํ์ต ์ปค๋ฎค๋ํฐ์ ์ฆ๊ฐ์ ์ธ ์ํฉํธ๋ฅผ ์ค ์ ์๋ ์ฐ์ํ ๋
ผ๋ฌธ์.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com