Fast-in-Slow: A Dual-System Foundation Model Unifying Fast Manipulation within Slow Reasoning
์ ์: Hao Chen, Jiaming Liu, Chenyang Gu, Zhuoyang Liu, Renrui Zhang, Xiaoqi Li, Xiao He, Yandong Guo, Chi-Wing Fu, Shanghang Zhang, Pheng-Ann Heng | ๋ ์ง: 2025-06-02 | URL: https://arxiv.org/abs/2506.01953 📄 PDF
Essence
Figure 1: Overview of FiS-VLA. (a) Unlike previous dual-system VLA methods [1, 2] that attach a
Fast-in-Slow (FiS)๋ VLM ๊ธฐ๋ฐ์ System 2 ๋ด๋ถ์ System 1 ์คํ ๋ชจ๋์ ๋งค๊ฐ๋ณ์ ๊ณต์ ๋ก ํตํฉํ ํตํฉ dual-system VLA ๋ชจ๋ธ๋ก, ๊ณ ์ ์ ์ด์ ์ถ๋ก ๋ฅ๋ ฅ์ ๋์์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ์ต๊ทผ VLA ๋ชจ๋ธ๋ค์ internet-scale pretrained VLM์ ์์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ์ฉํ์ง๋ง ๋ฎ์ ์คํ ๋น๋๋ก ์ธํด ์ ์ฝ์ ๋ฐ๋๋ค. Kahneman์ dual-system ์ด๋ก ์ ์๊ฐ์ ๋ฐ์ ์ ๊ทผ๋ฒ๋ค์ VLM ๊ธฐ๋ฐ System 2์ ๋
๋ฆฝ์ ์ธ System 1 ์ ์ฑ
๋ชจ๋ธ์ ๋ถ๋ฆฌํ์ฌ ์ค๊ณํ๊ณ ์๋ค.
- Gap: ๊ธฐ์กด dual-system VLA ๋ฐฉ๋ฒ๋ค์ System 1์ ๋ณ๋์ ๊ฒฝ๋ ๋ชจ๋ธ๋ก ์ ์งํ์ฌ System 2์ internet-scale pretrained ์ง์์ ์์ ํ ํ์ฉํ์ง ๋ชปํ๊ณ , System 1์ด ํ๋ถํ ์ถ๋ก ๋ฅ๋ ฅ์ ์ ๊ทผํ๊ธฐ ์ด๋ ต๋ค.
- Why: ๋ก๋ด ์กฐ์์์ ์ผ๋ฐํ๋ ์ ์ฑ
๊ณผ ์คํ ํจ์จ์ฑ์ ๊ท ํ์ด ํ์์ ์ด๋ฉฐ, ๋์ ์ ์ด ๋น๋์ ์ ๋ฐํ ์ถ๋ก ์ ๋์์ ๋ฌ์ฑํ๋ ๊ฒ์ ์ค์ ์์ฉ์ ๋งค์ฐ ์ค์ํ๋ค.
- Approach: VLM์ ์ต์ข
transformer ๋ธ๋ก์ System 1์ผ๋ก ์ฌ๋ชฉ์ ํํ์ฌ ๋ ์์คํ
์ด ๋์ผํ ๊ธฐ์ด ๋ชจ๋ธ์์ ํ์๋๋๋ก ํตํฉํ๊ณ , heterogeneous modality input๊ณผ asynchronous operating frequency๋ฅผ ์ ์ฉํ์ฌ ์กฐ์ ๋ ์ถ๋ก ๊ณผ ์คํ์ ๊ตฌํํ๋ค.
Achievement
Figure 1: Overview of FiS-VLA. (a) Unlike previous dual-system VLA methods [1, 2] that attach a
- ํตํฉ dual-system ์ํคํ
์ฒ: System 1์ System 2 ๋ด๋ถ์ ๋งค๊ฐ๋ณ์ ๊ณต์ ๋ก ์๋ฒ ๋ํ์ฌ ์ํํ ์กฐ์ ๊ฐ๋ฅ
- ๊ณ ์ฃผํ ์ ์ด ๋ฌ์ฑ: 117.7 Hz ์ ์ด ๋น๋๋ก ์ค์๊ฐ ํ๋ฃจํ ์ ์ด ๊ฐ๋ฅ
- SOTA ์ฑ๋ฅ: ์๋ฎฌ๋ ์ด์
์์ 8%, ์ค์ ์์
์์ 11% ์ฑ๊ณต๋ฅ ๊ฐ์
- ์ด์ง์ ์ค๊ณ: System 2๋ 2D ๊ด์ฐฐ/์ธ์ด ์ฒ๋ฆฌ, System 1์ robot state/์ด๋ฏธ์ง/point cloud ์
๋ ฅ ์ฒ๋ฆฌ
How
Figure 2: Framework of FiS-VLA. FiS-VLA leverages an intact VLM for System 2 reasoning
- VLM์ ์ต์ข
transformer ๋ธ๋ก๋ค์ System 1 ์คํ ๋ชจ๋๋ก ์ฌ๋ชฉ์ ํํ๋ฉฐ ์ ์ฒด VLM์ System 2๋ก ์ ์ง
- System 2๋ ์ ์ฃผํ(multimodal latent representation ์์ฑ), System 1์ ๊ณ ์ฃผํ(rapid action ์คํ) ๋น๋๊ธฐ ์ด์
- System 1์ ์ํด fast 3D embedding ์ ๋ต์ผ๋ก point cloud๋ฅผ ํ ํฐํํ๊ณ ๊ณต์ vision encoder ์ฌ์ฉ
- Dual-aware co-training ์ ๋ต: System 1์ diffusion modeling์ผ๋ก noised action์ latent vector๋ก ์ฃผ์
, System 2๋ autoregressive next-token prediction์ผ๋ก ์ถ๋ก ๋ฅ๋ ฅ ๋ณด์กด
- 860K ์ด์์ trajectory๋ก pretrain ํ ๊ณ ํ์ง ์์ฒด ์์ง ๋ฐ์ดํฐ๋ก fine-tuning
- 1:4์ ์ด์ ์ฃผํ์ ๋น์จ(System 2:System 1) ์ค์
Originality
- ๊ธฐ์กด์ ๋ณ๋ System 1 ์ ์ฑ
๋ชจ๋ธ ๋ถ์ฐฉ ๋ฐฉ์์ ํํผํ์ฌ, VLM์ ๋ด๋ถ ๋ธ๋ก ์์ฒด๋ฅผ System 1๋ก ์ฌํ์ฉํ๋ ํ์ ์ ๊ตฌ์กฐ
- Heterogeneous modality input๊ณผ asynchronous frequency๋ฅผ ๋์์ ์ ์ฉํ ์ค๊ณ
- Diffusion modeling๊ณผ autoregressive prediction์ dual-aware co-training์ผ๋ก ๊ฒฐํฉํ ํ๋ จ ์ ๋ต
- Neuroscientific ์ด์ค ๊ณผ์ ์ธ์ง ์ฐ๊ตฌ์ ์๊ฐ์ ๋ฐ์ ๋ก๋ด ์กฐ์์ ์ ์ฉํ ์ด๋ก ์ ๊ทผ๊ฑฐ
Limitation & Further Study
- ํ๊ฐ๊ฐ ์ฃผ๋ก ๋จ์ผ ํ ์๋ฎฌ๋ ์ด์
๊ณผ ์ด์ค ํ ์ค์ ์์
์ ์ ํ๋์ด ๋ค์ํ ๋ก๋ด ํ๋ซํผ ๊ฒ์ฆ ํ์
- Point cloud ๊ธฐ๋ฐ 3D ์ ๋ณด ์ฒ๋ฆฌ๊ฐ ์ผ์ ์์กด๋๊ฐ ๋์ ์ ์์
- Action chunk size 8๋ก ์ค์ ๋ ์คํ์ด ๋ค๋ฅธ chunk ํฌ๊ธฐ์์์ ์ฑ๋ฅ ๋ณํ ๋ถ์ ํ์
- ๋๊ท๋ชจ pretrain ๋ฐ์ดํฐ(860K+) ํ์๋ก ํ ๋ฆฌ์์ค ์๊ตฌ์ฌํญ์ด ๋์
- ์ค์ ํ๊ฒฝ์์์ ๋ค์ํ ๋์ญํ ๋ฐ ๋ถํ์ค์ฑ ๋์ ๋ฅ๋ ฅ์ ๋ํ ์ถ๊ฐ ๋ถ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: FiS-VLA๋ dual-system VLA์ ๊ตฌ์กฐ์ ํ๊ณ๋ฅผ ํ์ ์ ์ผ๋ก ํด๊ฒฐํ๊ณ ๋์ ์ ์ด ๋น๋์ ์ถ๋ก ๋ฅ๋ ฅ์ ๋์์ ๋ฌ์ฑํ ์ค์ํ ๊ธฐ์ฌ์ด๋ฉฐ, ๋งค๊ฐ๋ณ์ ๊ณต์ ๋ฅผ ํตํ ํตํฉ ์ค๊ณ์ ์ด์ง์ ์
๋ ฅ/์ฃผํ์์ ์ฒด๊ณ์ ํ์ฉ์ด ๋ก๋ด ์กฐ์ ๋ถ์ผ์ ํฐ ์ํฅ์ ๋ฏธ์น ๊ฒ์ผ๋ก ์์๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์