Hume: Introducing System-2 Thinking in Visual-Language-Action Model
์ ์: Haoming Song, Delin Qu, Yuanqi Yao, Qizhi Chen, Qi Lv, Yiwen Tang, Modi Shi, Guanghui Ren, Maoqing Yao, Bin Zhao, Dong Wang, Xuelong Li | ๋ ์ง: 2025-05-27 | URL: https://arxiv.org/abs/2505.21432 📄 PDF
Essence
Figure 1: We present Hume, a dual-system vision-language-action model exploring human-like
Hume๋ Vision-Language-Action ๋ชจ๋ธ์ System-2 slow thinking์ ๋์
ํ dual-system ๋ก๋ด ์ ์ฑ
์ผ๋ก, value-guided ๋ฐ๋ณต ์ํ๋ง๊ณผ cascaded action denoising์ ํตํด ๋ณต์กํ ๋ก๋ด ์ ์ด ์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
Motivation
- Known: LLM์์ Chain-of-Thought์ ๊ฐ์ System-2 thinking์ด ์ฑ๊ณตํ์ผ๋ฉฐ, dual-system VLA ์ํคํ
์ฒ๋ค์ด ํจ์จ์ฑ์ ๊ฐ์ ํ๋ค. ๊ทธ๋ฌ๋ ๋ก๋ด ์ ์ด์์ ํจ๊ณผ์ ์ธ System-2 thinking์ ์ ์ฉ์ ๋ฏธํกํ๋ค.
- Gap: ๊ธฐ์กด dual-system ๋ก๋ด ์ ์ฑ
๋ค์ System 2๊ฐ ์ค์ง์ ์ธ thinking๊ณผ reasoning์ ์ํํ์ง ๋ชปํ๋ฉฐ, ๋ก๋ด ์ก์
์ ์๋ฏธ๋ก ์ ๋ชจํธ์ฑ์ผ๋ก ์ธํด text ๊ธฐ๋ฐ CoT๋ฅผ ์ง์ ์ ์ฉํ๊ธฐ ์ด๋ ต๋ค. ๋ํ System-2์ 'slowness'์ ๋ก๋ด ์ ์ด์ 'fastness' ์๊ตฌ ์ฌ์ด์ ๊ท ํ ๋ฌธ์ ๊ฐ ๋จ์์๋ค.
- Why: ๋ณต์กํ ๋ก๋ด ์์
์ ๊น์ deliberative thinking์ ์๊ตฌํ๋ฉฐ, ์ด๋ ๋ก๋ด์ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ dexterous control ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: System 2๋ flow matching denoising head์ novel value-query head๋ฅผ ๊ฐ์ถ VLM ๊ธฐ๋ฐ ๋ชจ๋๋ก, state-action value๋ฅผ ์ถ์ ํ์ฌ ์ฌ๋ฌ action ํ๋ณด ์ค ์ต์ ์ ์ ํํ๋ค. System 1์ ๊ฐ๋ฒผ์ด visuomotor policy๋ก System 2์ ์ ํ์ ๋ฐ์ real-time cascaded action denoising์ ์ํํ๋ค.
Achievement
Figure 1: We present Hume, a dual-system vision-language-action model exploring human-like
- LIBERO ๋ฒค์น๋งํฌ ์ฑ๋ฅ ํฅ์: ฯ0 ๋๋น +4.4% success rate ๋ฌ์ฑ
- Simpler ๋ฒค์น๋งํฌ ์ฑ๋ฅ ํฅ์: +25.9% improvement ๋ฌ์ฑ
- ์ค์ธ๊ณ ๋ก๋ด ๋ฐฐํฌ ์ฑ๋ฅ: +12.9% improvement๋ก 21๊ฐ ์ค์ ๋ก๋ด ์ค์ ์์ ์ฐ์ํ ์ฑ๋ฅ ์
์ฆ
- ๋ค์ํ ํ๊ฒฝ ๊ฐ๊ฑด์ฑ: viewpoint, texture, lighting, layout ๋ณํ ๋ฐ unseen objects/environments์์ ์ฐ์ํ ์ฑ๋ฅ
- ํจ์จ์ ์ธ real-time ์ ์ด: System 2๋ 4Hz, System 1์ 90Hz๋ก ๋น๋๊ธฐ ์๋ํ๋ฉด์๋ ์ฑ๋ฅ ์ ์ง
How
Figure 2: Overview of Hume. Hume contains two systems working asynchronously. Given the
- System 2๋ VLM backbone์ flow matching denoising head๋ก long-horizon action chunk ์์ธก
- Novel value-query head๋ฅผ ํตํด ์์ธก๋ action chunk์ state-action value ์ถ์
- Value-guided thinking: ์ฌ๋ฌ action ํ๋ณด๋ฅผ ๋ฐ๋ณต ์ํ๋งํ๊ณ state-action value๋ก ์ต์ action ์ ํ
- System 1์ System 2์ ์ ํ๋ action chunk ์ค ์งง์ segment๋ฅผ ๋ฐ์ ํ์ฌ visual observation๊ณผ robot state๋ฅผ ํฌํจํ์ฌ cascaded diffusion denoising ์ํ
- ๋ฐฐํฌ ์: System 2๊ฐ ์ ์ฃผํ(4Hz)์์ value-guided thinking ์คํ, System 1์ด ๋น๋๊ธฐ์ ์ผ๋ก ๊ณ ์ฃผํ(90Hz)์์ fluid action ์์ฑ
- Multi-stage training strategy๋ก System 1๊ณผ System 2๋ฅผ ๋จ๊ณ์ ์ผ๋ก ํ์ต
Originality
- ๋ก๋ด ์ ์ด์์ System-2 slow thinking์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ๋์
ํ์ฌ value estimation ๊ธฐ๋ฐ์ action selection ๋ฉ์ปค๋์ฆ ์ ์
- ๋ก๋ด ์ก์
์ semantic ๋ชจํธ์ฑ์ ์ฐํํ๊ณ value-guided repeat sampling์ผ๋ก ์ค์ง์ ์ธ thinking ๊ตฌํ
- Cascaded action denoising์ผ๋ก low-frequency System 2์ high-frequency System 1์ ํจ๊ณผ์ ์ธ ๋น๋๊ธฐ ํตํฉ ๋ฌ์ฑ
- Flow matching๊ณผ value-query head์ ์กฐํฉ์ผ๋ก differentiableํ System-2 thinking ์ต์ ํ ๊ฐ๋ฅํ๊ฒ ์ค๊ณ
Limitation & Further Study
- Value-query head์ ํ์ต ์์ ์ฑ๊ณผ state-action value ์ถ์ ์ ํ๋์ ๋ํ ๋ถ์ ๋ถ์กฑ
- System 2์ 4Hz ์ฃผ๊ธฐ์ System 1์ 90Hz ์ฃผ๊ธฐ ๊ฐ ์๊ฐ ๋๊ธฐํ ๋ฉ์ปค๋์ฆ์ด ์์ธํ ์ค๋ช
๋์ง ์์
- Cascaded action denoising์ ๊ณ์ฐ ๋ณต์ก๋ ๋ฐ inference ์ค๋ฒํค๋์ ๋ํ ๋ถ์ ๋ฏธํก
- Value-guided thinking์ '๋ฐ๋ณต ์ํ๋ง ํ์' ์ ํ ๊ธฐ์ค์ด ๋ช
ํํ์ง ์์", 'Humanoid ๋ก๋ด ๋ฑ ํน์ embodiment์ ๋ํ ์ ์์ฑ ๊ฒ์ฆ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ: value estimation ์ ํ๋ ๊ฐ์ , ๋ ํจ์จ์ ์ธ ๋น๋๊ธฐ ํตํฉ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ, ๋ค์ํ embodiment์ ๋ํ ์ผ๋ฐํ ๊ฐํ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๋ก๋ด ์ ์ด์ System-2 slow thinking์ ์ฒ์์ผ๋ก ์ ์ฉํ์ฌ ์ค์ํ conceptual contribution์ ์ ์ํ๋ฉฐ, value-guided thinking๊ณผ cascaded action denoising์ novel ์กฐํฉ์ผ๋ก ์ค์ง์ ์ธ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ค. ๋ค๋ง ๊ธฐ์ ์ ์ธ๋ถ์ฌํญ๊ณผ design choice์ ์ ๋นํ๊ฐ ๋ ๋ณด๊ฐ๋ ํ์๊ฐ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์