OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation
์ ์: Can Cui, Pengxiang Ding, Wenxuan Song, Shuanghao Bai, Xinyang Tong, Zirui Ge, Runze Suo, Wanqi Zhou, Yang Liu, Bofang Jia, Han Zhao, Siteng Huang, Donglin Wang | ๋ ์ง: 2025-05-06 | URL: https://arxiv.org/abs/2505.03912 📄 PDF
Essence
Figure 1. Key Design of Dual-System VLAs. It mainly includes: MMLM Selection, Policy Selection, Latent Feature Represent
Dual-System VLA ์ํคํ
์ฒ์ ๊ตฌ์กฐ๋ฅผ ๋น๊ต ๋ถ์ํ๊ณ ํต์ฌ ์ค๊ณ ์์๋ฅผ ๊ฒฝํ์ ์ผ๋ก ํ๊ฐํ์ฌ ๋ก๋ด ์กฐ์์ ์ํ ์คํ์์ค dual-system VLA ๋ชจ๋ธ์ ์ ๊ณตํ๋ค.
Motivation
- Known: RT-2 ์ดํ Vision-Language-Action ๋ชจ๋ธ์ด ๋ก๋ด ์ ์ฑ
ํ์ต์ ์ ๋งํ ์ ๊ทผ๋ฒ์ผ๋ก ์ฃผ๋ชฉ๋ฐ๊ณ ์์ผ๋ฉฐ, ์ต๊ทผ LCB์ DP-VLA ๋ฑ dual-system ์ํคํ
์ฒ๊ฐ ์ ์๋๊ณ ์๋ค.
- Gap: ๊ธฐ์กด VLA๋ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ํฌ๊ณ ์ถ๋ก ์๋๊ฐ ๋๋ฆฌ๋ฉฐ domain shift์ catastrophic forgetting ๋ฌธ์ ๊ฐ ์๊ณ , dual-system ์ํคํ
์ฒ์ ์ค๊ณ ์์์ ๋ํ ์ถฉ๋ถํ ์คํ์์ค ๊ตฌํ๊ณผ ์ฒด๊ณ์ ํ๊ฐ๊ฐ ๋ถ์กฑํ๋ค.
- Why: ๋ก๋ด์ ์ค์๊ฐ ์ ์ด๋ฅผ ์ํด์๋ ํจ์จ์ ์ด๊ณ ๋น ๋ฅธ ์ถ๋ก ์ด ํ์์ ์ด๋ฉด์๋ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ๋ฅ๋ ฅ์ ์ ์งํด์ผ ํ๋ฏ๋ก dual-system ๊ตฌ์กฐ์ ์ต์ ํ๊ฐ ์ค์ํ๋ค.
- Approach: Dual-process ์ด๋ก ์ ๊ธฐ๋ฐํ์ฌ System 1(๋น ๋ฅธ ๊ฒฝ๋ ๋ชจ๋ธ)๊ณผ System 2(๋๋ฆฐ ๋๊ท๋ชจ ๋ชจ๋ธ)๋ฅผ ๊ฒฐํฉํ๋ ์ํคํ
์ฒ๋ฅผ ์ค๊ณํ๊ณ , ๊ธฐ์กด dual-system VLA๋ค์ ๊ตฌ์กฐ์ ์ฐจ์ด๋ฅผ ๋ถ์ํ๋ฉฐ ํต์ฌ ์ค๊ณ ์์์ ๋ํด ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ค.
Achievement
Figure 1. Key Design of Dual-System VLAs. It mainly includes: MMLM Selection, Policy Selection, Latent Feature Represent
- Dual-System VLA ์ํคํ
์ฒ ๋ถ๋ฅ: MLLM ์ ํ, Policy ์ ํ, Latent ํน์ฑ ํํ, ํ์ต ์ ๋ต, ํตํฉ ์ ๋ต ๋ฑ 7๊ฐ์ง ํต์ฌ ์ค๊ณ ์์๋ฅผ ์ฒด๊ณํํ๊ณ LCB, DP-VLA, HiRT, Robodual ๋ฑ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋น๊ต ๋ถ์ํ๋ ์ข
ํฉ ์ค๋ฌธ ์ ๊ณต
- ๊ฒฝํ์ ํ๊ฐ ํ๋ ์์ํฌ: ์ธ ๊ฐ์ง ํ๊ฐ ํ๊ฒฝ์์ MLLM ํ์ต ์ ๋ต, ๊ณ์ธต์ ์ถ๋ก , ๊ธฐ์กด dual-system์ ๋จ์ ๋ฑ์ ์ค์ฆ์ ์ผ๋ก ํ๊ฐํ๋ ๋ฐฉ๋ฒ๋ก ์ ์
- ์คํ์์ค OpenHelix ๋ชจ๋ธ: ์ ๋น์ฉ ๊ตฌํ์ด ๊ฐ๋ฅํ ์ค์ฉ์ ์ธ dual-system VLA ๋ชจ๋ธ ๊ณต๊ฐ ๋ฐ ํฅํ ์ฑ๋ฅ ๊ฐ์ ๊ณํ ์ ์
How
Figure 1. Key Design of Dual-System VLAs. It mainly includes: MMLM Selection, Policy Selection, Latent Feature Represent
- Dual-process ์ด๋ก ์ ๋ก๋ด ์ ์ด์ ์ ์ฉํ์ฌ System 1๊ณผ System 2๋ฅผ ๊ตฌ๋ถํ๊ณ ์๋ก ๋ค๋ฅธ ์ฃผ๊ธฐ๋ก ์
๋ฐ์ดํธ๋๋ ๋น๋๊ธฐ ๊ตฌ์กฐ ์ค๊ณ
- MLLM(OpenVLA, LLaVA, InstructBLIP, Qwen2-VL ๋ฑ)์์ ์ถ์ถํ latent representation์ด ๊ฒฝ๋ policy ๋ชจ๋ธ(Transformer, DiT ๋ฑ)์ ๊ฐ์ด๋ํ๋ ์ ๋ณด ํ๋ฆ ๊ตฌ์ฑ
- RGB, proprioception, depth, tactile ๋ฑ ๋ค์ํ ์ผ์ ๋ชจ๋ฌ๋ฆฌํฐ ์กฐํฉ์ ๋ํ ablation study ์ํ
- LoRA fine-tuning, frozen encoder, scratch training ๋ฑ ๋ค์ํ ํ์ต ์ ๋ต ๋น๊ต ํ๊ฐ
- ๊ณ ๋น๋(System 1) ๋ฐ ์ ๋น๋(System 2) ์ธ์ง ์
๋ ฅ์ ํตํฉ ์ ๋ต ๋ถ์
Originality
- Dual-process ์ด๋ก ์ ๋ก๋ด VLA ์ํคํ
์ฒ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ก ์ ์ํ์ฌ ๊ธฐ์กด engineering ๊ด์ ์ ์ ๊ทผ์ ์ธ์ง๊ณผํ์ ์ผ๋ก ์ ๋นํ
- MLLM์ด ๋ฐ๋์ robotic pretrain์ ๊ฑฐ์ณ์ผ ํ๋์ง, ์ด๋ค ํฌ๊ธฐ์ MLLM์ด ์ถฉ๋ถํ์ง ๋ฑ ์ค๊ณ ๊ฐ์ ์ ๋ํ ์ค์ฆ์ ๊ฒ์ฆ
- 7๊ฐ์ง ํต์ฌ ์ค๊ณ ์์๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถํดํ๊ณ ๋น๊ตํ ์ ์๋ ๋ถ๋ฅ ์ฒด๊ณ ๊ฐ๋ฐ
- ๊ธฐ์กด dual-system ์ค๊ณ์ ๋ถ์กฑํ ์ (e.g., temporal delay, asynchronous update)์ ๋ช
ํํ ์ง์ ํ๊ณ ๊ฐ์ ๋ฐฉํฅ ์ ์
Limitation & Further Study
- ๋
ผ๋ฌธ์ ๋ฐ์ท๋ณธ์ด๋ฏ๋ก ์ค์ ์คํ ๊ฒฐ๊ณผ์ ์ ๋์ ๋น๊ต ๋ฐ์ดํฐ๊ฐ ์ ์๋์ง ์์
- OpenHelix ๋ชจ๋ธ์ ๊ตฌ์ฒด์ ์ธ ์ํคํ
์ฒ์ ์ฑ๋ฅ ์งํ๊ฐ ๋ณธ ๋ฐ์ท์์ ๋ช
ํํ์ง ์์
- ํ๊ฐ ํ๊ฒฝ์ด ์ ํ์ ์ผ ๊ฐ๋ฅ์ฑ(Fig 2 ์ธ๊ธํ์ง๋ง ์์ธ ์ค๋ช
๋ถ์ฌ)
- ํ์ ์ฐ๊ตฌ์์๋ ์ค์ ๋ก๋ด ํ๋์จ์ด์์์ ์ฑ๋ฅ ํ๊ฐ, ๋ ๋ค์ํ manipulation task์์์ generalization ๊ฒ์ฆ ํ์
- MLLM๊ณผ policy ๋ชจ๋ธ ๊ฐ ์ต์ ์ latent dimension, temporal synchronization ๋ฐฉ์ ๋ฑ์ ๋ํ ๋ ๊น์ ๋ถ์ ์๊ตฌ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Dual-System VLA์ ๋ํ ์ต์ด์ ํฌ๊ด์ ์ค๋ฌธ๊ณผ ์ฒด๊ณ์ ๊ฒฝํ์ ๋ถ์์ ์ ๊ณตํ๋ฉฐ, ์คํ์์ค ๊ตฌํ์ผ๋ก ์ปค๋ฎค๋ํฐ ๊ธฐ์ฌ๋ ๊ฐ๋ฅํ๋, ๋ฐํ๋ ๋ฐ์ท์์๋ ๊ตฌ์ฒด์ ์คํ ๊ฒฐ๊ณผ ๋ถ์ฌ๋ก ํ๊ฐ ๊ฐ๋๋ฅผ ์์ ํ ํ๋จํ๊ธฐ ์ด๋ ต๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์