TriVLA: A Triple-System-Based Unified Vision-Language-Action Model with Episodic World Modeling for General Robot Control
์ ์: Zhenyang Liu, Yongchong Gu, Sixiao Zheng, Yanwei Fu, Xiangyang Xue, Yu-Gang Jiang | ๋ ์ง: 2025-07-02 | URL: https://arxiv.org/abs/2507.01424 📄 PDF
Essence
Figure 1: TriVLA is a unified Vision-Language-Action framework that adopts a triple-system ar-
์ธ์ง์ ๊ฒฝ๊ณผํ์ ์ํผ์๋ ๋ฉ๋ชจ๋ฆฌ ์ด๋ก ์์ ์๊ฐ์ ๋ฐ์, ๊ณผ๊ฑฐ ๊ฒฝํ์ ์ถ์ ยทํ์๊ณผ ๋ฏธ๋ ๋์ญํ ์์ธก์ ํตํฉํ๋ ์ํผ์๋ ์๋ ๋ชจ๋ธ์ VLA ํ๋ ์์ํฌ์ ์ฒ์ ๋์
ํ TriVLA๋ฅผ ์ ์ํ๋ค. Vision-Language Model, Video Diffusion Model, Policy ๋คํธ์ํฌ์ ์ผ์ค ์์คํ
์ํคํ
์ฒ๋ก ๊ตฌํ๋์ด ๊ธด ์งํ์ ์กฐ์ ์์
์์ ๋ฌธ๋งฅ-์ธ์์ ํ๋ ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Motivation
- Known: Vision-Language Model(VLM)์ ๊ฐ๋ฐฉํ ์ง์๋ฅผ ๋ฐ๋ฅด๊ณ ์์ ์ถ๋ก ์ ์ฐ์ํ๋ฉฐ, ์ต๊ทผ VLA ํ๋ ์์ํฌ๋ VLM์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๊ณํ๊ณผ SE(3) ํฌ์ฆ ์์ธก์ ์ํํ๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ ์ ์ ํํ๊ณผ ์ ํ๋ ์๊ฐ์ ๋ฌธ๋งฅ์ ์์กดํ์ฌ ๋จ๊ธฐ ๋ฐ์ํ ํ๋์๋ง ๋ฅํ๋ค.
- Gap: ํ์ฌ VLA ์์คํ
์ ์๊ฐ์ ๊ด์ฐฐ์๋ง ์์กดํ์ฌ ์๊ฐ์ ์ผ๋ก ํ์ฅ๋ ๊ฒฝํ์ ์ธ์ฝ๋ฉํ์ง ๋ชปํ๋ฉฐ, ๋์ ํ๊ฒฝ์์์ ๊ฐ๊ฑดํ ์ผ๋ฐํ๋ฅผ ์ ํํ๋ค. ์ํผ์๋ ๋ฉ๋ชจ๋ฆฌ์ฒ๋ผ ๊ณผ๊ฑฐ์ ๋ฏธ๋๋ฅผ ๋ชจ๋ ํตํฉํ๋ temporal reasoning ๋ฉ์ปค๋์ฆ์ด ๋ถ์ฌํ๋ค.
- Why: ๋ก๋ด์ด ๋ณต์กํ ์ง์๋ฅผ ์ดํดํ๊ณ ๊ธด ์งํ์ ์์
์ ๊ณํํ๋ ค๋ฉด ์์ฐจ์ ๊ฒฝํ์ ์ถ์ ยทํ์ํ๊ณ ๋ฏธ๋ ํ๊ฒฝ ์งํ๋ฅผ ์์ธกํ ์ ์์ด์ผ ํ๋ฉฐ, ์ด๋ ๋์ ๊ตฌํ์ฒด ํ๊ฒฝ์์ ๊ฐ๊ฑดํ๊ณ ์ผ๋ฐํ ๊ฐ๋ฅํ ๋ก๋ด ์ง๋ฅ์ ํต์ฌ์ด๋ค.
- Approach: Vision-Language Model(System 2)์ ํตํด ๊ด์ฐฐ๊ณผ ์ง์๋ฅผ ํด์ํ๊ณ , Video Diffusion Model(System 3)์ ํตํด ๊ณผ๊ฑฐ ์ํ ์ํ์ค์ ๋ฏธ๋ ์ฌ ๊ถค์ ์ ์ธ์ฝ๋ฉํ ํ, ์ด ๋ ์์คํ
์ผ๋ก๋ถํฐ์ ํํ์ ํตํฉํ๋ Policy ๋คํธ์ํฌ(System 1)๊ฐ flow-matching๊ณผ cross-modal attention์ ํ์ฉํ์ฌ ๋งฅ๋ฝ-์ธ์์ ํ๋ ์ํ์ค๋ฅผ ์์ฑํ๋ค.
Achievement
Figure 1: TriVLA is a unified Vision-Language-Action framework that adopts a triple-system ar-
- ์ํผ์๋ ์๋ ๋ชจ๋ธ ๊ฐ๋
๋์
: ์ธ์ง์ ๊ฒฝ๊ณผํ ์ด๋ก ์ ๊ธฐ๋ฐํ ์ํผ์๋ ๋ฉ๋ชจ๋ฆฌ ์์น์ ๊ตฌํํ์ฌ ๋ก๋ด์ด ์์ฐจ์ ๋ค์ค๋ชจ๋ฌ ๊ฒฝํ์ ์ถ์ , ํ์, ์์ธกํ๋๋ก ํจ
- ์ผ์ค ์์คํ
์ํคํ
์ฒ ์ค๊ณ: System 2์ ๋ค์ค๋ชจ๋ฌ ๊ทธ๋ผ์ด๋ฉ๊ณผ System 3์ ์๊ฐ ํ๋ถ ๋์ญํ ๋ชจ๋ธ๋ง์ System 1์ ์ ์ฑ
ํ์ต์ ํตํฉํ๋ ๊ตฌ์ฑ์ ํ๋ ์์ํฌ ๊ตฌํ
- ๋ฒค์น๋งํฌ ์ฑ๋ฅ ๊ฐ์ : Calvin ABCโD์์ 0.21, LIBERO์์ 0.11, MetaWorld์์ 0.13์ ์ฑ๋ฅ ํฅ์ ๋ฌ์ฑ
- ์ค์๊ฐ ํจ์จ์ฑ: ์ฝ 36 Hz ์ฃผํ์๋ก ๋์ํ๋ ํจ์จ์ ์ธ ์์คํ
๊ตฌํ
- ์ฅ๊ธฐ ์งํ ๋ฐ ๊ฐ๋ฐฉํ ์ดํด: ์ค์ธ๊ณ ์กฐ์ ์์
๊ณผ ๋ณตํฉ ๋๊ตฌ ์ฌ์ฉ ์์
์์ ๊ฐ๋ ฅํ ๊ธด ์งํ ๊ณํ ๋ฐ ๊ฐ๋ฐฉํ ์๋ ์ดํด ๋ฅ๋ ฅ ์์ฐ
How
Figure 3: The pipeline of TriVLA. TriVLA is a unified Vision-Language-Action framework built
- System 2 (Episodic Multimodal Perception): Eagle-2 VLM์ ์ฌ์ฉํ์ฌ ๋น์ -์ธ์ด ์
๋ ฅ์ ์ฒ๋ฆฌํ๊ณ ์์
๋ชฉํ์ ๋ฌธ๋งฅ ๋จ์๋ฅผ ํด์
- System 3 (Episodic Dynamics Perception): Stable Video Diffusion์ ์ธ๊ฐ ๋ฐ ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ์
์ ํ์ธํ๋ํ์ฌ ๊ณผ๊ฑฐ ์ํ ์ํ์ค๋ก๋ถํฐ ๋ฏธ๋ ์ฅ๋ฉด ๊ถค์ ์์ธก
- System 1 (Lower-Level Policy): Diffusion Transformer ๊ธฐ๋ฐ ์ ์ฑ
์ผ๋ก, flow-matching ๋ฉ์ปค๋์ฆ์ ํตํด System 2์ 3์ ์ถ๋ ฅ ํ ํฐ์ ํตํฉํ๊ณ cross-modal attention์ผ๋ก ๋ก๋ด ์ํ ๋ฐ ํ๋ ์ด๋ ฅ์ ๊ณ ๋ ค
- ์ฒญํฌ ๊ธฐ๋ฐ ํ๋ ์์ฑ: ๊ฐ ํ์์คํ
์ ๋จ์ผ ํ๋ ๋์ ํ๋์ ์ฒญํฌ๋ฅผ ์์ธกํ์ฌ ๋ฌต์์ ์ญ๋์ญํ ์ฌ์ (inverse-dynamics prior) ์ ๋
- ๊ตฌํ์ฒด ํนํ ์ธ์ฝ๋/๋์ฝ๋: ๊ฐ๋ณํ๋ ์ํ ๋ฐ ํ๋ ์ฐจ์์ ๊ด๋ฆฌํ๊ธฐ ์ํ ๊ตฌํ์ฒด ํนํ ๋ชจ๋ ์ค๊ณ
Originality
- ์ธ์ง๊ณผํ ๊ธฐ๋ฐ ๊ฐ๋
ํ: ์ํผ์๋ ๋ฉ๋ชจ๋ฆฌ ์ด๋ก ์ ๋ช
์์ ์ผ๋ก ๋ก๋ด ์ ์ด์ ๊ตฌํํ ๊ฒ์ผ๋ก, VLA ๋ถ์ผ์์ ์ฒ์์ผ๋ก ์ ํํ๋ ์ํผ์๋ ์๋ ๋ชจ๋ธ ์ ์
- ์ผ์ค ์์คํ
๊ตฌ์กฐ: ๊ธฐ์กด dual-system ์ํคํ
์ฒ๋ฅผ Video Diffusion Model์ ์ถ๊ฐํ์ฌ ํ์ฅํ์ฌ temporal reasoning ๋ฅ๋ ฅ ํตํฉ
- ํตํฉ ํ๋ ์์ํฌ: ๋ค์ค๋ชจ๋ฌ ๊ทธ๋ผ์ด๋ฉ(System 2), ๋์ญํ ์์ธก(System 3), ์ ์ฑ
ํ์ต(System 1)์ ํตํฉ๋ ๋จ์ผ ํ๋ ์์ํฌ๋ก ๊ตฌํํ๋ ๊ตฌ์ฑ์ ์ ๊ทผ
- ์ญ๋์ญํ ์ฌ์ ์ ๋: ํ๋ ์ํ์ค ๋ชจ๋ํฐ๋ง์ ํตํด ์ ์ฑ
์ด ์๋์ผ๋ก ์ญ๋์ญํ ์ฌ์ ์ ์ต๋ํ๋๋ก ์ค๊ณํ์ฌ ์๊ฐ ๋๋ฉ์ธ์ผ๋ก์ ์ผ๋ฐํ ์ ์ด ์ด์ง
Limitation & Further Study
- ๊ณ์ฐ ๋ณต์ก๋: ์ธ ๊ฐ์ ๋
๋ฆฝ ๋ชจ๋ธ(VLM, VDM, Policy)์ ๋ณ๋ ฌ๋ก ์คํํ๋ฏ๋ก ์์ง ๋๋ฐ์ด์ค ๋ฐฐํฌ ์ ๋ฉ๋ชจ๋ฆฌ ๋ฐ ๊ณ์ฐ ๋ถ๋ด์ด ์ฆ๊ฐํ ์ ์์
- ๋ชจ๋ธ ํ์ธํ๋ ์์กด์ฑ: System 3 (Video Diffusion Model)์ ์ฑ๋ฅ์ด ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ์
์ ํ์ง๊ณผ ๊ท๋ชจ์ ํฌ๊ฒ ์์กดํ๋ฉฐ, ์ถฉ๋ถํ ๋ฐ์ดํฐ ์๋ ์๋ก์ด ๋๋ฉ์ธ์ผ๋ก์ ์ ์ด ํ์ต ์ฑ๋ฅ ๋ฏธ๋ช
ํ
- System ๊ฐ ์ค๋ฅ ๋์ : ๋ค์ค ์์คํ
ํตํฉ์์ System 2๋ 3์ ์ค๋ฅ๊ฐ System 1์ ์ ์ฑ
ํ์ต์ ์ํฅ์ ๋ฏธ์น ์ ์์ผ๋ฉฐ, ์ด๋ฌํ ์ค๋ฅ ์ ํ ๋ฉ์ปค๋์ฆ์ ๋ํ ์์ธ ๋ถ์ ๋ถ์ฌ
- ํ๊ฐ ๋ฒ์ ์ ์ฝ: ์ค์ธ๊ณ ์คํ์ด ์ฃผ๋ก ์กฐ์ ์์
์ค์ฌ์ด๋ฉฐ, ๋ค๋น๊ฒ์ด์
์ด๋ ์ด๋-์กฐ์ ๋ณตํฉ ์์
์ ๋ํ ํ๊ฐ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๊ฒฝ๋ํ ๋ฐ ์ฆ๋ฅ ๊ธฐ๋ฒ์ ํตํ ๋ชจ๋ฐ์ผ ๋ก๋ด ์ ์ฉ ํ๋, (2) ์ ์์ ์์คํ
๊ฐ์ค์น ์กฐ์ ์ผ๋ก ์ค๋ฅ ๋์ ์ํ, (3) ๋ค์ํ ๋๋ฉ์ธ์ ๋ก๋ด ์์
์ ๋ํ ํ์ฅ์ฑ ๊ฒ์ฆ, (4) ์ํผ์๋ ๋ฉ๋ชจ๋ฆฌ์ ์ฅ๊ธฐ ์ ์ฅ ๋ฐ ํ์ฉ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: TriVLA๋ ์ธ์ง์ ๊ฒฝ๊ณผํ์ ์ํผ์๋ ๋ฉ๋ชจ๋ฆฌ ๊ฐ๋
์ ์ฒด๊ณ์ ์ผ๋ก ๋ก๋ด ์ ์ด์ ๋์
ํ ํ์ ์ ์ธ ์ฐ๊ตฌ๋ก, ์ผ์ค ์์คํ
์ํคํ
์ฒ๋ฅผ ํตํด temporal reasoning๊ณผ ๋ฌธ๋งฅ-์ธ์์ ํ๋ ์์ฑ์ ํตํฉํ์ฌ ๊ธฐ์กด VLA ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๋ช
ํํ ๊ทน๋ณตํ๋ค. ๋ฒค์น๋งํฌ ๋ฐ ์ค์ธ๊ณ ์์
์์์ ์ฐ์ํ ์ฑ๋ฅ๊ณผ ํจ๊ป ๊ฐ๋
์ ๋ช
ํ์ฑ์ ์ ์ํ๋ ๋์ ์ง์ ๋
ผ๋ฌธ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์