Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery
์ ์: Wenhao Li, Xiu Su, Dan Niu, Yichao Cao, Hongyan Xu, Zhe Qu, Lei Fan, Shan You, Chang Xu | ๋ ์ง: 2026 | DOI: 10.48550/ARXIV.2605.01191 📄 PDF
Essence
Figure 1. The performance and mechanism of Sentinel-VLA.
๋ณธ ๋
ผ๋ฌธ์ embodied manipulation์ ์ํ metacognitive VLA ๋ชจ๋ธ์ธ Sentinel-VLA๋ฅผ ์ ์ํ๋ค. ์ค์๊ฐ ์คํ ์ํ๋ฅผ ๋ชจ๋ํฐ๋งํ๋ sentinel ๋ชจ๋์ ํตํด ํ์ํ ๋๋ง ๋์ ์ถ๋ก ๊ณผ ์๋ฌ ๋ณต๊ตฌ๋ฅผ ์ํํ๋ ์จ๋๋งจ๋ ์ถ๋ก ๋ฉ์ปค๋์ฆ์ ํน์ง์ผ๋ก ํ๋ค.
Motivation
- Known: ๊ธฐ์กด VLA ๋ชจ๋ธ๋ค์ ๊ฐ๋ ฅํ ์ธ๊ณ ์ง์๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ง๊ณ ์์ง๋ง ์ ํ์ ์ธ ์ถ๋ก ๋ฅ๋ ฅ, ์ํ ๋ชจ๋ํฐ๋ง ๋ถ์ฌ, ์๊ธฐ์์ ์ด๋ ค์ ๋ฑ์ ์ธ ๊ฐ์ง ํต์ฌ ๊ณผ์ ๋ฅผ ๋ง์ฃผํ๊ณ ์๋ค. ๊ธฐ์กด ์ ๊ทผ๋ฒ๋ค์ ECoT, CoT-VLA ๊ฐ์ ์ ์ ์ถ๋ก ๋ฐฉ์์ด๊ฑฐ๋ ์ธ๋ถ ๋ชจ๋ธ ์์กด์ ์ด๋ค.
- Gap: ํ์ฌ VLA ๋ชจ๋ธ๋ค์ ๋ชจ๋ ์คํ
์์ ์ถ๋ก ์ ์ํํ๊ฑฐ๋ ์ธ๋ถ ๋ชจ๋ธ์ ์์กดํ์ฌ ๊ณ์ฐ ์ค๋ฒํค๋๊ฐ ํฌ๊ณ ํด์ ๊ฐ๋ฅ์ฑ์ด ๋ฎ๋ค. ๋ํ ์๋ฌ๋ก๋ถํฐ์ ํ์ต๊ณผ ์์ฒด ๋ฅ๋ ฅ ํ์ฅ์ ์ํ ํตํฉ์ ํด๊ฒฐ์ฑ
์ด ๋ถ์ฌํ๋ค.
- Why: robotic manipulation์์ ์ ๋ขฐ์ฑ๊ณผ ํจ์จ์ฑ์ ๋์์ ํ๋ณดํ๋ ค๋ฉด ์ง๋ฅํ ์ํ ๋ชจ๋ํฐ๋ง๊ณผ ์จ๋๋งจ๋ ์ถ๋ก ์ด ํ์์ ์ด๋ฉฐ, ์ด๋ฅผ ํตํด ์ค์ธ๊ณ ๋ก๋ด ์์
์ ์ฑ๊ณต๋ฅ ์ ๋ํญ ํฅ์์ํฌ ์ ์๋ค.
- Approach: Status Monitor Expert๊ฐ ์คํ ์ํ๋ฅผ ๋ถ๋ฅํ์ฌ normal, initial, error, subtask completion ์ค ํ๋๋ก ํ์ ํ๋ค. ํ์ํ ๊ฒฝ์ฐ์๋ง VLM Expert๋ฅผ ํ์ฉํ์ฌ adaptive thought๋ฅผ ์์ฑํ๊ณ Action Expert๊ฐ ์ต์ข
์ก์
์ ๊ฒฐ์ ํ๋ค. EC-Gen ํ์ดํ๋ผ์ธ์ผ๋ก 2.6M ์ด์์ ์ ์ด๋ฅผ ํฌํจํ ์๋ฌ ๋ณต๊ตฌ ๊ถค์ ์ ์๋ ์์ฑํ๊ณ , Self-Evolving Continual Learning ์๊ณ ๋ฆฌ์ฆ๊ณผ Orthogonal Continual Adapter๋ฅผ ํตํด ์ง์์ ํ์ต์ ์ง์ํ๋ค.
Achievement
Figure 3. Left: Pipeline of Sentinel-VLA. The Status Monitor Expert activates on-demand Adaptive Thought. Right: Pipelin
์ฑ๋ฅ ๊ฐ์ : RLBench์์ 22% ์ด์, ์ค์ธ๊ณ ํ๊ฒฝ์์ 30% ์ด์์ ์๋ ์ฑ๋ฅ ํฅ์์ PI0 ๋๋น ๋ฌ์ฑ. ์๋ ๋ฐ์ดํฐ ์์ฑ: EC-Gen์ ํตํด ์๋ ๋ผ๋ฒจ๋ง ์์ด 44๊ฐ ์์
์ ๊ฑธ์น 2.6M ์ด์์ ์ ์ด ๋ฐ์ดํฐ ์๋ ์์ฑ. ์ง์์ ํ์ต: SECL๊ณผ OC-Adapter๋ฅผ ํตํด catastrophic forgetting์ ๋ฐฉ์งํ๋ฉด์ ๋ฅ๋ ฅ ๊ฒฝ๊ณ ์๋ณ ๋ฐ ์๋ ๋ฐ์ดํฐ ์์ง. ์คํ์์ค ๊ณต๊ฐ: ๋ชจ๋ ์ฝ๋, ๊ฐ์ค์น, ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ ๊ณต๊ฐ ์์ .
How
Figure 3. Left: Pipeline of Sentinel-VLA. The Status Monitor Expert activates on-demand Adaptive Thought. Right: Pipelin
- Status Monitor Expert๊ฐ ํ๋ ์๋ณ ์ํ๋ฅผ ํ์ ํ์ฌ ์ถ๋ก ํ์์ฑ ๊ฒฐ์
- VLM Expert (SigLIP+Gemma)๊ฐ ์จ๋๋งจ๋ adaptive thought ์์ฑ
- Action Expert๊ฐ status์ thought์ ๊ธฐ๋ฐํ ์ก์
์์ธก
- EC-Gen์ด ์๋์ผ๋ก error recovery trajectories ์์ฑ ๋ฐ ์ฃผ์ ์ฒ๋ฆฌ
- Orthogonal Continual Adapter๊ฐ OC-space์ ๋งค๊ฐ๋ณ์ ์
๋ฐ์ดํธ๋ฅผ ์ ์ฝํ์ฌ catastrophic forgetting ๋ฐฉ์ง
- Self-Evolving Continual Learning์ด ๊ฒฝ๊ณ ์ค์ ์์์ ์ฑ๊ณต ๊ถค์ ์ผ๋ก๋ถํฐ ํ์ต
Originality
- ํตํฉ์ status monitoring ๋ชจ๋์ ํตํ ์จ๋๋งจ๋ ์ถ๋ก ํจ๋ฌ๋ค์์ ์ ์ (๊ธฐ์กด: ์ ์ ๋๋ ์ธ๋ถ ๋ชจ๋ธ ์์กด)
- EC-Gen์ ํตํ ๋๊ท๋ชจ ์๋ฌ ๋ณต๊ตฌ ๋ฐ์ดํฐ์ ์๋ ์์ฑ ๋ฐ ์ฃผ์ ํ์ดํ๋ผ์ธ
- Orthogonal space ์ ์ฝ์ ์ด์ฉํ OC-Adapter์ novel ์ค๊ณ๋ก catastrophic forgetting ํด๊ฒฐ
- Self-Evolving Continual Learning์ ํตํ ๋ชจ๋ธ์ ์์จ์ ๋ฅ๋ ฅ ํ์ฅ ๋ฉ์ปค๋์ฆ
Limitation & Further Study
- ๋
ผ๋ฌธ์์ ์ ์๋ ๊ตฌ์ฒด์ ์๋ฌ ํ์
์ ๋ฒ์๋ ํ๊ณ๊ฐ ๋ช
ํํ์ง ์์. ์ด๋ค ์ข
๋ฅ์ ์๋ฌ๋ ๊ฐ์งํ์ง ๋ชปํ ์ ์๋์ง ๋ถ์ ๋ถ์ฌ. - OC-Adapter์ orthogonal constraint์ด ํน์ ํ๊ฒฝ์ด๋ ์์
์์ ๊ณผ๋ํ ์ ์ฝ์ด ๋ ์ ์๋ ๊ฐ๋ฅ์ฑ. - ์ค์ธ๊ณ ์คํ์ ๊ท๋ชจ๋ ๋ค์์ฑ์ ๋ํ ์์ธํ ์ค๋ช
๋ถ์กฑ. - ์จ๋๋งจ๋ ์ถ๋ก ์ ์ ํํ ํธ๋ฆฌ๊ฑฐ ๊ธฐ์ค(threshold ๋ฑ)์ ๋ํ ๋ช
ํํ ์ ์ ํ์. ํ์ ์ฐ๊ตฌ: ๋ ๋ณต์กํ ์ฅ์๊ฐ ์์
์์์ ์ฑ๋ฅ ๊ฒ์ฆ, ๋ค์ํ ๋ก๋ด ํํ์์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ์ฐ๊ตฌ, ์ํ ๋ชจ๋ํฐ๋ง์ ์ค๋ฅ์จ ๋ถ์.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Sentinel-VLA๋ metacognitive ์ ๊ทผ์ ํตํด VLA ๋ชจ๋ธ์ ์ถ๋ก , ์ํ ๋ชจ๋ํฐ๋ง, ์๋ฌ ๋ณต๊ตฌ๋ผ๋ ์ธ ๊ฐ์ง ํต์ฌ ๋ฌธ์ ๋ฅผ ํตํฉ์ ์ผ๋ก ํด๊ฒฐํ๋ ์ฐฝ์์ ์ธ ๋ฐฉ์์ ์ ์ํ๋ค. ํนํ ์จ๋๋งจ๋ ์ถ๋ก ๋ฉ์ปค๋์ฆ๊ณผ ์๋ํ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ ์กฐํฉ, ๊ทธ๋ฆฌ๊ณ orthogonal constraint์ ์ด์ฉํ ์ง์์ ํ์ต ๋ฐฉ์์ ๊ธฐ์ ์ ์ผ๋ก ๊ฒฌ๊ณ ํ๋ฉฐ ์ค์ธ๊ณ ์ฑ๋ฅ ํฅ์(30%)์ผ๋ก ์ค์ฆ๋์๋ค. ๋ค๋ง ์๋ฌ ๊ฐ์ง์ ํ๊ณ ๋ถ์๊ณผ ํธ๋ฆฌ๊ฑฐ ๊ธฐ์ค์ ๋ช
ํํ ์ ์๊ฐ ๋ณด๊ฐ๋๋ฉด ๋์ฑ ์์ฑ๋ ๋์ ๊ฒ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์