TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking
์ ์: Jiahang Liu, Yunpeng Qi, Jiazhao Zhang, Minghan Li, Shaoan Wang, Kui Wu, Hanjing Ye, Hong Zhang, Zhibo Chen, Fangwei Zhong, Zhizheng Zhang, He Wang | ๋ ์ง: 2025-10-08 | URL: https://arxiv.org/abs/2510.07134 📄 PDF
Essence
Fig. 2: The pipeline of TrackVLA++. Given a video stream and a language instruction, TrackVLA++ predicts a tracking traj
TrackVLA++๋ Vision-Language-Action ๋ชจ๋ธ์ Polar-CoT ๊ณต๊ฐ ์ถ๋ก ๊ณผ Target Identification Memory(TIM)๋ฅผ ํตํฉํ์ฌ ์ฅ์๊ฐ ์ถ์ ๊ณผ ํ์ ์ํฉ์์์ ๊ฐ๊ฑดํ embodied visual tracking์ ์คํํ๋ค.
Motivation
- Known: ์ต๊ทผ VLA ๋ชจ๋ธ๋ค(TrackVLA, LOVON)์ pre-trained VLM์ ํ์ฉํ์ฌ ์์ฐ์ด ๊ธฐ๋ฐ embodied visual tracking์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ๊ณ ์์ผ๋, ๋ช
์์ ๊ณต๊ฐ ์ถ๋ก ๊ณผ ์ฅ์๊ฐ ๋ชฉํ ์๋ณ ๋ฉ์ปค๋์ฆ์ด ๋ถ์กฑํ๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ฌ๊ฐํ ํ์์ด๋ ์ ์ฌํ distractors๊ฐ ์๋ ๋ณต์กํ ์ฅ๋ฉด์์ ์คํจํ๋ฉฐ, CoT ๊ธฐ๋ฐ ์ ๊ทผ๋ ํจ์จ์ฑ ๋ฌธ์ ๋ก ๋์ ์ถ์ ์์
์ ์ ํฉํ์ง ์๋ค.
- Why: Embodied visual tracking์ companion robots, guidance robots ๋ฑ ์ค์ ๋ก๋ด ์์ฉ์ ํ์์ ์ด๋ฉฐ, ํ์๊ณผ distractors๋ฅผ ๊ฒฌ๋๋ด๋ ๋ฅ๋ ฅ์ ์คํ๊ฒฝ ๋ฐฐํฌ์ ํต์ฌ ์๊ตฌ์ฌํญ์ด๋ค.
- Approach: Polar-CoT๋ฅผ ํตํด ๋ชฉํ์ ์๋ ์์น๋ฅผ agent-centric ๊ทน์ขํ๋ก ์์ธกํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก TIM์ด confidence-aware gating ์ ๋ต์ผ๋ก ์ฅ์๊ฐ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ ์งํ๋ค.
Achievement
Fig. 1: Real-world demonstration of TrackVLA++. TrackVLA++ is a novel Vision-Language-Action model that incorporates spa
- State-of-the-art ์ฑ๋ฅ: EVT-Bench DT ์คํ๋ฆฟ์์ egocentric ์ค์ ์์ 5.1%, multi-camera ์ค์ ์์ 12% ์ด์ ํฅ์
- ํจ์จ์ ์ถ๋ก : Polar-CoT์ ๋จ์ผ reasoning token์ผ๋ก ๋์ ์ถ๋ก ์๋ ์ ์ง
- ๊ฐ๋ ฅํ ์ผ๋ฐํ: ์๋ฎฌ๋ ์ด์
๊ณผ ์คํ๊ฒฝ์์ ๋ชจ๋ ์ฐ์ํ ์ฑ๋ฅ ๋ฐ zero-shot ์ผ๋ฐํ ๋ฅ๋ ฅ
- ๋ค์ค ์นด๋ฉ๋ผ ์ง์: egocentric๊ณผ multi-camera ์ค์ ๋ชจ๋์์ ํธํ์ฑ ์ ์ง
How
Fig. 2: The pipeline of TrackVLA++. Given a video stream and a language instruction, TrackVLA++ predicts a tracking traj
- Vision encoder๋ก RGB ์
๋ ฅ์ ์ฒ๋ฆฌํ๊ณ grid pooling์ผ๋ก ์๊ฐ ํ ํฐ ์ถ์ถ
- Polar-CoT๋ฅผ ํตํด <ฮธ, d, C> ํํ์ ๊ทน์ขํ ์์น์ confidence ์ ์ ์์ธก
- TIM์์ ๊ฐ์ค์น w = C_new / (C_new + C_old)๋ฅผ ๊ณ์ฐํ์ฌ ๋ฉ๋ชจ๋ฆฌ ์
๋ฐ์ดํธ ๊ฐ๋ ๊ฒฐ์
- Confidence ๊ธฐ๋ฐ gating์ผ๋ก ๋์ ์ ๋ขฐ๋์ ์
๋ฐ์ดํธ๋ง ํ์ฉํ์ฌ ํ์ ์ค ๋ฉ๋ชจ๋ฆฌ ๋ณด์กด
- Action head๊ฐ spatial prior์ ๋ฉ๋ชจ๋ฆฌ ์ ๋ณด๋ก๋ถํฐ tracking trajectory ์์ฑ
Originality
- Polar-CoT์ ํ์ : ๊ธฐ์กด CoT๋ verboseํ ์ค๊ฐ ํํ์ ์์ฑํ๋, Polar-CoT๋ ๋จ์ผ ๊ทน์ขํ token์ผ๋ก ๊ณต๊ฐ ์ถ๋ก ์ ํจ์จํ
- TIM์ confidence-aware ์ค๊ณ: ๋ชฉํ ์กด์ฌ ํ์ ๋์ ๋ฐ๋ผ ๋์ ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ์
๋ฐ์ดํธ ๊ฐ๋๋ฅผ ์กฐ์ ํ๋ ์๋ก์ด ์ ๊ทผ
- VLA ํจ๋ฌ๋ค์ ํ์ฅ: ์ถ๋ก ๊ณผ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ฒฐํฉํ ํตํฉ ํ๋ ์์ํฌ๋ก EVT ์์
์ ํนํ๋ ์ค๊ณ
- multi-view ์์ฐ์ค๋ฌ์ด ํ์ฅ: ์ ์๋ ๋ฉ์ปค๋์ฆ์ด ๋จ์ผ/๋ค์ค ์นด๋ฉ๋ผ ์ค์ ๋ชจ๋์ ์ผ๊ด๋๊ฒ ์ ์ฉ ๊ฐ๋ฅ
Limitation & Further Study
- ๋ฉ๋ชจ๋ฆฌ ์ฉ๋ ์ ํ: ๋งค์ฐ ์ฅ์๊ฐ(์์๊ฐ ์ด์) ์ถ์ ์์ ๋ฉ๋ชจ๋ฆฌ ์ถฉ๋ ์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- ๋ณต์กํ distractors: ์ฌ๋ฌ ์๊ฐ์ ์ผ๋ก ๋ณํํ๋ ์ ์ฌ ๋์ ๊ฐ ์๋ณ ์ฌ์ ํ ๋์ ์
- ์ค์๊ฐ์ฑ: ๋ค์ค ์นด๋ฉ๋ผ ์ค์ ์์ ๊ณ์ฐ ๋ณต์ก๋ ์ฆ๊ฐ๋ก frame rate ์ํฅ ๊ฐ๋ฅ
- ํ์์ฐ๊ตฌ: adaptive memory size ์กฐ์ , hierarchical memory ๊ตฌ์กฐ, long-term object re-identification ๋ชจ๋ ํตํฉ ๊ฐ๋ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: TrackVLA++๋ ํจ์จ์ ์ธ spatial reasoning๊ณผ confidence-aware memory update๋ก embodied visual tracking์ ์ค์ ๋์ (ํ์, distractors)์ ์ฐ์ํ๊ฒ ํด๊ฒฐํ๋ฉฐ, ์๋ฎฌ๋ ์ด์
๊ณผ ์คํ๊ฒฝ์์ ๋ชจ๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์
์ฆํ ๋งค์ฐ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์