TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies
์ ์: Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumรฉ, Andrey Kolobov, Furong Huang, Jianwei Yang | ๋ ์ง: 2024-12-13 | URL: https://arxiv.org/abs/2412.10345 📄 PDF
Essence
Figure 1: An illustration of our method. The first image shows the original robotโs observation, while the second
Visual trace prompting ๊ธฐ๋ฒ์ ํตํด VLA ๋ชจ๋ธ์ spatial-temporal ์ธ์์ ํฅ์์์ผ ๋ก๋ด ์กฐ์ ์์
์ ์ฑ๋ฅ์ ๊ฐ์ ํ ์ฐ๊ตฌ์ด๋ค. 150K ๋ก๋ด ์กฐ์ ๊ถค์ ๋ฐ์ดํฐ์
์ ์์งํ๊ณ TraceVLA ๋ชจ๋ธ์ ๊ฐ๋ฐํ์ฌ ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ์ฐ์ํ ์ฑ๋ฅ์ ์
์ฆํ๋ค.
Motivation
- Known: ๋๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ์
์ผ๋ก ์ฌ์ ํ์ต๋ VLA ๋ชจ๋ธ์ ๋ค์ํ ์กฐ์ ์์
์ ๋ํด ์ผ๋ฐํ๋ ์ ์ฑ
์ ์ ๊ณตํ ์ ์๋ค. ๊ทธ๋ฌ๋ ์ด๋ค ๋ชจ๋ธ์ ํ์ฌ ์
๋ ฅ์๋ง ๋ฐ์ํ๊ณ ๊ณผ๊ฑฐ ์์ง์์ ๋ํ ์ธ์์ด ๋ถ์กฑํ์ฌ ๋ณต์กํ ์กฐ์ ์์
์์ ํจ๊ณผ์ ์ด์ง ๋ชปํ๋ค.
- Gap: VLA ๋ชจ๋ธ์ด ์๊ฐ์ ๋์ญํ(temporal dynamics)๊ณผ ๊ณต๊ฐ์ ๋์ญํ(spatial dynamics)์ ์ถฉ๋ถํ ์ดํดํ์ง ๋ชปํ์ฌ ๋ณต์กํ ์กฐ์ ์์
์์ ์ฑ๋ฅ์ด ์ ํ๋๋ค. ๊ณผ๊ฑฐ ํ๋ ์์ ๋จ์ํ ์ฐ๊ฒฐํ๋ ๋ฐฉ์์ ์ ๋ณด ์ค๋ณต์ฑ์ผ๋ก ์ธํด ๋ชจ๋ธ์ ์ฃผ์ ์ง์ค์ ๋ฐฉํดํ๋ค.
- Why: ์ผ๋ฐํ๋ ๋ก๋ด ์ ์ฑ
๊ฐ๋ฐ์ ๋ก๋ด์ด ๋ค์ํ ํ๊ฒฝ๊ณผ ์์
์ ์ ์ํ ์ ์๊ฒ ํ๋ฏ๋ก ๋ก๋ด ์กฐ์์ ์ค์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค. ๊ณต๊ฐ-์๊ฐ ์ ๋ณด์ ๋ช
์์ ์ธ์ฝ๋ฉ์ ๋ชจ๋ธ์ด ๋์ ํ๊ฒฝ์์ ๋ ์ ํํ ์ก์
์์ธก์ ์ํํ๋๋ก ๋๋๋ค.
- Approach: Co-Tracker๋ฅผ ์ฌ์ฉํ์ฌ ์ญ์ฌ์ ์ด๋ฏธ์ง ์ํ์ค์์ ๋ฐ์ง ํฌ์ธํธ ๊ถค์ ์ ์ถ์ถํ๊ณ , ์ด๋ฅผ ์๋ณธ ๊ด์ฐฐ ์ด๋ฏธ์ง์ ์๊ฐ์ ์ผ๋ก ์ค๋ฒ๋ ์ดํ์ฌ visual trace๋ฅผ ์์ฑํ๋ค. ์ด visual trace์ ์๋ณธ ์ด๋ฏธ์ง๋ฅผ separator token์ผ๋ก ๊ตฌ๋ถํ์ฌ VLA ๋ชจ๋ธ์ ์
๋ ฅ์ผ๋ก ์ ๊ณตํ๋ค.
Achievement
Figure 3: (Left): 7B TraceVLA vs. 7B OpenVLA. (Right): 4B TraceVLA-Phi3 vs. 4B OpenVLA-Phi3.
- SimplerEnv ์ฑ๋ฅ: OpenVLA ๋๋น 10% ํฅ์๋ ์ฑ๋ฅ์ 137๊ฐ ํ๊ฒฝ ์ค์ ์์ ๋ฌ์ฑ
- ์ค์ ๋ก๋ด ์ฑ๋ฅ: WidowX ๋ก๋ด 4๊ฐ์ง ์์
์์ OpenVLA ๋๋น 3.5๋ฐฐ ์ฐ์ํ ์ฑ๋ฅ ์
์ฆ
- ํจ์จ์ฑ: 4B Phi-3-Vision ๊ธฐ๋ฐ TraceVLA-Phi3 ๋ชจ๋ธ์ด 7B OpenVLA ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉด์ ์ถ๋ก ํจ์จ์ฑ์ ํฌ๊ฒ ๊ฐ์
- ์ผ๋ฐํ ๋ฅ๋ ฅ: ๋ค์ํ ๋ก๋ด ๊ตฌ์ฒดํ(embodiment)์ ์๋๋ฆฌ์ค์์ ๊ฒฌ๊ณ ํ ์ผ๋ฐํ ์ฑ๋ฅ ์์ฐ
- ๋ฐ์ดํฐ์
: 150K ๋ก๋ด ์กฐ์ ๊ถค์ ๋ฐ์ดํฐ์
๊ตฌ์ฑ ๋ฐ ๊ณต๊ฐ
How
Figure 2: An illustration of visual trace generation. Given a sequence of historical image observations, we first
- Co-Tracker ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์๊ฐ ์๋์ฐ N ๋ฒ์ ๋ด์ ์ญ์ฌ์ ์ด๋ฏธ์ง ์ํ์ค์์ KรK ๊ทธ๋ฆฌ๋ ๊ธฐ๋ฐ ๋ฐ์ง ํฌ์ธํธ ๊ถค์ ์ถ์ถ
- ์ ์๋ฏธํ ์์ง์์ ๋ณด์ด๋ ํ์ฑ ํฌ์ธํธ ๊ถค์ (active point trajectories)์ ํํฐ๋งํ์ฌ ์ ํ
- ํ์ฑ ๊ถค์ ์ ์๊ฐ์ ์ /์ ์ผ๋ก ์ค๋ฒ๋ ์ดํ์ฌ ์๋ณธ ์ด๋ฏธ์ง ์์ visual trace ์์ฑ
- ์๋ณธ ์ด๋ฏธ์ง์ visual trace ์ค๋ฒ๋ ์ด ์ด๋ฏธ์ง ๋ ๊ฐ๋ฅผ separator token์ผ๋ก ๊ตฌ๋ถํ์ฌ ์ฐ๊ฒฐ
- ํ
์คํธ ๋ช
๋ น์ด ํ ํฐ๊ณผ ํจ๊ป VLA ๋ชจ๋ธ์ vision tokenizer ๋ฐ text tokenizer์ ์
๋ ฅ
- OpenVLA ๋ฐ Phi-3-Vision ๋ฐฑ๋ณธ ๋ชจ๋ธ ์์์ end-to-end fine-tuning ์ํ
- SimplerEnv ์๋ฎฌ๋ ์ดํฐ์ ๋ฌผ๋ฆฌ์ WidowX ๋ก๋ด์์ ๋ค์ํ ์์
์ผ๋ก ํ๊ฐ
Originality
- Visual trace prompting์ ๋จ์์ฑ๊ณผ ํจ๊ณผ์ฑ: ๊ธฐ์กด์ ํ๋ ์ ์ฐ๊ฒฐ ๋ฐฉ์์ ๋์ฒดํ๋ ์ฐ์ํ ๋์์ผ๋ก, 2D ์ด๋ฏธ์ง๋ง ์ฌ์ฉํ๋ฉด์๋ ๊ณต๊ฐ-์๊ฐ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ ๋ฌ
- Co-Tracker ํ์ฉ: ์ฌ์ ํ์ต๋ ๋ฐ์ง ํฌ์ธํธ ์ถ์ ๋ชจ๋ธ์ VLA ํ์ต์ ์ฐฝ์์ ์ผ๋ก ํตํฉํ์ฌ ์ถ๊ฐ ๊ฐ๋
์ ํธ ์์ด ์๊ฐ ์ ๋ณด ์ธ์ฝ๋ฉ
- ๋ค์ํ ๋ชจ๋ธ ์ค์ผ์ผ ๊ฒ์ฆ: 7B OpenVLA์ 4B Phi-3-Vision ๋ ๊ฐ์ง ์ํคํ
์ฒ์์ ๋ฐฉ๋ฒ์ ์ผ๋ฐ์ฑ๊ณผ ํ์ฅ์ฑ ์
์ฆ
- ๋๊ท๋ชจ ๋ฐ์ดํฐ์
๊ตฌ์ฑ: 150K ๋ก๋ด ์กฐ์ ๊ถค์ ์ผ๋ก ๊ตฌ์ฑ๋ ์ ๋ด ์๊ฐ ์ถ์ ํ๋กฌํํ
๋ฐ์ดํฐ์
๊ตฌ์ถ
Limitation & Further Study
- Visual trace ์์ฑ์ ๋ณ๋์ Co-Tracker ๋ชจ๋ธ์ด ํ์ํ์ฌ ๊ณ์ฐ ์ค๋ฒํค๋๊ฐ ๋ฐ์ํ๋ฉฐ, ์ถ์ ์คํจ ์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- 2D ํฌ์ธํธ ๊ถค์ ๋ง ์ฌ์ฉํ๋ฏ๋ก 3D ๊ณต๊ฐ ์ ๋ณด์ ๊น์ด(depth) ์์ค๋ก ์ธํ ์ ์ฝ
- SimplerEnv์ WidowX ๋ก๋ด์ ๋ํ ํ๊ฐ์ด๋ฏ๋ก ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ(ํ, ํด๋จธ๋
ธ์ด๋ ๋ฑ)์ ๋ํ ์ผ๋ฐํ ์ ๋ ๋ฏธ์ง์
- Visual trace์ ์ต์ ์ถ์ ์๊ฐ ์๋์ฐ N๊ณผ ๊ทธ๋ฆฌ๋ ํฌ๊ธฐ K์ ๋ํ ์ฒด๊ณ์ ๋ถ์ ๋ถ์กฑ
- ํ์์ฐ๊ตฌ: ์ ์์ trace ์์ฑ, 3D ํฌ์ธํธ ํด๋ผ์ฐ๋ ๊ธฐ๋ฐ ํ์ฅ, ๋ค์ํ ๋ก๋ด ํํ์ ๋ํ ํ๊ฐ, visual trace ํ์ง ์๋ ํ๊ฐ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Visual trace prompting์ ์ง๊ด์ ์ด๋ฉด์๋ ํจ๊ณผ์ ์ธ ๊ธฐ๋ฒ์ผ๋ก, VLA ๋ชจ๋ธ์ ๊ณต๊ฐ-์๊ฐ ์ธ์์ ์ค์ง์ ์ผ๋ก ๊ฐ์ ํ๋ฉฐ ๊ด๋ฒ์ํ ์คํ(์๋ฎฌ๋ ์ด์
๋ฐ ์ค์ ๋ก๋ด)์ ํตํด ์ฐ์ํ ์ฑ๋ฅ์ ์ผ๊ด๋๊ฒ ์
์ฆํ๋ค. ICLR 2025 ๊ฒ์ฌ ๋
ผ๋ฌธ์ผ๋ก์ ๋ก๋ด ์กฐ์ ๋ถ์ผ์ ์ค์ง์ ๊ธฐ์ฌ๋๊ฐ ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์