Any-point Trajectory Modeling for Policy Learning
์ ์: Chuan Wen, Xingyu Lin, John So, Kai Chen, Qi Dou, Yang Gao, Pieter Abbeel | ๋ ์ง: 2023-12-28 | URL: https://arxiv.org/abs/2401.00025 📄 PDF
Essence
Fig. 1: Given a task instruction and the initial positions of any set of points in an image frame, our Any-point Traject
Any-point Trajectory Modeling (ATM)์ ์ก์
๋ผ๋ฒจ์ด ์๋ ๋น๋์ค์์ ์์์ ์ ๋ค์ ๋ฏธ๋ ๊ถค์ ์ ์์ธกํ๋๋ก ์ฌ์ ํ์ต๋ ๊ถค์ ๋ชจ๋ธ์ ํ์ฉํ์ฌ, ์ต์ํ์ ์ก์
-๋ผ๋ฒจ ๋ฐ์ดํฐ๋ก๋ ๊ฐ๊ฑดํ visuomotor ์ ์ฑ
ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ ํ๋ ์์ํฌ์ด๋ค.
Motivation
- Known: ๋น๋์ค๋ ํ๋, ๋ฌผ๋ฆฌํ, ์๋ฏธ๋ก ์ ์ง์์ ํ๋ถํ ์์ฒ์ด์ง๋ง, ์ก์
๋ผ๋ฒจ ๋ถ์ฌ๋ก ์ธํด ์ ์ด ํ์ต์ ํ์ฉํ๊ธฐ ์ด๋ ต๋ค. ๊ธฐ์กด ๋น๋์ค ์์ธก ์ ๊ทผ๋ฒ์ ํฝ์
๋ณํ๋ฅผ ๋ชจ๋ธ๋งํ์ฌ hallucination ๋ฌธ์ ์ ๋์ ๊ณ์ฐ ๋น์ฉ์ ์ผ๊ธฐํ๋ค.
- Gap: ๋น๋์ค ์ฌ์ ํ์ต๊ณผ ์ ์ฑ
ํ์ต ์ฌ์ด๋ฅผ ์ฐ๊ฒฐํ ์ ์์ผ๋ฉด์๋, ํฝ์
์์ค์ ๋ณต์ก์ฑ์ ํผํ๊ณ ๋ฌผ๋ฆฌ์ ๋์ญํ์ ์ถฉ์คํ ๋ชจ๋ธ๋งํ ์ ์๋ ๊ตฌ์กฐํ๋ ํํ์ด ๋ถ์กฑํ๋ค.
- Why: ๋ก๋ด ์ ์ฑ
ํ์ต์ ์ฃผ์ ๋ณ๋ชฉ์ ์ก์
-๋ผ๋ฒจ ์์ฐ ๋ฐ์ดํฐ ์์ง์ ๋์ ๋น์ฉ์ด๋ฉฐ, ๋๊ท๋ชจ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ ์ ์์ผ๋ฉด ๋ฐ์ดํฐ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: ์์์ ์ ๋ค์ 2D ๊ถค์ ์ ์นด๋ฉ๋ผ ์ขํ๊ณ์์ ์์ธกํ๋๋ก ATM์ ์ฌ์ ํ์ตํ๊ณ , ์์ธก๋ ๊ถค์ ์ ์ ์ฑ
ํ์ต ์ ๋ถ๋ถ ๋ชฉํ(subgoal)๋ก ํ์ฉํ์ฌ ์ต์ํ์ ์ก์
-๋ผ๋ฒจ ๋ฐ์ดํฐ๋ก ์ ์ฑ
์ ํ์ตํ๋ค.
Achievement
Fig. 4: We compare with state-of-the-art video pre-training methods on language-conditioned manipulation tasks in the
- ์ฑ๋ฅ ํฅ์: 130๊ฐ ์ด์์ ์ธ์ด-์กฐ๊ฑด ์กฐ์ ๊ณผ์ ์์ 63%์ ์ฑ๊ณต๋ฅ ๋ก ๊ธฐ์กด ๋น๋์ค ์ฌ์ ํ์ต ๋ฐฉ๋ฒ ๋๋น ํ๊ท 80% ํฅ์
- ์ผ๋ฐ์ฑ: ์์์ ์ ์ ๋ํด ์๋ํ๋ฏ๋ก ๊ณผ์ ํนํ ๊ตฌ์กฐ๋ฅผ ํ์๋ก ํ์ง ์์ผ๋ฉฐ ๋ค์ํ ํ๊ฒฝ์ ์ ์ฉ ๊ฐ๋ฅ
- ์ ์ด ํ์ต: ์ธ๊ฐ ๋น๋์ค ๋ฐ ๋ค๋ฅธ ๋ก๋ด ํํ์ ๋น๋์ค๋ก๋ถํฐ ์กฐ์ ๊ธฐ์ ์ ํจ๊ณผ์ ์ธ ์ ์ด ํ์ต ๋ฌ์ฑ
How
Fig. 2: Overview of our framework. (a) In the first stage, given an action-free video dataset, we first sample 2D points
- ์ต๊ทผ์ ๋น์ ๋ชจ๋ธ(Tracking Any Point)์ ํ์ฉํ์ฌ ๋น๋์ค์์ ์๋์ผ๋ก ์ ๊ถค์ ์์ฑ ๋ฐ ์๊ธฐ ๊ฐ๋
ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ฑ
- Particle ๊ธฐ๋ฐ ๊ถค์ ๋ชจ๋ธ๋ง์ผ๋ก ํฝ์
๋ณํ ๋์ ๋ฌผ๋ฆฌ์ ๋์ญํ ์ถฉ์คํ ๋ชจ๋ธ๋งํ๋ฉฐ, ๋ฌผ์ฒด ํญ์์ฑ๊ณผ ์ฐ์ ์ด๋ ๊ฐ์ ๊ท๋ฉ ํธํฅ ์์ฐ์ค๋ฝ๊ฒ ํฌํจ
- ์นด๋ฉ๋ผ ๋ณด์ ๊ฐ์ ์ ์ต์ํํ๊ธฐ ์ํด 2D ์นด๋ฉ๋ผ ์ขํ๊ณ์์ ๊ถค์ ์์ธก
- ์์ธก๋ ๊ถค์ ์ ์ ์ฑ
์
๋ ฅ์ผ๋ก ์ ๊ณตํ์ฌ ํ๋ฃจํ ์คํ ๊ฐ๋ฅํ๊ฒ ํจ์ผ๋ก์จ ๋์ ๊ฒฌ๊ณ ์ฑ ๋ฌ์ฑ
- Behavioral cloning ๋ชฉํ๋ก ์ต์ํ์ ์ก์
-๋ผ๋ฒจ ๋ฐ์ดํฐ๋ก ๊ถค์ -์๋ด ์ ์ฑ
ํ์ต
Originality
- ํฝ์
์์ธก ๋์ ์์์ ์ ์ ๊ถค์ ์ ์์ธกํ๋ ์๋ก์ด ๊ตฌ์กฐํ๋ ํํ ์ ์์ผ๋ก, ๊ธฐ์กด ๋น๋์ค ์์ธก ๋ฐ ํน์ง ํํ ํ์ต๊ณผ ๊ตฌ๋ณ๋จ
- ์ ๊ธฐ๋ฐ ๊ถค์ ๋ชจ๋ธ๋ง์ด Tracking Any Point ๊ฐ์ ์ต์ ๋น์ ๋ชจ๋๊ณผ์ ๊ฒฐํฉ์ผ๋ก ์๊ธฐ ๊ฐ๋
๋ฐฉ์์ ํ์ฅ์ฑ ์๋ ๋ฐ์ดํฐ ์์ฑ ์คํ
- ์์์ ์ ์ ๋ํด ์๋ํ๋ฉด์๋ cross-embodiment ์ ์ด ํ์ต์ ์ง์ํ๋ ๋ฒ์ฉ์ฑ ๋์ ํํ
- ์ ์ฑ
ํ์ต ์ ํ๋ฃจํ ์คํ์ผ๋ก ๊ฒฌ๊ณ ์ฑ์ ํ๋ณดํ๋ฉด์๋ ๊ณ์ฐ ํจ์จ์ฑ ์ ์ง
Limitation & Further Study
- ์ ์ถ์ ๋ชจ๋ธ(TAP)์ ์ฑ๋ฅ์ ์์กดํ๋ฏ๋ก, ์ถ์ ์คํจ ์ ๊ถค์ ์์ธก ํ์ง ์ ํ ๊ฐ๋ฅ
- ๋น๋์ค ์ฌ์ ํ์ต ๋ฐ์ดํฐ์
๊ณผ ์ ์ฑ
ํ์ต ๊ณผ์ ๊ฐ์ ๋๋ฉ์ธ ์ฐจ์ด๊ฐ ํด ๊ฒฝ์ฐ ์ ์ด ํจ๊ณผ ๊ฐ์ ๊ฐ๋ฅ์ฑ
- ํ์ฌ ์กฐ์ ๊ณผ์ ์ค์ฌ ํ๊ฐ์ด๋ฉฐ, ๋ ๋ณต์กํ ์ฅ๊ธฐ ๊ณํ์ ์ํ๋ ๊ณผ์ ์์์ ์ฑ๋ฅ ๋ฏธ๊ฒ์ฆ
- ํ์ ์ฐ๊ตฌ: 3D ๊ถค์ ๋ชจ๋ธ๋ง์ผ๋ก์ ํ์ฅ, ๋ ๋ค์ํ ๋ก๋ด ํํ ๋ฐ ๊ณผ์ ์์ญ์์์ ํ๊ฐ, ์ ์ถ์ ์ ๊ฒฌ๊ณ ์ฑ ํฅ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ์ ์ฑ
ํ์ต์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ์๋ก์ด ์ ๊ทผ๋ฒ์ผ๋ก, ์์์ ์ ๊ถค์ ์ด๋ผ๋ ๋จ์ํ๋ฉด์๋ ๊ฐ๋ ฅํ ํํ์ ํตํด ๋์ ์ฑ๋ฅ๊ณผ ์ผ๋ฐ์ฑ์ ๋์์ ๋ฌ์ฑํ๋ค. ๊ด๋ฒ์ํ ์คํ๊ณผ ๋ช
ํํ ํ๋ ์์ํฌ๋ก ๋ก๋ด ํ์ต ๋ถ์ผ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์