Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
์ ์: Mahmoud Assran, Quentin Duval, Ishan Misra, Piotr Bojanowski, Pascal Vincent, Michael Rabbat, Yann LeCun, Nicolas Ballas | ๋ ์ง: 2023-01-19 | URL: https://arxiv.org/abs/2301.08243 📄 PDF
Essence
Figure 3. I-JEPA. The Image-based Joint-Embedding Predictive
I-JEPA๋ ์์ผ๋ก ๋ง๋ ๋ฐ์ดํฐ ์ฆ๊ฐ ์์ด ์ด๋ฏธ์ง์ ๋ฌธ๋งฅ ๋ธ๋ก์ผ๋ก๋ถํฐ ๋์ ๋ธ๋ก์ ํํ์ ์์ธกํ์ฌ ์๋ฏธ๋ก ์ ์ด๋ฏธ์ง ํํ์ ํ์ตํ๋ Joint-Embedding Predictive Architecture ๊ธฐ๋ฐ์ ์๊ธฐ ์ง๋ ํ์ต ๋ฐฉ๋ฒ์ด๋ค.
Motivation
- Known: Invariance ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ์์ผ๋ก ๋ง๋ ์ฆ๊ฐ์ ํตํด ๋์ ์๋ฏธ๋ก ์ ํํ์ ํ์ตํ์ง๋ง ๊ฐํ ํธํฅ์ ๋์
ํ๊ณ , ์์ฑ ๋ฐฉ๋ฒ๋ค์ ํฝ์
/ํ ํฐ ์์ค์์ ์์ธกํ์ฌ ์๋ฏธ๋ก ์ ์์ค์ด ๋ฎ์ ๊ฒฝํฅ์ ๋ณด์ธ๋ค.
- Gap: ๊ธฐ์กด ์๊ธฐ ์ง๋ ํ์ต ๋ฐฉ๋ฒ๋ค์ ์์ผ๋ก ๋ง๋ ์ฆ๊ฐ์ ์์กดํ๊ฑฐ๋ ๋ฎ์ ์๋ฏธ๋ก ์ ์์ค์ ํํ์ ์์ฑํ๋ ๋ฌธ์ ๊ฐ ์์ผ๋ฉฐ, ์ด๋ฅผ ํด๊ฒฐํ๋ฉด์๋ ๊ณ์ฐ ํจ์จ์ฑ์ ์ ์งํ๋ ์ ๊ทผ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: ์๋ฏธ๋ก ์ ์ด๋ฉด์๋ ์ผ๋ฐํ ๊ฐ๋ฅํ ํํ ํ์ต์ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์
์์ ์ฑ๋ฅ์ ๊ฒฐ์ ํ๋ ํต์ฌ์ด๋ฉฐ, ํนํ ์ ์์ค ์๊ฐ ์์
์์์ ์ฑ๋ฅ ํฅ์๊ณผ ๊ณ์ฐ ํจ์จ์ฑ์ ์ค์ ์์ฉ์์ ์ค์ํ๋ค.
- Approach: ์ด๋ฏธ์ง๋ฅผ ์ปจํ
์คํธ ๋ธ๋ก๊ณผ ๋์ ๋ธ๋ก์ผ๋ก ๋ถํ ํ๊ณ , context encoder๋ก๋ถํฐ์ ํํ์ผ๋ก target encoder๊ฐ ์์ฑํ ๋์ ๋ธ๋ก์ ํํ์ predictor ๋คํธ์ํฌ๋ก ์์ธกํ๋ ๋ฐฉ์์ด๋ค. ์๋ฏธ๋ก ์ ํํ์ ์ ๋ํ๊ธฐ ์ํด ์ถฉ๋ถํ ํฐ ํฌ๊ธฐ์ ๋์ ๋ธ๋ก๊ณผ ๊ณต๊ฐ์ ์ผ๋ก ๋ถ์ฐ๋ ์ปจํ
์คํธ ๋ธ๋ก์ ์ฌ์ฉํ๋ ๋ง์คํน ์ ๋ต์ ํต์ฌ์ผ๋ก ํ๋ค.
Achievement
Figure 1. ImageNet Linear Evaluation. The I-JEPA method
- ์ ์ ์ ์ฆ๊ฐ ์ ๊ฑฐ: ๋ฐ์ดํฐ ์ฆ๊ฐ ์์ด๋ ImageNet-1K ์ ํ ํ๊ฐ์์ MAE ๋ฑ ํฝ์
์ฌ๊ตฌ์ฑ ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํ๋ ์๋ฏธ๋ก ์ ํํ์ ํ์ตํ๋ค.
- ์ฐ์ํ ํ์ฅ์ฑ: ViT-Huge/14๋ฅผ 16๊ฐ A100 GPU๋ก 72์๊ฐ ๋ด์ ํ์ต ๊ฐ๋ฅํ๋ฉฐ, ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น 2.5๋ฐฐ~10๋ฐฐ ์ด์ ๊ณ์ฐ ํจ์จ์ ์ด๋ค.
- ๋ค์ํ ์์
์์์ ์ฐ์์ฑ: ์๋ฏธ ๋ถ๋ฅ ์์
์์๋ view-invariant ๋ฐฉ๋ฒ๊ณผ ๊ฒฝ์๋ ฅ์ด ์์ผ๋ฉฐ, ๊ฐ์ฒด ์นด์ดํ
๊ณผ ๊น์ด ์์ธก ๊ฐ์ ์ ์์ค ์๊ฐ ์์
์์ ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
- ๊ฐํ ์คํ-๋-์
ํ ์ฑ๋ฅ: ๋ฐ์ง๋ 1% ImageNet-1K์ ์๋ฏธ ์ ์ด ์์
์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
How
Figure 3. I-JEPA. The Image-based Joint-Embedding Predictive
- ์ด๋ฏธ์ง๋ฅผ ๊ฒน์น์ง ์๋ ํจ์น๋ก ๋ถํ ํ๊ณ , ์ปจํ
์คํธ ๋ธ๋ก(๊ณต๊ฐ์ ์ผ๋ก ๋ถ์ฐ๋ ๊ฐ์ ํจ์น ๋ชจ์)๊ณผ ๋์ ๋ธ๋ก(๋ง์คํน๋ ์์ญ)์ ์ํ๋งํ๋ค.
- Context encoder (Vision Transformer)๋ ์ปจํ
์คํธ ํจ์น๋ง ์ฒ๋ฆฌํ์ฌ ํํ์ ์์ฑํ๋ค.
- Predictor ๋คํธ์ํฌ(์ข์ ViT)๋ ์ปจํ
์คํธ ํํ๊ณผ ์์น ํ ํฐ์ ์
๋ ฅ๋ฐ์ ํน์ ์์น์ ๋์ ๋ธ๋ก ํํ์ ์์ธกํ๋ค.
- Target encoder (context encoder์ ์ ์ง๋ ๊ฐ์ค์น)๋ ์ ์ฒด ์ด๋ฏธ์ง์์ ๋์ ๋ธ๋ก ํํ์ ๊ณ์ฐํ๋ค.
- L2 ์์ค์ ํตํด ์์ธก๋ ํํ๊ณผ ๋์ ํํ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ต์ํํ์ฌ ํ์ตํ๋ค.
- Asymmetric architecture (context encoder์ target encoder์ ๋น๋์นญ ์ค๊ณ)๋ก ํํ ๋ถ๊ดด๋ฅผ ๋ฐฉ์งํ๋ค.
- ๋ค์ํ ํฌ๊ธฐ์ ์์น์ ๋์ ๋ธ๋ก๋ค์ ๋ํด ๋์์ ์์ธกํ์ฌ ์ปจํ
์คํธ๋ก๋ถํฐ ํ๋ถํ ์๋ฏธ ์ ๋ณด๋ฅผ ํ์ตํ๋๋ก ์ ๋ํ๋ค.
Originality
- ํํ ๊ณต๊ฐ์์์ ์์ธก: ๊ธฐ์กด ์์ฑ ๋ฐฉ๋ฒ๊ณผ ๋ฌ๋ฆฌ ํฝ์
/ํ ํฐ ์์ค์ด ์๋ ์ถ์์ ํํ ๊ณต๊ฐ์์ ์์ธกํ์ฌ ๋ถํ์ํ ์ ์์ค ์ธ๋ถ์ฌํญ์ ์ ๊ฑฐํ๊ณ ์๋ฏธ๋ก ์ ํ์ต์ ์ ๋ํ๋ค.
- ์ฆ๊ฐ ์ ๊ฑฐ: ์์ผ๋ก ๋ง๋ ๋ฐ์ดํฐ ์ฆ๊ฐ ์์ด๋ ๋์ ์๋ฏธ๋ก ์ ํํ์ ํ์ตํ ์ ์์์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ ๋ค๋ฅธ ๋ชจ๋ฌ๋ฆฌํฐ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋์ธ๋ค.
- ์ ์คํ ๋ง์คํน ์ ๋ต: ๋์ ๋ธ๋ก ํฌ๊ธฐ์ ์ปจํ
์คํธ ๋ธ๋ก์ ๊ณต๊ฐ ๋ถ์ฐ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ์ฌ ์๋ฏธ๋ก ์ ํํ ํ์ต์ ํต์ฌ ์์๋ฅผ ๊ท๋ช
ํ๋ค.
- ๊ณ์ฐ ํจ์จ์ฑ: ํํ ๊ณต๊ฐ์์์ ์์ธก์ผ๋ก ์ธํ ๋ฎ์ ๊ณ์ฐ ๋ณต์ก๋๋ก ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ํ์ ํ ๋น ๋ฅธ pretraining์ ์คํํ๋ค.
Limitation & Further Study
- Target encoder ์ ์ง: Target encoder์ ๊ฐ์ค์น๋ฅผ ๊ณ ์ ์ํค๋ ์ค๊ณ๋ก ์ธํ ์ด๋ก ์ ์ ๋น์ฑ์ ๋ถ์กฑ๊ณผ ์ต์ ์ฑ ๋ณด์ฅ ๋ฌธ์ ๊ฐ ์๋ค.
- ์ ์์ค ์์
์ ์ฑ๋ฅ ๋ถ์ ๋ถ์กฑ: ๊น์ด ์์ธก๊ณผ ๊ฐ์ฒด ์นด์ดํ
์์ ์ฐ์์ฑ์ ๋ณด์ด์ง๋ง ์ด๋ฌํ ์ฑ๋ฅ ํฅ์์ ๋ฉ์ปค๋์ฆ์ ๋ํ ์ฌ์ธต ๋ถ์์ด ์ ํ์ ์ด๋ค.
- ๋ค๋ฅธ Vision Transformer ์ํคํ
์ฒ ๊ฒ์ฆ ๋ถ์กฑ: ์ฃผ๋ก ViT-Huge/14 ๊ธฐ๋ฐ์ผ๋ก ๊ฒ์ฆ๋์ด ๋ค๋ฅธ ์ํคํ
์ฒ๋ ๋ ์์ ๋ชจ๋ธ์์์ ํจ๊ณผ ๊ฒ์ฆ์ด ์ ํ์ ์ด๋ค.
- ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ ํ์ฅ์ฑ: ์ด๋ฏธ์ง ์ค์ฌ์ ๋ฐฉ๋ฒ์ด๋ฏ๋ก ํ
์คํธ, ์ค๋์ค ๋ฑ ๋ค๋ฅธ ๋ชจ๋ฌ๋ฆฌํฐ๋ก์ ์ง์ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ค์ฆ์ ๊ฒ์ฆ์ด ๋ถ์กฑํ๋ค.
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: ๋ง์คํน ์ ๋ต์ ์๋ ์ต์ ํ, target encoder ์
๋ฐ์ดํธ ๋ฉ์ปค๋์ฆ ๊ฐ์ , ๋ ๊ฐ๋ ฅํ ์ด๋ก ์ ๋ถ์, ๋ฉํฐ๋ชจ๋ฌ ํ์ต์ผ๋ก์ ํ์ฅ ๋ฑ์ด ํ์ํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: I-JEPA๋ ํํ ๊ณต๊ฐ์์์ ์์ธก์ด๋ผ๋ ์ฐฝ์์ ์์ด๋์ด๋ก ์์ผ๋ก ๋ง๋ ์ฆ๊ฐ์ ์ ๊ฑฐํ๋ฉด์๋ ๋์ ์๋ฏธ๋ก ์ ํํ์ ํ์ตํ๊ณ , ๋ฐ์ด๋ ๊ณ์ฐ ํจ์จ์ฑ์ผ๋ก ์๊ธฐ ์ง๋ ํ์ต์ ์ค์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ ์ค์ํ ๊ธฐ์ฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์