Learning Transferable Visual Models From Natural Language Supervision
์ ์: Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever | ๋ ์ง: 2021-02-26 | URL: https://arxiv.org/abs/2103.00020 📄 PDF
Essence
Figure 1. Summary of our approach. While standard image models jointly train an image feature extractor and a linear cla
400๋ง ๊ฐ์ (์ด๋ฏธ์ง, ํ
์คํธ) ์ ๋ฐ์ดํฐ์
์์ ์ด๋ฏธ์ง-ํ
์คํธ ๋์กฐ ํ์ต(contrastive learning)์ ํตํด ์ ์ด ๊ฐ๋ฅํ ์๊ฐ ๋ชจ๋ธ์ ํ์ตํ๊ณ , ์์ฐ์ธ์ด๋ฅผ ์ด์ฉํ zero-shot ์ ์ด๋ก 30๊ฐ ์ด์์ ๋ค์ํ ์ปดํจํฐ ๋น์ ์์
์์ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ๊ธฐ์กด ์ปดํจํฐ ๋น์ ๋ชจ๋ธ์ ๊ณ ์ ๋ ๋ฒ์ฃผ์ ๊ฐ์ฒด๋ง ์ธ์ํ๋๋ก ํ๋ จ๋์ด ์๋ก์ด ๊ฐ๋
์ ๋ค๋ฃจ๋ ค๋ฉด ์ถ๊ฐ ๋ ์ด๋ธ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ค. NLP์์๋ ์น ๊ท๋ชจ์ ํ
์คํธ ์ฌ์ ํ์ต์ด GPT ๊ณ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ๋ค.
- Gap: ์ด์ ์ ์ด๋ฏธ์ง-์บก์
ํ์ต ๋ฐฉ๋ฒ๋ค์ ์์ ๊ท๋ชจ ๋ฐ์ดํฐ์
(100K-200K)์์๋ง ํ๋ จ๋์ด ์ฑ๋ฅ์ด ๋ฎ์๊ณ , ์ฝํ ์ง๋ํ์ต ์ ๊ทผ๋ฒ๋ค์ ๊ฐ๋
์ ํธ๋ฅผ ์๋์ผ๋ก ์ ํ(1000~18291๊ฐ ํด๋์ค)ํด์ผ ํ๋ค.
- Why: ์์ฐ์ธ์ด๋ ๋ฌด์ ํ์ ์๊ฐ ๊ฐ๋
์ ํํํ ์ ์์ผ๋ฏ๋ก ์น ๊ท๋ชจ์ ๋ฐ์ดํฐ๋ก๋ถํฐ ํจ์จ์ ์ธ ์ฌ์ ํ์ต์ด ๊ฐ๋ฅํ๋ฉฐ, zero-shot ์ ์ด ๋ฅ๋ ฅ์ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์
์ ๋ํ ๋ฒ์ฉ์ฑ์ ์ ๊ณตํ๋ค.
- Approach: 400๋ฐฑ๋ง ๊ฐ์ ๊ณต๊ฐ ์ธํฐ๋ท (์ด๋ฏธ์ง, ํ
์คํธ) ์์์ contrastive learning ๋ชฉํ๋ก ์ด๋ฏธ์ง ์ธ์ฝ๋์ ํ
์คํธ ์ธ์ฝ๋๋ฅผ ๊ณต๋ ํ๋ จํ๊ณ , ์ฌ์ ํ์ต ํ ์์ฐ์ธ์ด ํ๋กฌํํธ๋ก zero-shot ๋ถ๋ฅ๊ธฐ๋ฅผ ๊ตฌ์ฑํ๋ค.
Achievement
Figure 2. CLIP is much more ef๏ฌcient at zero-shot transfer
- ํ์ฅ์ฑ๊ณผ ํจ์จ์ฑ: CLIP์ 400M ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๋ฉฐ ์ด์ bag-of-words ๋ฐฉ๋ฒ ๋๋น 4๋ฐฐ ํจ์จ์ ์ด๊ณ , compute์ ๋ฐ๋ฅธ ์ฑ๋ฅ์ด ๋งค๋๋ฌ์ด ํ์ฅ ๋ฒ์น์ ๋ฐ๋ฅธ๋ค
- Zero-shot ์ฑ๋ฅ: ImageNet์์ ResNet-50 ์์ค์ ์ ํ๋(์ฝ 50%)๋ฅผ 1.28M ํ๋ จ ์์ ์์ด ๋ฌ์ฑํ๋ฉฐ, 30๊ฐ ์ด์์ ๋ค์ํ ๋ฐ์ดํฐ์
(OCR, ํ๋ ์ธ์, ์ง๋ฆฌ์ ๋ณดํ, ๋ฏธ์ธํ ๊ฐ์ฒด ๋ถ๋ฅ)์์ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ธ๋ค
- ๊ฐ๊ฑด์ฑ: Zero-shot CLIP ๋ชจ๋ธ์ด ๋๋ฑํ ์ ํ๋์ supervised ImageNet ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ๊ฐ๊ฑดํ๋ฉฐ, ๋ถํฌ ์ด๋์ ๋ ์ ๋์ํ๋ค
- ๋ค์ค ์์
ํ์ต: ๋จ์ผ ์ฌ์ ํ์ต์ผ๋ก OCR, ์ง๋ฆฌ์ ๋ณดํ, ํ๋ ์ธ์ ๋ฑ ๋ค์ํ ์์
์ ์๋์ผ๋ก ์ํํ๋ ๋ฅ๋ ฅ์ ์ต๋ํ๋ค
How
Figure 1. Summary of our approach. While standard image models jointly train an image feature extractor and a linear cla
- 400๋ฐฑ๋ง ๊ฐ์ (์ด๋ฏธ์ง, ํ
์คํธ) ์์ ์ธํฐ๋ท์์ ์์งํ๊ณ ๊ฐ๋ฐฉ ๋ฐ์ดํฐ์
์ ํ์ฉํ๋ค
- Contrastive pre-training: ๋ฐฐ์น ๋ด ๋ชจ๋ (์ด๋ฏธ์ง, ํ
์คํธ) ์์ ๋ํด ์ ์ฌ๋ ํ๋ ฌ์ ๊ตฌ์ฑํ๊ณ , ์ฌ๋ฐ๋ฅธ ๋์๋ง์ ์ต๋ํํ๋ ๋์กฐ ์์คํจ์๋ฅผ ์ฌ์ฉํ๋ค
- ์ด๋ฏธ์ง ์ธ์ฝ๋(CNN ๋๋ Vision Transformer ๊ธฐ๋ฐ)์ ํ
์คํธ ์ธ์ฝ๋(Transformer ๊ธฐ๋ฐ) ์ํคํ
์ฒ๋ฅผ ๋ณ๋ ฌ๋ก ํ๋ จํ๋ค
- Zero-shot ์ถ๋ก : ํด๋์ค๋ช
๋๋ ์ค๋ช
(์: 'A photo of a dog')์ ํ
์คํธ ์ธ์ฝ๋๋ก ์ธ์ฝ๋ฉํ์ฌ ์ ํ ๋ถ๋ฅ๊ธฐ๋ฅผ ๋์ ์ผ๋ก ๊ตฌ์ฑํ๋ค", '8๊ฐ ๋ชจ๋ธ ์๋ฆฌ์ฆ๋ฅผ ํตํด ๊ณ์ฐ๋ ๋ฒ์์ ๊ฑธ์น ํ์ฅ์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ค
Originality
- ์ด์ ์ด๋ฏธ์ง-์บก์
ํ์ต๊ณผ ๋ฌ๋ฆฌ 400M ๊ท๋ชจ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์ผ๋ก ํ์ฅํ์ฌ ์ค์ง์ ์ธ ์ฑ๋ฅ ๋ฌ์ฑ์ ์
์ฆํ๋ค
- Contrastive objective๋ฅผ bag-of-words ์์ธก๋ณด๋ค 4๋ฐฐ ๋ ํจ์จ์ ์์ ์ค์ฆ์ ์ผ๋ก ๋ณด์ด๊ณ , transformer ์ธ์ด ๋ชจ๋ธ ๋๋น 3๋ฐฐ ํจ์จ์ฑ์ ๋ฌ์ฑํ๋ค
- Zero-shot ์ ์ด์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ 30๊ฐ ์ด์์ ๋ค์ํ ๋ฐ์ดํฐ์
์์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ค
- ์์ฐ์ธ์ด ์ง๋ ์ ํธ์ ํ๋ถ์ฑ์ ํ์ฉํ์ฌ ๋์ ๋ถ๋ฅ๊ธฐ ํฉ์ฑ๊ณผ ํ๋กฌํํธ ์์ง๋์ด๋ง ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋ค
Limitation & Further Study
- ImageNet zero-shot ์ ํ๋(~50%)๋ ์ฌ์ ํ fully supervised ResNet-50(~76%)๋ณด๋ค ์๋นํ ๋ฎ์ผ๋ฉฐ, ๋ฐ์ดํฐ์
ํนํ ๋ฏธ์ธ์กฐ์ ์ด ์ถ๊ฐ ์ฑ๋ฅ ํฅ์์ ์ํด ํ์ํ ์ ์๋ค
- ํ๋กฌํํธ ์์ง๋์ด๋ง์ ํจ๊ณผ๊ฐ ํด๋์ค๋ง๋ค ํฌ๊ฒ ๋ค๋ฅด๋ฉฐ, ์ต์ ํ๋กฌํํธ ์ค๊ณ ๊ณผ์ ์ด ์๋์ ์ด๋ค
- ์ด๋ฏธ์ง-ํ
์คํธ ์ ๋ฐ์ดํฐ์ ํ์ง๊ณผ ํธํฅ์ฑ์ด ํ์ต๋ ํํ์ ๊ณต์ ์ฑ๊ณผ ํน์ ๊ฐ๋
์ ๊ฐ๊ฑด์ฑ์ ์ํฅ์ ๋ฏธ์น ์ ์๋ค
- ํ
์คํธ ์ธ์ฝ๋์ ๋ํ ์์ธ ๋ถ์์ด ๋ถ์กฑํ๋ฉฐ, ์ธ์ด ์ดํด ๋ฅ๋ ฅ์ ํ๊ณ๊ฐ zero-shot ์ฑ๋ฅ์ ์ ํํ ์ ์๋ค
- ํ์ ์ฐ๊ตฌ: ๋ ํจ์จ์ ์ธ ํ๋กฌํํธ ์๋ํ, ๋ฐ์ดํฐ ํธํฅ์ฑ ์ํ, ์ธ๋ฐํ ์๊ฐ์ ๊ฐ๋
์ ๋ํ ์ฑ๋ฅ ํฅ์, ๋ฉํฐ๋ชจ๋ฌ ํํ์ ํด์๊ฐ๋ฅ์ฑ ์ฐ๊ตฌ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: CLIP์ ๋๊ท๋ชจ ์์ฐ์ธ์ด ์ง๋ํ์ต์ ํตํด zero-shot ์ ์ด ์ฑ๋ฅ์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํ๋ฉฐ, ๊ฐ๋จํ contrastive ํ์ต ๋ชฉํ์ ํ์ฅ์ฑ์ ์
์ฆํจ์ผ๋ก์จ ๋ค์ํ ๋น์ ์์
์ ๋ํ ๋ฒ์ฉ ์๊ฐ ๋ชจ๋ธ์ ๊ฐ๋ฅ์ฑ์ ์ด์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์