Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
์ ์: Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Qing Jiang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang | ๋ ์ง: 2023-03-09 | URL: https://arxiv.org/abs/2303.05499 📄 PDF
Essence
Fig. 3: The framework of Grounding DINO. We present the overall framework, a feature
Grounding DINO๋ Transformer ๊ธฐ๋ฐ detector DINO์ grounded pre-training์ ๊ฒฐํฉํ์ฌ ์ธ์ด ์
๋ ฅ(์นดํ
๊ณ ๋ฆฌ๋ช
๋๋ referring expressions)์ผ๋ก ์์์ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ open-set object detector๋ฅผ ์ ์ํ๋ค. ํต์ฌ์ ์ธ์ด์ ๋น์ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ์ธ ๋จ๊ณ(feature enhancer, language-guided query selection, cross-modality decoder)์์ ๊ธด๋ฐํ ์ตํฉํ๋ ๊ฒ์ด๋ค.
Motivation
- Known: ๊ธฐ์กด closed-set detector๋ค์ ์ฌ์ ์ ์๋ ์นดํ
๊ณ ๋ฆฌ๋ง ํ์ง ๊ฐ๋ฅํ๋ฉฐ, ๋ช๋ช open-set detection ์ฐ๊ตฌ๋ค์ด CLIP์ด๋ contrastive learning์ ํ์ฉํด novel category ์ผ๋ฐํ๋ฅผ ์๋ํ๋ค. GLIP์ phrase grounding ๋ฐฉ์์ผ๋ก region-text pair์ ๋ํ ๋๊ท๋ชจ contrastive training์ ์ ์ํ๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋๋ถ๋ถ neck(phase A) ๋๋ head(phase C)์์๋ง ๋จ์ผ ๋จ๊ณ์ feature fusion์ ์ํํ๋ฉฐ, CLIP ๊ธฐ๋ฐ ์ ๊ทผ์ ํจ์จ์ฑ์ด region-text pair ํ์ง ์์
์ ์ ํ์ ์ด๋ค. ๋ํ GLIP์ sub-sentence level text feature ์ต์ ํ์ fully zero-shot evaluation์ด ๋ถ์กฑํ๋ค.
- Why: Open-set object detection์ AGI ์์คํ
์ ํต์ฌ ๋ฅ๋ ฅ์ผ๋ก, ์์์ ๊ฐ์ฒด ํ์ง ๋ฅ๋ ฅ์ image editing ๋ฑ ์์ฑ ๋ชจ๋ธ๊ณผ์ ํ์
์ ํตํด ๊ด๋ฒ์ํ ์ค์ฉ์ ์์ฉ์ด ๊ฐ๋ฅํ๋ค. ๋ฐ๋ผ์ stronger generalization๊ณผ ๋ ๋์ cross-modality alignment๊ฐ ํ์์ ์ด๋ค.
- Approach: Transformer ๊ธฐ๋ฐ DINO ๊ตฌ์กฐ์ layer-by-layer consistency๋ฅผ ํ์ฉํ์ฌ ์ธ ๋จ๊ณ ๋ชจ๋์์ feature fusion์ ์ํํ๋ค. ๋ํ GLIP์ grounded training ๋ฐฉ์์ ๊ฐ์ ํ๋, sub-sentence level text feature๋ฅผ ๋์
ํ์ฌ ๋ฌด๊ดํ ์นดํ
๊ณ ๋ฆฌ ๊ฐ attention์ ์ ๊ฑฐํจ์ผ๋ก์จ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ ๊ฐ์ญ์ ์ํํ๋ค.
Achievement
- COCO zero-shot detection: COCO training data ์์ด 52.5 AP ๋ฌ์ฑ, ๊ธฐ์กด SOTA ๋๋น ์๋นํ ์ฑ๋ฅ ํฅ์
- ODinW zero-shot benchmark: ํ๊ท 26.1 AP๋ก ์๋ก์ด ๊ธฐ๋ก ์ค๋ฆฝ
- ๋ค์ค ํ๊ฐ ์ค์ : closed-set detection, open-set detection, Referring Expression Comprehension (RefCOCO/+/g) ์ธ ๊ฐ์ง ์๋๋ฆฌ์ค์์ ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ
- ์ค์ฉ์ ์์ฉ: Stable Diffusion๊ณผ ํ์
ํ์ฌ image editing application ์คํ
How
Fig. 2: Extending closed-set detectors to open-set scenarios.
- Feature enhancer: self-attention, text-to-image cross-attention, image-to-text cross-attention์ stackingํ์ฌ neck ๋จ๊ณ(phase A)์์ feature ๊ฐํ
- Language-guided query selection: ์ธ์ด ์ ๋ณด๋ฅผ ํ์ฉํ query initialization (phase B)์ผ๋ก detection head ์
๋ ฅ ์ต์ ํ
- Cross-modality decoder: image์ text cross-attention layer๋ฅผ ํฌํจํ head ๋จ๊ณ(phase C) decoder๋ก query representation ํฅ์
- Sub-sentence level text feature: ๋ฌธ์ฅ ๋ด ๋ฌด๊ดํ ์นดํ
๊ณ ๋ฆฌ ๊ฐ attention์ ์ ๊ฑฐํ์ฌ category ๊ฐ ๊ฐ์ญ ์ํ ๋ฐ word-level feature ์ถ์ถ ๊ฐ์
- Large-scale grounded pre-training: object detection data, grounding data, caption data๋ฅผ ํตํฉํ์ฌ ๊ฐ๋
์ผ๋ฐํ ๋ฅ๋ ฅ ํ๋ณด
Originality
- Three-phase fusion์ ์์ ํ ๊ตฌํ: ๊ธฐ์กด GLIP (phase A๋ง) ๋๋ OV-DETR (phase B๋ง)๊ณผ ๋ฌ๋ฆฌ DINO์ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ์ฌ ๋ชจ๋ ์ธ ๋จ๊ณ์์ tight fusion ๋ฌ์ฑ
- Sub-sentence level text feature: GLIP์ random concatenation ๋ฐฉ์์ ๊ฐ์ ํ์ฌ ๋ฌด๊ดํ ์นดํ
๊ณ ๋ฆฌ ๊ฐ attention์ ๋ช
์์ ์ผ๋ก ์ ๊ฑฐํ๋ novel technique ๋์
- Fully zero-shot evaluation: ๊ธฐ์กด์ 'partial label' ์ค์ (base category๋ก ํ์ต ํ novel category ํ
์คํธ)๊ณผ ๋ฌ๋ฆฌ, training split์ ์์ ํ ์ ์ธํ true zero-shot ํ๊ฐ ๊ธฐ์ค ์๋ฆฝ", 'ํตํฉ ๋ฒค์น๋งํฌ ํ๊ฐ: closed-set, open-set, referring detection์ ๋จ์ผ ๋ชจ๋ธ๋ก ํตํฉ ํ๊ฐํ๋ ํฌ๊ด์ ํ๊ฐ ํ๋ ์์ํฌ ์ ์
Limitation & Further Study
- ๊ณ์ฐ ๋ณต์ก๋ ๋ถ์ ๋ถ์ฌ: ์ธ ๋จ๊ณ ๋ชจ๋์์ cross-attention์ ์ํํจ์ผ๋ก ์ธํ ๊ณ์ฐ ๋น์ฉ ๋ฐ inference ์๋์ ๋ํ ์ ๋์ ๋ถ์ ๋ฏธํก
- ๊ธด ๋ฌธ์ฅ ๋๋ ๋ณต์กํ referring expressions์ ๋ํ ์ฑ๋ฅ ๋ถ์ ๋ถ์กฑ: RefCOCO ๋ฒค์น๋งํฌ์ ์ฑ๋ฅ์ ์ ์๋๋, ๋งค์ฐ ๋ณต์กํ description์ ๋ํ ์คํจ ์ฌ๋ก ๋ถ์ ์์
- Grounded pre-training ๋ฐ์ดํฐ์
๊ตฌ์ฑ์ ์ธ๋ถ ์ ๋ณด ๋ถ์กฑ: ์ด๋ค detection/grounding/caption ๋ฐ์ดํฐ๋ฅผ ์ด๋ ๋น์จ๋ก ์ฌ์ฉํ๋์ง ๋ช
ํํ์ง ์์
- ๋๋ฉ์ธ ์ธ ์ผ๋ฐํ ๊ฒ์ฆ ๋ฏธํก: ๋งค์ฐ ๋ค๋ฅธ visual domain (์๋ฃ ์์, ์์ฑ ์ด๋ฏธ์ง ๋ฑ)์ ๋ํ zero-shot ์ฑ๋ฅ ํ๊ฐ ๋ฏธ์ค์
- ํ์์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๊ฒฝ๋ํ ๋ฐ mobile deployment ์ต์ ํ, (2) multimodal large language model (LLM)๊ณผ์ ํตํฉ, (3) video-based open-set detection ํ์ฅ, (4) ๋ค์ธ์ด ์ง์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Grounding DINO๋ Transformer ๊ธฐ๋ฐ detector์ structural advantage๋ฅผ ํ์ฉํ์ฌ ์ธ ๋จ๊ณ ๋ชจ๋์์ tight language-vision fusion์ ๊ตฌํํจ์ผ๋ก์จ, open-set object detection์ ์๋ก์ด SOTA๋ฅผ ์๋ฆฝํ๋ค. ํฌ๊ด์ ์ธ ๋ฒค์น๋งํฌ ํ๊ฐ์ ์ค์ฉ์ ์์ฉ ์ฌ๋ก๋ฅผ ํตํด ๋์ ์ฐ๊ตฌ ๊ฐ์น๋ฅผ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์