Search-TTA: A Multimodal Test-Time Adaptation Framework for Visual Search in the Wild
์ ์: Derek Ming Siang Tan, , Boyang Liu, Alok Raj, Qi Xuan Ang, Weiheng Dai, Tanishq Duhan, Jimmy Chiun, Yuhong Cao, Florian Shkurti, Guillaume Sartoretti | ๋ ์ง: 2025-05-16 | URL: https://arxiv.org/abs/2505.11350 📄 PDF
Essence
Search-TTA๋ ์์ฑ ์ด๋ฏธ์ง์ ํ์ฅ ์ผ์ ์ธก์ ์ ํ์ฉํ์ฌ VLM(Vision Language Model)์ ์์ธก์ ์ค์๊ฐ์ผ๋ก ๊ฐ์ ํ๋ ๋ฉํฐ๋ชจ๋ฌ ํ
์คํธํ์ ์ ์ ํ๋ ์์ํฌ๋ก, ์ผ์ธ ๋ก๋ด ์๊ฐ ํ์ ์ฑ๋ฅ์ 30%๊น์ง ํฅ์์ํจ๋ค.
Motivation
- Known: VLM(์: CLIP)์ ์์ฑ ์ด๋ฏธ์ง์์ ํ๊ฒฝ-๋ชฉํ ๊ด๊ณ๋ฅผ ์ถ๋ก ํ์ฌ ์๊ฐ ํ์์ ์ํ ์ฐ์ ์ ๋ณด๋ฅผ ์์ฑํ ์ ์๋ค. ๊ทธ๋ฌ๋ ๋๋ฉ์ธ ๋ฏธ์ค๋งค์น์ ํ ๋ฃจ์๋ค์ด์
์ผ๋ก ์ธํด ๋ถ์ ํํ ์์ธก์ด ๋ฐ์ํ ์ ์๋ค.
- Gap: ๊ธฐ์กด ์ ๋ณด๊ธฐ๋ฐ ๊ฒฝ๋ก ๊ณํ(IPP) ๋ฐฉ์์ ์ฌ์ ์ ๋ณด๋ฅผ ๊ณ ๋ คํ์ง ์๊ฑฐ๋, VLM์ ์ค๋ฅ๋ฅผ ํ์ ์ค ์์ ํ ๋ฉ์ปค๋์ฆ์ด ์๋ค. ์์ฑ ์ด๋ฏธ์ง์ ๋ค์ค ๋ชจ๋ฌ ๋ฐ์ดํฐ๋ก ํ์ตํ ์ผ์ธ ์๊ฐ ํ์ ๋ฐ์ดํฐ์
๋ ๋ถ์กฑํ๋ค.
- Why: ํ๊ฒฝ ๋ชจ๋ํฐ๋ง๊ณผ ์์ ๊ตฌ์กฐ ๋ฑ ์ผ์ธ ๋ก๋ด ์์ฉ์์ ์ ํ๋ ๋ฐฐํฐ๋ฆฌ์ ์ผ์ ์์ผ๊ฐ ๋ด์์ ํจ์จ์ ์ธ ํ์์ด ์ค์ํ๋ฉฐ, VLM์ ์ค๋ฅ๋ฅผ ์จ๋ผ์ธ์ผ๋ก ๋ณด์ ํ๋ฉด ํ์ ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํ ์ ์๋ค.
- Approach: ์์ฑ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ CLIP ์ธ์ฝ๋์ ์ ๋ ฌํ์ฌ ๋ชฉํ ์กด์ฌ ํ๋ฅ ์ ์์ฑํ๊ณ , Spatial Poisson Point Processes์์ ์๊ฐ์ ๋ฐ์ ๋ถํ์ค์ฑ ๊ฐ์ค ๊ทธ๋๋์ธํธ ์
๋ฐ์ดํธ๋ก ํ์ ์ค ์์ธก์ ๋์ ์ผ๋ก ๊ฐ์ ํ๋ค. ๋์์ 380k ์ด๋ฏธ์ง๋ฅผ ํฌํจํ AVS-Bench ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๋ค.
Achievement
Figure 5: Multimodal Alignment
- ์ฑ๋ฅ ๊ฐ์ : Search-TTA๋ ๊ณํ์ ์ฑ๋ฅ์ ์ต๋ 30.0%, ํ๋ฅ ๋งต ๋ถํฌ๋ฅผ 8.5% ํฅ์์ํค๋ฉฐ, ํนํ CLIP ์์ธก์ด ๋ถ์กฑํ ๊ฒฝ์ฐ์์ ๋๋๋ฌ์ง๋ค.
- ๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฌ: ํ
์คํธ ๋ฐ ์์ฑ ๋ชจ๋ฌ๋ฆฌํฐ์ ๋ํด ์ถ๊ฐ ํ์ต ์์ด ์ ๋ก์ท ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ๋ฉฐ emergent alignment๋ฅผ ์์ฐํ๋ค.
- ๊ท๋ชจ ์๋ VLM ๋น๊ต: ํจ์ฌ ๋ ํฐ VLM๊ณผ ๋น๊ตํ ์ ์๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉด์๋ ๊ฒฝ๋์ด๋ค.
- ์ค์ ๋ฐฐํฌ: ํ๋์จ์ด์ธ๋ฃจํ ํ
์คํธ๋ฅผ ํตํด ์ค์ UAV์์ ๋์ ๊ฐ๋ฅํจ์ ์
์ฆํ๋ค.
- ์๋ก์ด ๋ฒค์น๋งํฌ: ์ธํฐ๋ท๊ท๋ชจ ์ํ๊ณ ๋ฐ์ดํฐ ๊ธฐ๋ฐ 380k ํ์ต ์ด๋ฏธ์ง์ 8k ๊ฒ์ฆ ์ด๋ฏธ์ง๋ฅผ ํฌํจํ AVS-Bench ๋ฐ์ดํฐ์
์ ๊ณต๊ฐํ๋ค.
How
- ์์ฑ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ ํจ์น ๋ ๋ฒจ ๋์กฐ ํ์ต(contrastive learning)์ผ๋ก CLIP ์ธ์ฝ๋์ ์ ๋ ฌํ์ฌ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ ์๋ฒ ๋ฉ๊ณผ์ ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ธฐ๋ฐ ์ค์ฝ์ด ๋งต ์์ฑ
- ํ์ ์ค ์์งํ ์ธก์ ๊ฐ(์จ๋ณด๋ ์ผ์ ๊ฐ์ง)์ ๊ธฐ๋ฐ์ผ๋ก ๋ถํ์ค์ฑ ๊ฐ์ค ๊ทธ๋๋์ธํธ ์
๋ฐ์ดํธ ์ํ
- Spatial Poisson Point Processes์์ ์๊ฐ์ ๋ฐ์ ์ ๊ทํ ๋ฉ์ปค๋์ฆ์ผ๋ก ์์ ์ ์ธ ๊ทธ๋๋์ธํธ ์
๋ฐ์ดํธ ๋ณด์ฅ
- ํ๋ฌ๊ทธ์คํ๋ ์ด ์ธํฐํ์ด์ค๋ก ๋ค์ํ ๊ณํ ๋ฐฉ๋ฒ(์: RL ๊ธฐ๋ฐ)๊ณผ ์
๋ ฅ ๋ชจ๋ฌ๋ฆฌํฐ(์ด๋ฏธ์ง, ํ
์คํธ, ์์ฑ) ํธํ์ฑ ์ ๊ณต
- AVS-Bench ๋ฐ์ดํฐ์
์ผ๋ก ์ธ๋๋ฉ์ธ(in-domain) ๋ฐ ์์๋๋ฉ์ธ(out-of-domain) ๋ถํ ๋ก ํ๊ฐ
Originality
- ์์ฑ ์ด๋ฏธ์ง์ ํ์ฅ ์ธก์ ์ ๊ฒฐํฉํ ์จ๋ผ์ธ ์ ์ ํ๋ ์์ํฌ๋ ๊ธฐ์กด VLM ๊ธฐ๋ฐ ํ์ ์ฐ๊ตฌ์์ ๋ฏธํ์ ์์ญ์ด๋ค.
- Spatial Poisson Point Processes๋ฅผ VLM ๊ฐ์ค์น ์
๋ฐ์ดํธ์ ์ ์ฉํ๋ ๊ฒ์ ์๋ก์ด ์ ๊ทผ๋ฒ์ด๋ค.
- ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ ์ ๋ ฌ์ ํตํ emergent alignment์ ์์ฐ์ ์ธ๋๋ฉ์ธ/์์๋๋ฉ์ธ ์ผ๋ฐํ์ ๋ํ ์๋ก์ด ํต์ฐฐ์ ์ ๊ณตํ๋ค.
- 380k ์ด๋ฏธ์ง์ ๋๊ท๋ชจ AVS-Bench ๋ฐ์ดํฐ์
์ ์ผ์ธ ์๊ฐ ํ์ ์ฐ๊ตฌ์ ์ค์ํ ์์์ด๋ค.
- ๋ชจ๋์ ์ค๊ณ๋ก ๋ค์ํ ๊ณํ์ ๋ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ํ๋ฌ๊ทธ์คํ๋ ์ด๋ก ์ง์ํ๋ ์ ์ฐ์ฑ์ด ํน์ดํ๋ค.
Limitation & Further Study
- ์ค์ ๋ฐฐํฌ๋ ํ๋์จ์ด์ธ๋ฃจํ ์๋ฎฌ๋ ์ด์
์ ๊ตญํ๋๋ฉฐ, ์์ ํ ํ์ฅ ์คํ์ด ๋ถ์กฑํ๋ค.
- Spatial Poisson Point Processes ๊ธฐ๋ฐ ์
๋ฐ์ดํธ์ ์ด๋ก ์ ์ ๋น์ฑ๊ณผ ์๋ ด ์ฑ์ง์ ๋ํ ๋ถ์์ด ์ ํ์ ์ด๋ค.
- ๊ณ์ฐ๋ ๋ฐ ์ค์๊ฐ ์ ์ ๊ฐ๋ฅ์ฑ์ ๋ํ ์์ธํ ๋
ผ์๊ฐ ํ์ํ๋ค.
- ๋ค์ํ ํ๊ฒฝ(๋์, ์ฒ ๋ฑ)๊ณผ ๊ณ์ ๋ณํ์ ๋ํ ๊ฒฌ๊ณ ์ฑ ํ๊ฐ๊ฐ ๋ถ์กฑํ๋ค.
- ํ์ ์ฐ๊ตฌ๋ (1) ์์ ํ์ฅ ํ
์คํธ, (2) ๋ ๋ณต์กํ ๋ฉํฐ์์ด์ ํธ ํ์ ์๋๋ฆฌ์ค, (3) ๋์ ํ๊ฒฝ์ ๋ํ ์ ์์ฑ ํฅ์์ ๊ณ ๋ คํ ์ ์๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Search-TTA๋ ์ผ์ธ ์๊ฐ ํ์์์ VLM์ ์ค๋ฅ๋ฅผ ์จ๋ผ์ธ์ผ๋ก ๋ณด์ ํ๋ ํ์ ์ ์ธ ํ๋ ์์ํฌ๋ก, ๋๊ท๋ชจ AVS-Bench ๋ฐ์ดํฐ์
๊ณผ ํจ๊ป ๋ฉํฐ๋ชจ๋ฌ ์ ์๊ณผ ์ค์ ๋ฐฐํฌ ๊ฐ๋ฅ์ฑ์ ์์ฐํ๋ค. ๋ค๋ง ์์ ํ ํ์ฅ ๊ฒ์ฆ๊ณผ ์ด๋ก ์ ๋ถ์์ด ๋ณด์๋๋ฉด ๋์ฑ ์์ฑ๋ ์๋ ์ฐ๊ตฌ๊ฐ ๋ ๊ฒ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์