Segment Anything
๐ง Audio Overview ์์ฑ
์ ์ : Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollรกr, Ross Girshick | ๋ ์ง : 2023-04-05 | URL : https://arxiv.org/abs/2304.02643 📄 PDF
Essence
Figure 1: We aim to build a foundation model for segmentation by introducing three interconnected components: a prompt-
์ด๋ฏธ์ง ๋ถํ ์ ์ํ ๊ธฐ์ด ๋ชจ๋ธ SAM(Segment Anything Model)๊ณผ 11M ์ด๋ฏธ์ง์ 1B ๋ง์คํฌ๋ก ๊ตฌ์ฑ๋ SA-1B ๋ฐ์ดํฐ์
์ ์๊ฐํ๋ฉฐ, ํ๋กฌํํธ ๊ธฐ๋ฐ์ ์ ๋ก์ท ์ ์ด ํ์ต์ด ๊ฐ๋ฅํ ๋ฒ์ฉ ๋ถํ ์์คํ
์ ์ ์ํ๋ค.
Motivation
Known : NLP์์ foundation model๊ณผ ํ๋กฌํํ
๊ธฐ๋ฒ์ ์ฑ๊ณต์ ๊ธฐ๋ฐํ์ฌ ์ปดํจํฐ ๋น์ ์์๋ CLIP ๋ฑ ๋น์ -์ธ์ด ๋ชจ๋ธ์ด ๊ฐ๋ฐ๋์์ผ๋, ๋๊ท๋ชจ ๋ถํ ๋ฐ์ดํฐ์ ๋ฒ์ฉ ๋ถํ ๋ชจ๋ธ์ ๋ถ์กฑํ ์ํ์ด๋ค.
Gap : ๊ธฐ์กด ๋ถํ ๋ฐ์ดํฐ์
์ ์น๊ท๋ชจ์ ์์ฐ์ ๋ฐ์ดํฐ ์์ค๊ฐ ๋ถ์กฑํ๊ณ , ํน์ ์์
์๋ง ์ต์ ํ๋ ๊ฐ๋
ํ์ต ๋ชจ๋ธ์ด ๋๋ถ๋ถ์ด๋ฉฐ, ์๋ก์ด ๋ฐ์ดํฐ ๋ถํฌ์ ์์
์ ๋ํ ์ ๋ก์ท ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ ํ๋์ด ์๋ค.
Why : ์ด๋ฏธ์ง ๋ถํ ์ ์ํ foundation model์ ๊ฐ๋ฐ์ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์
์ ์ฆ์ ์ ์ฉ ๊ฐ๋ฅํ๋ฉฐ, ์๋ก์ด ๋ฐ์ดํฐ ๋ถํฌ์ ๋ํ ๊ฐ๋ ฅํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ผ๋ก ์ปดํจํฐ ๋น์ ๋ถ์ผ์ ์์ฐ์ฑ์ ํ์ ์ ์ผ๋ก ํฅ์์ํฌ ์ ์๋ค.
Approach : ํ๋กฌํํธ ๊ฐ๋ฅํ ๋ถํ ์์
์ ์ ์ํ๊ณ , ์ด๋ฏธ์ง ์ธ์ฝ๋์ ๊ฒฝ๋ ๋ง์คํฌ ๋์ฝ๋๋ก ๊ตฌ์ฑ๋ SAM ์ํคํ
์ฒ๋ฅผ ์ค๊ณํ ํ, ๋ชจ๋ธ-๊ธฐ๋ฐ ๋ฃจํ๋ฅผ ํตํ ๋ฐ์ดํฐ ์์ง(assisted-manual, semi-automatic, fully automatic 3๋จ๊ณ)์ผ๋ก ๋๊ท๋ชจ ๋ค์ํ ๋ถํ ๋ง์คํฌ ๋ฐ์ดํฐ์
์ ์๋ ์์งํ๋ค.
Achievement
Figure 2: Example images with overlaid masks from our newly introduced dataset, SA-1B. SA-1B contains 11M diverse,
๋๊ท๋ชจ ๊ณ ํ์ง ๋ฐ์ดํฐ์
: SA-1B๋ 11M ๊ฐ์ ๋ผ์ด์ผ์ค ๋ณด์ ํ๋ผ์ด๋ฒ์ ๋ณดํธ ์ด๋ฏธ์ง์์ 1B ์ด์์ ๋ง์คํฌ๋ฅผ ํฌํจํ์ฌ ๊ธฐ์กด ๋ถํ ๋ฐ์ดํฐ์
๋๋น 400๋ฐฐ ์ด์์ ๊ท๋ชจ๋ฅผ ๋ฌ์ฑํ๋ค.
์ ๋ก์ท ์ ์ด ์ฑ๋ฅ : 23๊ฐ์ ๋ค์ํ ๋ถํ ๋ฐ์ดํฐ์
์์ SAM์ ๋จ์ผ ํฌ๊ทธ๋ผ์ด๋ ํฌ์ธํธ๋ก๋ ๋์ ํ์ง์ ๋ง์คํฌ๋ฅผ ์์ฑํ๋ฉฐ, ๊ธฐ์กด ์์ ๊ฐ๋
ํ์ต ๊ฒฐ๊ณผ์ ๊ฒฝ์๋ ฅ์๊ฑฐ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
๋ฒ์ฉ์ฑ๊ณผ ์ ์์ฑ : ์ฃ์ง ๊ฒ์ถ, ๊ฐ์ฒด ์ ์ ์์ฑ, ์ธ์คํด์ค ๋ถํ , ํ
์คํธ-๋ง์คํฌ ์์ธก ๋ฑ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์
์์ ํ๋กฌํํธ ์์ง๋์ด๋ง์ผ๋ก ์ฆ์ ์ ์ฉ ๊ฐ๋ฅํ ๊ฐ๋ ฅํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์
์ฆํ๋ค.
์ค์๊ฐ ์ํธ์์ฉ์ฑ : ์ด๋ฏธ์ง ์๋ฒ ๋ฉ ์ฌ์ฌ์ฉ์ผ๋ก ์น ๋ธ๋ผ์ฐ์ ์์ ~50ms ๋ด์ ๋ง์คํฌ๋ฅผ ์์ฑ ๊ฐ๋ฅํ ํจ์จ์ ์ธ ์ค์๊ฐ ์ฒ๋ฆฌ๋ฅผ ๊ตฌํํ๋ค.
๊ณต๊ฐ ๊ณต๊ฐ : SAM ๋ชจ๋ธ๊ณผ SA-1B ๋ฐ์ดํฐ์
์ Apache 2.0 ๋ผ์ด์ ์ค๋ก ๊ณต๊ฐํ์ฌ ๋ถํ ๊ธฐ๋ฐ ๋ชจ๋ธ ์ฐ๊ตฌ์ ๊ธฐ์ฌํ๋ค.
How
Figure 1: We aim to build a foundation model for segmentation by introducing three interconnected components: a prompt-
Promptable Segmentation Task ์ ์ : ํฌ๊ทธ๋ผ์ด๋/๋ฐฐ๊ฒฝ ํฌ์ธํธ, ๋ฐ์ค, ๋ง์คํฌ, ์์ ํ ํ
์คํธ ๋ฑ ๋ค์ํ ํํ์ ํ๋กฌํํธ๋ฅผ ๋ฐ์ ์ ํจํ ๋ถํ ๋ง์คํฌ๋ฅผ ๋ฐํํ๋๋ก ์์
์ ์ค๊ณํ๋ค.
SAM ์ํคํ
์ฒ ์ค๊ณ : ๋ฌด๊ฑฐ์ด ์ด๋ฏธ์ง ์ธ์ฝ๋(ViT ๊ธฐ๋ฐ), ํ๋กฌํํธ ์ธ์ฝ๋, ๊ฒฝ๋ ๋ง์คํฌ ๋์ฝ๋์ ์ผ๋จ๊ณ ๊ตฌ์กฐ๋ก ์ค๊ณํ์ฌ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ ์ฌ์ฌ์ฉ๊ณผ ๋น ๋ฅธ ์ถ๋ก ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
๋ชจํธ์ฑ ์ธ์ ๋ง์คํฌ ์์ฑ : ๋จ์ผ ํ๋กฌํํธ์ ๋ํด ์ฌ๋ฌ ๊ฐ์ ์ ํจํ ๋ง์คํฌ๋ฅผ ์์ธกํ๋๋ก ํ์ตํ์ฌ ์
์ธ vs ์ฌ๋๊ณผ ๊ฐ์ ๋ชจํธ์ฑ์ ์์ฐ์ค๋ฝ๊ฒ ์ฒ๋ฆฌํ๋ค.
Data Engine ๊ตฌํ : Assisted-manual ๋จ๊ณ์์ ์ฃผ์์ ๋ณด์กฐ, semi-automatic ๋จ๊ณ์์ ์๋ ๋ง์คํฌ ์์ฑ๊ณผ ์๋ ๋ณด์ , fully automatic ๋จ๊ณ์์ ๊ท์น ๊ทธ๋ฆฌ๋์ ํฌ๊ทธ๋ผ์ด๋ ํฌ์ธํธ ํ๋กฌํํ
์ผ๋ก ์ด๋ฏธ์ง๋น ~100๊ฐ ๋ง์คํฌ ์๋ ์์ฑํ๋ค.
๋ฐ๋ณต์ ๋ชจ๋ธ ๊ฐ์ : ์์ง๋ ์๋ก์ด ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ๊ฐ์ ํ๊ณ ๊ฐ์ ๋ ๋ชจ๋ธ๋ก ๋ ๋์ ๋ง์คํฌ๋ฅผ ์๋ ์์ฑํ๋ ๋ชจ๋ธ-๊ธฐ๋ฐ ๋ฃจํ๋ฅผ ํตํด ๋ฐ์ดํฐ ํ์ง๊ณผ ๋ค์์ฑ์ ์ง์์ ์ผ๋ก ํฅ์์ํจ๋ค.
๊ณต์ ์ฑ๊ณผ ํธํฅ ๋ถ์ : SA-1B ์ด๋ฏธ์ง๋ฅผ ์ง๋ฆฌ์ ยท๊ฒฝ์ ์ ์ผ๋ก ๋ค์ํ ๊ตญ๊ฐ์์ ์์งํ๊ณ ์ธ๊ตฌ ์ง๋จ๋ณ SAM์ ์ฑ๋ฅ์ ๊ฒ์ฆํ์ฌ ์ฑ
์์๋ AI ์ค์ฒ์ ๊ตฌํํ๋ค.
Originality
์๋ก์ด ๊ธฐ์ด ๋ชจ๋ธ ํจ๋ฌ๋ค์ : NLP์ foundation model ๊ฐ๋
์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ์ด๋ฏธ์ง ๋ถํ ๋๋ฉ์ธ์ ์ ์ฉํ์ฌ promptable segmentation task์ zero-shot transfer์ ํ๋ ์์ํฌ๋ฅผ ์๋ฆฝํ๋ค.
ํ์ ์ ์ธ Data Engine : ๋ชจ๋ธ-๊ธฐ๋ฐ ๋ฃจํ๋ฅผ ํตํ ์๋ ๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ๋ก ์ผ๋ก ์น๊ท๋ชจ ๋ถํ ๋ฐ์ดํฐ ๋ถ์ฌ ๋ฌธ์ ๋ฅผ ์ฐฝ์์ ์ผ๋ก ํด๊ฒฐํ๊ณ 1B ๊ท๋ชจ ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๋ค.
ํจ์จ์ ์ธ ์ํคํ
์ฒ ์ค๊ณ : ์ด๋ฏธ์ง ์๋ฒ ๋ฉ ์ฌ์ฌ์ฉ๊ณผ ๊ฒฝ๋ ๋ง์คํฌ ๋์ฝ๋์ ์กฐํฉ์ผ๋ก foundation model ์ฑ๋ฅ๊ณผ ์ค์๊ฐ ์ํธ์์ฉ์ฑ์ ๋์์ ๋ฌ์ฑํ๋ ์ฐ์ํ ์ค๊ณ๋ฅผ ์ ์ํ๋ค.
๋ชจํธ์ฑ ์ธ์ ๋ง์คํฌ ์์ธก : ๋จ์ผ ํ๋กฌํํธ์์ ์ฌ๋ฌ ์ ํจํ ๋ง์คํฌ๋ฅผ ์์ฑํ๋ ๊ธฐ๋ฒ์ผ๋ก ๋ถํ ์ ๊ทผ๋ณธ์ ์ธ ๋ชจํธ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์๋ก์ด ์ ๊ทผ์ ๋์
ํ๋ค.
์ข
ํฉ์ ์ธ ์ ๋ก์ท ํ๊ฐ : 23๊ฐ ๋ฐ์ดํฐ์
๊ณผ 5๊ฐ์ง ์ด์์ ๋ค์ด์คํธ๋ฆผ ์์
์ ํฌ๊ดํ๋ ๊ด๋ฒ์ํ ์ ๋ก์ท ํ๊ฐ๋ก foundation model์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ต์ด๋ก ์ฒด๊ณ์ ์ผ๋ก ๊ฒ์ฆํ๋ค.
Limitation & Further Study
๋ณต์กํ ๊ณต๊ฐ ์ถ๋ก ์ ํ : ์ธ๋ฐํ ๊ฒฝ๊ณ ๋ถํ ๊ณผ ์ธ์ ํ ๊ฐ์ฒด ๊ตฌ๋ถ์์ ์ฑ๋ฅ ์ ํ๊ฐ ๋ฐ์ํ ์ ์์ผ๋ฉฐ, ๋ณต์กํ ๊ณต๊ฐ ๊ด๊ณ๋ฅผ ์๊ตฌํ๋ ์์
์์ ๊ฐ์ ์ด ํ์ํ๋ค.
ํ
์คํธ ํ๋กฌํํธ ์ฑ์๋ ๋ถ์กฑ : ์์ ํ ํ
์คํธ ํ๋กฌํํ
์ ์๋น ์์ค์ผ๋ก, ํ
์คํธ-๋น์ ํตํฉ์ด ๋ ๊ฐ๋ ฅํด์ง๋ค๋ฉด ์ถ๊ฐ ์ฑ๋ฅ ํฅ์์ด ๊ฐ๋ฅํ๋ค.
๋๋ฉ์ธ ํนํ ์์
์ฑ๋ฅ : ์๋ฃ ์ด๋ฏธ์ง, ์์ฑ ์์ ๋ฑ ํน์ ๋๋ฉ์ธ์์๋ ๋๋ฉ์ธ ํนํ ๋ชจ๋ธ ๋๋น ์ฑ๋ฅ ๊ฒฉ์ฐจ๊ฐ ์กด์ฌํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ : SAM์ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ฉํฐ๋ชจ๋ฌ foundation model ๊ฐ๋ฐ, 3D ๋ถํ ํ์ฅ, ๋ ๊ฐ๋ ฅํ ํ
์คํธ-๋ง์คํฌ ์ ๋ ฌ ํ์ต, ๋๋ฉ์ธ ํนํ ์ ์ ๊ธฐ๋ฒ ๋ฑ์ด ํ์ํ๋ค.
๋ฐ์ดํฐ ๊ณต์ ์ฑ ์ฌํ : ํ์ฌ์ ์ง๋ฆฌ์ ๋ค์์ฑ ๊ฒ์ฆ์ ๋์ด ๋ฏธ๋ฌํ ๋ฌธํ์ ํธํฅ, ๋ผ๋ฒจ๋ง ๊ธฐ์ค์ ํธ์ฐจ, ํน์ ์นดํ
๊ณ ๋ฆฌ์ ์ธ๋๋ฆฌํ๋ฆฌ์ ํ
์ด์
๋ฑ์ ๋ํ ๋ ๊น์ด ์๋ ๋ถ์๊ณผ ์ํ ์ ๋ต์ด ์๊ตฌ๋๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : Segment Anything๋ foundation model์ ๊ฐ๋
์ ์ด๋ฏธ์ง ๋ถํ ์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉํ ํ๊ธฐ์ ์ธ ์ฐ๊ตฌ๋ก, ํ์ ์ ์ธ ๋ฐ์ดํฐ ์์ง๊ณผ ํจ์จ์ ์ธ ๋ชจ๋ธ ์ค๊ณ๋ฅผ ํตํด 1B ๊ท๋ชจ ๋ฐ์ดํฐ์
๊ณผ ๊ฐ๋ ฅํ ์ ๋ก์ท ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ๊ณต๊ฐ ๊ณต๊ฐ๋ฅผ ํตํด ์ปดํจํฐ ๋น์ ๋ถ์ผ์ ๊ด๋ฒ์ํ ์ค์ ์ ์ํฅ์ ๋ฏธ์น๋ ์ค์ํ ๊ธฐ์ฌ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com