์ ์: Nur Muhammad Mahi Shafiullah, Chris Paxton, Lerrel Pinto, Soumith Chintala, Arthur Szlam | ๋ ์ง: 2022-10-11 | URL: https://arxiv.org/abs/2210.05663 📄 PDF
Fig. 1: Our approach, CLIP-Fields, integrates multiple views of a
CLIP-Fields๋ ๊ณต๊ฐ ์ขํ๋ฅผ CLIP, Detic, Sentence-BERT ๋ฑ ์น ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์๋ฏธ๋ก ์ ์๋ฒ ๋ฉ์ผ๋ก ๋งคํํ๋ ์๋ฌต์ ์ ๊ฒฝ ํ๋๋ก, ์ง์ ์ธ๊ฐ ๊ฐ๋ ์์ด ๋ก๋ด์ 3D ์๋ฏธ๋ก ์ ๋ฉ๋ชจ๋ฆฌ๋ก ์๋ํ๋ค.
Fig. 4: Mean average precision in instance segmentation on the
Fig. 2: Dataset creation process for CLIP-Fields by processing
์ดํ: CLIP-Fields๋ ์น ์ฌ์ ํ์ต ๋ชจ๋ธ์ ํ์ฉํ ์ฝํ ๊ฐ๋ ํ์ต์ผ๋ก ์ธ๊ฐ ์ฃผ์์ ์์ ํ ์ ๊ฑฐํ๋ฉด์๋ ๊ฐ๋ฐฉ ์ดํ ๊ธฐ๋ฐ 3D ์๋ฏธ๋ก ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ตฌ์ถํ๋ ํ์ ์ ์ ๊ทผ๋ฒ์ด๋ค. ๋ก๋ด ์์ฉ์ ์ค์ฉ์ฑ๊ณผ ์ ์ ๋ฐ์ดํฐ๋ก๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ์ ์์ ๋งค์ฐ ์ค์ํ ๊ธฐ์ฌ์ด๋, ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ๋๊ท๋ชจ ํ๊ฐ ๋ฐ ๋์ ์ฅ๋ฉด ์ฒ๋ฆฌ๋ ํฅํ ๊ณผ์ ์ด๋ค.