์ ์: Adrien Bardes, Jean Ponce, Yann LeCun | ๋ ์ง: 2023-07-24 | URL: https://arxiv.org/abs/2307.12698 📄 PDF
Figure 1: Multi-task self-supervised learning of content and motion features. MC-JEPA com-
MC-JEPA๋ ๊ดํ ํ๋ฆ ์ถ์ ๊ณผ ์ฝํ ์ธ ํน์ฑ ํ์ต์ ๋จ์ผ ๊ณต์ ์ธ์ฝ๋ ๋ด์์ ๊ฒฐํฉํ๋ ์๊ธฐ ์ง๋ ํ์ต ๋ฐฉ๋ฒ์ผ๋ก, ๋ ๋ชฉํ๊ฐ ์๋ก ์ํธ ์ด๋์ ์ฃผ์ด ๋ชจ์ ์ ๋ณด๋ฅผ ํฌํจํ๋ ์ฝํ ์ธ ํน์ฑ์ ํ์ตํ๋ค.
Figure 3: Qualitative visualization: optical flow. We compare our results of our complete model
Figure 2: MC-JEPA architecture. Our method learns motion through optical flow estimation on
์ดํ: MC-JEPA๋ ์๊ธฐ ์ง๋ ํ์ต์์ ๊ดํ ํ๋ฆ๊ณผ ์ฝํ ์ธ ํ์ต์ ํตํฉํ๋ ์ฐฝ์์ ์ด๊ณ ๊ธฐ์ ์ ์ผ๋ก ๊ฒฌ๊ณ ํ ๋ฐฉ๋ฒ์ผ๋ก, ๋ค์ํ ์๊ฐ ์์ ์์ ๋จ์ผ ์ธ์ฝ๋๋ก ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค.