MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features

Essence

Figure 1: Multi-task self-supervised learning of content and motion features. MC-JEPA com-

MC-JEPA는 광학 흐름 추정과 콘텐츠 특성 학습을 단일 공유 인코더 내에서 결합하는 자기 지도 학습 방법으로, 두 목표가 서로 상호 이득을 주어 모션 정보를 포함하는 콘텐츠 특성을 학습한다.

Known: 자기 지도 학습은 주로 객체 식별을 위한 콘텐츠 특성 학습에 집중하고, 광학 흐름 추정은 이미지 콘텐츠 이해 없이 픽셀 수준의 모션을 추정하는 별개의 작업이다.
Gap: 기존 방법들은 콘텐츠 또는 모션 중 하나에만 집중하거나, 모션 추정이 의미론적 콘텐츠를 활용하지 못하는 문제가 있다.
Why: 단일 인코더로 모션과 콘텐츠 정보를 모두 학습할 수 있다면, 광학 흐름 추정부터 의미론적 분할에 이르는 다양한 시각 작업에서 더 나은 성능을 얻을 수 있다.
Approach: MC-JEPA는 PWC-Net 기반의 M-JEPA 광학 흐름 추정 모듈과 VICReg 자기 지도 학습 방법을 다중 작업 설정에서 결합하여, 역방향 일관성 손실과 분산-공분산 정규화를 포함한 개선 사항을 적용한다.

Figure 3: Qualitative visualization: optical flow. We compare our results of our complete model

통합 아키텍처: PWC-Net 기반 flow estimator와 VICReg 기반 content learning을 공유 인코더로 통합하여 안정적인 다중 작업 학습 달성
성능: KITTI 2015, Sintel 등 unsupervised optical flow 벤치마크에서 기존 방법 수준의 성능 달성
전이 학습: Cityscapes, DAVIS 등 이미지 및 비디오 분할 작업에서 강력한 전이 성능 확인
단일 모델: 하나의 인코더로 모션과 콘텐츠 작업을 동시에 수행 가능

Figure 2: MC-JEPA architecture. Our method learns motion through optical flow estimation on

PWC-Net 기반 coarse-to-fine flow estimation 아키텍처 사용으로 pyramidal features에서 반복적으로 flow 정제
Forward-backward flow consistency를 위한 cycle consistency loss 적용으로 모션 추정 안정성 개선
Variance-covariance regularization (VC Reg)을 모든 feature layer에 적용하여 다중 작업 학습 불안정성 해결
Image augmentation을 통한 VICReg content learning과 비디오 쌍에 기반한 optical flow learning 동시 수행
Reconstruction loss로 warped frame과 target frame 비교, regression loss로 feature-level flow 추정

자기 지도 광학 흐름 추정과 콘텐츠 특성 학습을 명시적으로 통합하는 첫 번째 접근법
Variance-covariance regularization을 multi-task optical flow와 content learning 조합의 불안정성 해결 방법으로 도입
Joint-embedding predictive architecture를 multi-task 설정에서 활용하여 이미지와 비디오 데이터를 동시에 학습

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: MC-JEPA는 자기 지도 학습에서 광학 흐름과 콘텐츠 학습을 통합하는 창의적이고 기술적으로 견고한 방법으로, 다양한 시각 작업에서 단일 인코더로 우수한 성능을 달성하는 의미 있는 기여를 한다.