V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

Essence

Figure 1 V-JEPA 2 Overview. Leveraging 1M hours of internet-scale video and 1M images, we pretrain the V-JEPA 2

V-JEPA 2는 1백만 시간 이상의 인터넷 규모 비디오로 사전학습한 자기지도학습 비디오 모델로, 비디오 이해·예측·로봇 계획을 모두 가능하게 한다.

Known: 기존 세계 모델 연구는 상호작용 데이터에 의존하여 확장성이 제한적이었고, 비디오 생성 기반 접근법은 계획 능력 평가에 초점을 맞추지 못했다.
Gap: 인터넷 규모 비디오와 적은 상호작용 데이터를 결합하여 실제 로봇 조작에서 제로샷 성능을 달성할 수 있는 세계 모델이 부재했다.
Why: 자기지도학습으로 학습한 예측 표현 공간이 로봇 계획과 실행에 실제로 효과적임을 증명함으로써 일반화 가능한 에이전트 개발의 경로를 제시한다.
Approach: 단계적 학습 절차를 사용하여 먼저 마스크 제거 목표로 V-JEPA 2 인코더를 사전학습하고, 이후 소규모 로봇 상호작용 데이터로 액션 조건부 세계 모델(V-JEPA 2-AC)을 포스트학습한다.

Figure 1 V-JEPA 2 Overview. Leveraging 1M hours of internet-scale video and 1M images, we pretrain the V-JEPA 2

비디오 이해: Something-Something v2에서 77.3% top-1 정확도를 달성하는 등 세밀한 동작 이해에 우수한 성능을 보임
액션 예측: Epic-Kitchens-100 인간 액션 예측 작업에서 39.7 recall-at-5로 이전 최고 모델 대비 44% 상대 개선 달성
비디오 QA: V-JEPA 2를 LLM과 정렬하여 8B 파라미터 규모에서 PerceptionTest(84.0), TempCompass(76.9) 등 여러 벤치마크에서 최고 성능 달성
로봇 계획: 62시간의 레이블이 없는 로봇 데이터만으로 V-JEPA 2-AC를 포스트학습하여 실제 Franka 로봇에서 제로샷으로 픽앤플레이스 작업 성공

Figure 2 Multistage training. (Left) We first pretrain the V-JEPA 2 video encoder on internet-scale image and

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: V-JEPA 2는 인터넷 규모 자기지도학습과 최소한의 로봇 상호작용 데이터를 결합하여 비디오 이해, 예측, 실제 로봇 계획을 모두 달성한 획기적 연구로, 세계 모델 기반 일반 에이전트 개발의 새로운 방향을 제시한다.