Learning Universal Policies via Text-Guided Video Generation

Essence

Figure 1: Text-Conditional Video Generation as Universal Policies. Text-conditional video generations

텍스트 조건부 video generation을 사용하여 다양한 환경에서 작동하는 범용 정책을 학습하는 방법을 제안하며, 현재 이미지와 텍스트 목표 설명으로부터 미래 프레임 시퀀스를 생성한 후 inverse dynamics model로 액션을 추출한다.

Known: 텍스트 기반 이미지 합성 모델들이 뛰어난 조합적 일반화 능력을 보이고 있으며, 강화학습에서 다양한 작업을 수행하는 범용 에이전트 구축이 중요한 목표이다.
Gap: 서로 다른 상태-액션 공간을 가진 환경들 간의 지식 공유와 일반화가 어렵고, 환경별로 서로 다른 reward function 설계가 필요하다는 문제가 있다.
Why: 범용 정책 학습은 다양한 로봇 작업과 환경에 확장 가능한 AI 에이전트 구축을 가능하게 하며, 인터넷 규모의 video 데이터를 활용한 지식 전이를 통해 실제 로봇 제어에 적용할 수 있다.
Approach: Unified Predictive Decision Process (UPDP)라는 새로운 추상화를 제안하여 이미지를 환경 간 범용 인터페이스로, 텍스트를 작업 지정자로 사용하고, video diffusion 모델을 통해 텍스트 조건부 video generation을 수행한 후 액션을 회귀한다.

Figure 3: Combinatorial Video Generation. Generated videos for unseen language goals at test time.

조합적 일반화: 텍스트의 조합적 특성을 활용하여 미학습한 새로운 객체 배치와 기하학적 관계에 일반화 가능
다중 작업 학습: video prediction으로 다양한 언어 조건부 작업 간 학습이 가능하며 테스트 시간에 파인튜닝 없이 새로운 작업에 일반화
계층적 및 조향 가능한 계획: 희소한 프레임 시퀀스부터 세부 계획으로 정제하는 계층적 생성과 테스트 시간 제약 조건 추가를 통한 계획 조정 가능
인터넷 규모 지식 전이: 대규모 텍스트-비디오 데이터셋으로 사전학습된 model을 통해 현실적인 로봇 동작 합성 가능

Figure 2: Given an input observation and text instruction, we

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 video generation을 통한 범용 정책 학습이라는 창의적인 접근으로 환경 다양성과 reward 설계 문제를 우아하게 해결하며, 조합적 일반화와 인터넷 규모 지식 전이를 통해 강화학습 분야에 상당한 기여를 한다.