Video Language Planning

Essence

Figure 1: Video Language Planning uses forward tree search via vision-language models and text-to-video

Vision-Language Model과 Text-to-Video Model을 결합하여 트리 서치를 통해 장기 수평선 로봇 작업을 위한 상세한 비디오 계획을 생성하는 Video Language Planning(VLP) 알고리즘을 제시한다.

Known: LLM은 추상적인 텍스트 계획을 생성할 수 있지만 물리적 제약을 반영하기 어렵고, Text-to-Video Model은 객체의 동역학을 학습할 수 있지만 단기 비디오만 생성 가능하다.
Gap: LLM의 고수준 추상화 능력과 Text-to-Video Model의 저수준 동역학 모델링을 통합하여 장기 수평선 작업을 계획하는 방법이 부재하다.
Why: 로봇이 복잡한 다단계 조작 작업을 수행하기 위해서는 물리적으로 타당한 상세 계획이 필요하며, 이를 통해 실제 로봇 배포 시 성공률을 크게 향상시킬 수 있다.
Approach: Vision-Language Model을 정책과 휴리스틱 함수로, Text-to-Video Model을 동역학 모델로 사용하여 트리 서치 절차를 구성하고, 생성된 비디오 계획을 Goal-Conditioned Policy로 실행 가능한 로봇 액션으로 변환한다.

Figure 3: Video Accuracy vs Planning Budget. Left: VLP scales positively with more compute budget; it is

알고리즘 설계: Vision-Language Model과 Text-to-Video Model을 synergistic하게 결합한 VLP 알고리즘으로 수백 프레임에 걸친 장기 비디오 계획 생성 가능
계산 효율성: 계산 예산에 따라 성능이 확장되어 검색 깊이와 분기 인수를 증가시킬 수 있음
실무 검증: 3개의 로봇 하드웨어 플랫폼에서 PaLM-E와 RT-2를 포함한 기존 방법들보다 현저히 높은 작업 완료율 달성
일반화 능력: Internet-scale 데이터로 사전학습된 모델을 활용하여 새로운 객체와 구성에 대한 일반화 성능 입증

Figure 1: Video Language Planning uses forward tree search via vision-language models and text-to-video

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 대규모 사전학습 모델의 상호보완적 강점을 영리하게 통합하여 실제 로봇 시스템에서 획기적인 성능 향상을 달성한 혁신적 연구이며, 계획 문제에 대한 현대적 재검토를 제시한다.