Vision-Language Foundation Models as Effective Robot Imitators

Essence

Figure 1: Comparison among RoboFlamingo and existing vision-language manipulation solutions.

RoboFlamingo는 공개 소스 VLM인 OpenFlamingo를 기반으로 하여 로봇 조작 정책을 구축하는 프레임워크로, 시각-언어 이해와 의사결정을 분리하고 최소한의 미세조정으로 높은 성능을 달성한다.

Known: Vision-Language Foundation Model(VLM)은 멀티모달 데이터 이해에 뛰어나고, 기존 연구들은 LLM 기반 계획 또는 전체 모델의 공동 미세조정 방식으로 로봇 제어에 활용하고 있다.
Gap: 기존 VLM 기반 로봇 제어 방법들은 높은 계산 비용, 비공개 모델 의존성, 대규모 데이터 필요로 인해 일반 연구자의 접근이 어렵다.
Why: 저비용이면서도 높은 성능의 로봇 조작 정책을 쉽게 개발할 수 있는 솔루션이 필요하며, 이는 비전문가도 자신의 로봇 정책을 미세조정할 수 있도록 민주화한다.
Approach: RoboFlamingo는 사전학습된 VLM을 단계별 시각-언어 이해에만 활용하고, 명시적 정책 헤드를 통해 순차 정보를 모델링하며, 언어 조건부 조작 데이터셋에서만 모방 학습으로 미세조정한다.

Figure 3: Ablation studies on the ABCD →D setting.

Figure 2: The illustration of the proposed RoboFlamingo framework. The Flamingo backbone models

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: RoboFlamingo는 공개 소스 VLM을 활용하여 저비용이면서도 높은 성능의 로봇 조작 정책을 구현할 수 있는 효과적인 방법을 제시하며, 시각-언어 이해와 정책 학습의 분리라는 명확한 설계 철학으로 로봇 공학의 민주화에 기여한다.