Open-World Object Manipulation using Pre-trained Vision-Language Models

Essence

Figure 1: Overview of MOO. We train a language-conditioned policy conditioned on object locations from a

Pre-trained vision-language model(VLM)을 로봇 정책과 인터페이싱하여 로봇이 직접 경험하지 못한 새로운 물체 카테고리에 대한 지시를 따를 수 있도록 하는 MOO(Manipulation of Open-World Objects) 방법을 제안한다.

Motivation

Known: 로봇은 첫 경험 데이터로부터 다양한 행동을 학습할 수 있지만, 인간의 풍부한 의미론적 어휘를 모두 다루기는 불가능하다. VLM과 같은 pre-trained 모델은 인터넷의 방대한 정적 데이터에서 풍부한 의미론적 정보를 캡처한다.
Gap: 기존 pipelined 접근법은 다양한 물체 카테고리에 일반화할 수 있지만 불안정하고, vanilla pre-training을 사용한 정책은 안정적이지만 미경험 의미론적 개념으로 일반화하지 못한다.
Why: 로봇이 인간의 자연어 지시를 따르려면 보지 못한 물체를 이해하고 조작할 수 있어야 하며, 이는 의미론적 접지(semantic grounding)와 실제 제어의 결합을 통해 실현될 수 있다.
Approach: Frozen VLM을 사용하여 언어 지시에서 물체를 지역화하고, 이 물체 위치 정보와 이미지, 지시를 결합하여 조작 정책을 조건화함으로써 end-to-end 학습 정책이 의미론적 정보를 활용하도록 한다.

Achievement

Figure 5: Main Results. While baseline methods perform competitively on in-distribution combinations of

Zero-shot 일반화: 훈련에서 본 106개 물체를 넘어 다양한 미경험 물체 카테고리와 환경에 걸쳐 zero-shot 일반화 달성
실제 로봇 평가: 실제 모바일 조작기에서 1,472번의 평가를 통해 최근 로봇 학습 방법을 유의미하게 초과
다중 모달리티 지원: 자연어뿐 아니라 손가락 포인팅, 참조 이미지, GUI 등 다양한 입력 모달리티로 확장 가능
모바일 조작 통합: Clip-on-Wheels(CoW)와 통합하여 미경험 물체에 대한 모바일 조작 작업 완성 가능

How

Figure 2: MOO architecture: We extract object location (represented as the center of the bounding box) on

OWL-ViT를 사용한 개방형 어휘 물체 검출로 언어 지시의 물체명 추출 및 2D 좌표 지역화
지역화된 물체의 2D 중심 좌표를 정책 입력으로 포함시켜 명시적 물체-지시 연결
106개 훈련 물체의 59,000개 데모로 언어-조건 정책 학습
Frozen VLM과 훈련된 정책의 결합으로 구성된 end-to-end 시스템으로 파이프라인 brittleness 회피
다양한 입력 모달리티(포인팅, 참조 이미지)에서 물체 위치 추출을 위한 VLM 활용

Originality

Vision-language model과 로봇 정책의 새로운 결합 방식으로, VLM을 정확한 상태 추정이 아닌 물체 지역화 목적으로만 사용
Frozen VLM과 함께 훈련된 정책으로 brittleness 문제 해결
단순한 2D 좌표 기반 표현을 통해 확장성과 안정성을 동시에 달성
자연어 이상의 다양한 모달리티(포인팅, 이미지, GUI)로의 일반화 시연

Limitation & Further Study

VLM의 물체 검출 정확도에 의존하므로 VLM이 실패하면 정책도 실패 가능
실험은 단일 로봇 플랫폼(모바일 조작기)에서만 수행되어 다른 로봇에 대한 일반화는 미확인
훈련 데이터는 여전히 106개 물체로 제한되어 있으며, 더 다양한 물체와 작업에 대한 평가 필요
복잡한 공간 추론이나 다중 물체 상호작용이 필요한 작업에 대한 성능은 미평가
후속연구: VLM 성능 향상, 다양한 로봇 플랫폼 적용, 3D 정보 활용, 동적 환경 적응 등

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 pre-trained VLM을 로봇 조작에 실질적으로 통합하여 의미론적 일반화를 달성한 중요한 기여이며, 실제 로봇 실험과 다중 모달리티 확장을 통해 실용성을 입증했다.