A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards

Essence

Fig. 2: Framework Overview. Iterative Keypoint Reward (IKER) is a visually grounded reward generated by Vision-Language

VLM을 활용하여 RGB-D 관찰과 자연어 지시로부터 keypoint 기반 reward 함수(IKER)를 동적으로 생성하고, real-to-sim-to-real 루프를 통해 로봇 조작 정책을 학습 및 배포하는 프레임워크이다.

Motivation

Known: VLM은 자연어 처리 및 고수준 task decomposition에 강점이 있으며, real-to-sim 재구성 및 sim-to-real 전이는 로봇 학습의 효율성을 높인다. 또한 keypoint 기반 표현은 object orientation 제어에 유용하다.
Gap: 기존 VLM 기반 로봇 연구는 (1) 3D 공간에서 정확한 목표 위치 지정 능력 부족, (2) 환경 변화에 따른 동적 적응 불가능이라는 한계가 있다. 또한 VLM 기반 reward 생성 연구는 실제 로봇 시연이 제한적이다.
Why: 개방형 환경에서 로봇이 다단계 암묵적 subtask를 포함한 복잡한 조작을 수행하려면, 인간의 상식적 우선순위를 반영하면서도 SE(3) 수준의 정밀 제어와 환경 피드백에 기반한 동적 계획 조정이 필수적이다.
Approach: VLM에 keypoint와 실행 히스토리를 입력하여 Python 기반 reward 함수를 반복적으로 생성하고, 이를 simulation에서 RL 정책 학습에 사용한 후 실제 환경에 배포하는 폐쇄 루프 시스템을 구축한다.

Achievement

Fig. 1: Capabilities of Our Framework. IKER is designed to han-

다단계 task 실행: 신발을 선반에 놓기 위해 박스를 먼저 밀어내는 등 암묵적 중간 단계를 자동으로 추론하고 순차 실행
다양한 조작 지원: prehensile(파지) 및 non-prehensile(비파지, 밀기) 작업 모두 처리 가능
환경 변화 대응: 실시간 environment feedback에 기반하여 전략을 동적으로 조정하고 spontaneous error recovery 수행
정밀한 3D 제어: keypoint 기반 spatial relationship으로 object position과 orientation을 정확히 제어
실제 로봇 시연: 신발/책 등 일상 물체를 포함한 다양한 실제 환경에서 성공적 작업 수행 입증

How

Fig. 3: Iterative Keypoint Reward Generation. This corresponds

RGB-D 관찰에서 3D object model 생성 및 keypoint 추출 (GetKeypoints)
현재 관찰(O_i)과 누적 실행 히스토리를 VLM에 입력하여 Python 기반 reward 함수 코드 생성 (QueryVLM)
생성된 코드를 실행하여 target keypoint 위치 결정 및 completion 여부 판단 (Execute)
BundleSDF를 활용한 real-to-sim 장면 재구성 (TransferSceneToSimulation)
simulation에서 생성된 reward를 기반으로 RL 정책 학습 (LearnPolicy)
학습된 정책을 실제 환경에 배포 (ExecutePolicyInRealWorld)
실행 결과를 히스토리에 추가하여 다음 iteration의 VLM 입력으로 활용

Originality

VLM 기반 reward 함수의 반복적 개선 메커니즘 도입으로, 환경 변화에 따른 동적 task 적응 달성
keypoint 기반 reward로 SE(3) 수준 정밀 제어와 자연어 기반 task specification 통합
real-to-sim-to-real 폐쇄 루프 내에서 VLM의 시각적 이해와 RL의 정책 최적화를 결합한 novel 시스템 아키텍처
prehensile과 non-prehensile 조작을 통합하는 일반화된 프레임워크
실행 히스토리 누적을 통한 in-context learning으로 VLM의 장면 해석 개선

Limitation & Further Study

VLM의 keypoint 생성 정확도에 크게 의존하며, 시각적 모호성이 높은 환경에서 성능 저하 가능성
real-to-sim 재구성 과정에서 BundleSDF의 한계(특히 occluded regions)로 인한 sim-to-real gap 존재
domain randomization 기반 sim-to-real 전이는 극도로 다양한 실제 환경 변화에 대해 충분할 수 있는지 검증 필요
복잡한 multi-object 상호작용에서 keypoint 표현의 확장성 제한 가능성
계산 비용 분석(VLM 호출, RL 학습 시간) 및 실제 wall-clock time 비교 부족
후속 연구: (1) 더 강건한 3D reconstruction 방법 도입, (2) large-scale real-world 데이터셋에서의 generalization 평가, (3) 복잡한 조작 시나리오(dexterous manipulation)로의 확장

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 이 논문은 VLM의 시각적 이해와 RL의 최적화를 real-to-sim-to-real 루프로 통합하여 개방형 환경에서의 적응적 다단계 로봇 조작을 달성하는 창의적이고 실용적인 접근법을 제시한다. 반복적 reward 개선과 환경 피드백 기반 동적 계획이 핵심 강점이며, 다양한 실제 작업 시연을 통해 효과성을 입증했다.