RLinf-VLA: A Unified and Efficient Framework for Reinforcement Learning of Vision-Language-Action Models

Essence

Fig. 1:

RLinf-VLA는 Vision-Language-Action 모델의 강화학습 훈련을 위한 통합되고 효율적인 프레임워크로, 다양한 VLA 아키텍처, RL 알고리즘, 시뮬레이터를 지원하며 GPU 할당 최적화를 통해 2.27배 속도 향상을 달성한다.

Known: Vision-Language-Action 모델은 인터넷 규모 데이터로 사전학습된 비전-언어 모델을 로봇 데모 데이터셋으로 추가 훈련하여 다양한 작업에서 강한 일반화 능력을 보여준다. RL은 VLA 모델의 사후훈련 패러다임으로 점점 더 중요해지고 있으며 SFT 대비 더 나은 out-of-distribution 일반화를 가능하게 한다.
Gap: 기존 VLA RL 연구는 단편화되어 있으며 공정한 비교를 위한 통합 플랫폼이 부족하고, SimpleVLA-RL 같은 기존 방법들은 구체화된 환경에 맞춘 시스템 최적화가 부재하여 확장성이 제한된다.
Why: 온라인 RL은 모델-환경 상호작용이 반복적이고 밀접하게 결합되어 있어 GPU 유휴 시간과 파이프라인 버블이 발생하기 쉽고, 다양한 시뮬레이터와 모델, 알고리즘을 공정하게 비교할 수 있는 통합 시스템이 필수적이다.
Approach: RLinf-VLA는 다양한 VLA 아키텍처(OpenVLA, OpenVLA-OFT), RL 알고리즘(PPO, GRPO), 시뮬레이터(ManiSkill, LIBERO, RoboTwin)를 지원하는 통합 인터페이스를 제공하고, GPU 병렬화 시뮬레이터를 위한 하이브리드 fine-grained 파이프라인 할당 전략을 도입한다.

Fig. 1:

통합 시스템 추상화: 다양한 시뮬레이터, VLA 아키텍처, RL 알고리즘을 지원하며 collocated, disaggregated, 새로운 hybrid 모드 등 세 가지 실행 모드를 제공
효율적 설계: GPU 병렬화 시뮬레이터를 위한 hybrid fine-grained 파이프라인과 CPU 병렬화 시뮬레이터를 위한 collocated 실행으로 최대 2.27배 속도 향상 달성
강력한 성능: LIBERO 130개 작업에서 98.11%, ManiSkill 25개 작업에서 97.66% 성공률, RoboTwin 6개 작업에서 평균 84.63% 성공률 달성
일반화 능력: 단일 통합 모델이 여러 벤치마크에서 20-85% 성능 개선을 보여주며, RoboTwin 작업에서 평균 63.75% 성능 개선 달성
공개 플랫폼: 오픈소스 활성 유지 플랫폼으로 구체화 인텔리전스 연구 표준화 및 재현성 향상

Generation, Simulator, Training의 세 가지 구성 요소를 포함하는 RL 파이프라인 구조 채택 및 GPU 자원 할당 최적화
Chunk → Atomic Action → Token의 세 단계 계층 구조를 통해 VLA의 액션 표현 통일
GPU 병렬화 시뮬레이터를 위한 hybrid fine-grained 파이프라인 할당으로 렌더링, 추론, 훈련 작업 간 효율적 자원 배분
CPU 병렬화 시뮬레이터를 위한 collocated 실행 모드와 GPU 병렬화 시뮬레이터를 위한 disaggregated 모드 제공
PPO와 GRPO 같은 다양한 RL 알고리즘의 통합 지원 및 알고리즘 수준의 최적화 포함
ManiSkill, LIBERO, RoboTwin 등 이질적 시뮬레이터들의 일관된 인터페이스 제공으로 seamless 전환 가능

GPU 병렬화 시뮬레이터를 위한 hybrid fine-grained 파이프라인 할당 전략은 기존 LLM RL 프레임워크의 generic 접근을 벗어나 구체화 환경의 특수성을 반영한 혁신적 설계
다양한 시뮬레이터, 모델, 알고리즘을 하나의 통합 인터페이스로 지원하는 포괄적 플랫폼 설계로 공정한 비교 및 체계적 연구 가능성 창출
Chunk 단위 액션 표현을 POMDP 프레임워크 내에서 통일적으로 처리하는 계층적 추상화 제시

현재 평가는 주로 시뮬레이션 환경에 제한되어 있으며 실제 로봇 하드웨어에서의 성능 검증이 부족
다양한 VLA 아키텍처 지원을 주장하지만 OpenVLA와 OpenVLA-OFT 두 가지만 실험에 포함
hybrid 파이프라인 할당 전략의 일반화 가능성이나 다른 유형의 GPU 병렬화 시뮬레이터에 대한 적용성 미명확
후속 연구로 실제 로봇 플랫폼에서의 대규모 훈련 실험, 더 많은 VLA 아키텍처의 통합, 그리고 sim-to-real 전이 학습 성능 평가 필요

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: RLinf-VLA는 VLA 강화학습 연구의 단편화 문제를 해결하는 포괄적 통합 프레임워크이며, GPU 할당 최적화를 통한 실질적 효율성 개선과 강력한 실험 결과로 구체화 인텔리전스 연구의 주요 기초 시설로서의 가치를 입증한다.