Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control

Essence

Figure 1: Large-scale pretraIning and efficient FineTuning (LIFT) Framework. In stage (i), we

대규모 병렬 시뮬레이션에서 SAC 기반 정책 사전학습과 물리-정보 기반 세계 모델을 활용한 효율적 미세조정을 결합하여 휴머노이드 로봇의 시뮬-투-리얼 전이와 안전한 적응을 실현한다.

Known: PPO는 대규모 병렬 시뮬레이션에서 강력한 수렴을 보이고 실로봇 무샷 배포를 달성하지만, 온-정책 알고리즘의 낮은 샘플 효율성으로 인해 새로운 환경으로의 안전한 적응이 제한된다. 오프-정책 RL과 모델-기반 RL은 개선된 샘플 효율을 보이지만 휴머노이드 로봇의 대규모 사전학습과 효율적 미세조정 간의 격차는 여전히 존재한다.
Gap: 기존 오프-정책 방법들은 환경 내 확률적 탐색 시 안전성 문제를 야기하고 대규모 병렬 시뮬레이션을 충분히 활용하지 못했으며, 물리-정보 기반 세계 모델 학습은 처음부터 훈련 시 시간이 오래 걸린다.
Why: 휴머노이드 로봇은 작은 지지 다각형과 높은 불안정성으로 인해 무작위 탐색에 민감하므로, 안전하면서도 샘플 효율적인 적응 기법이 필수적이다.
Approach: LIFT 프레임워크는 세 단계로 구성된다: (i) JAX 기반 SAC를 이용한 대규모 병렬 정책 사전학습, (ii) Lagrangian 역학과 잔차 예측기를 결합한 물리-정보 세계 모델 사전학습, (iii) 결정적 정책 실행과 세계 모델 내 확률적 탐색을 분리한 미세조정.

Figure 2: Results of finetuning Booster T1 robot with varying target speeds. The black dashed line

확장 가능한 SAC 구현: JAX 기반 SAC가 대규모 병렬 시뮬레이션에서 강력한 수렴을 지원하고 단일 NVIDIA RTX 4090에서 1시간 내에 실제 휴머노이드 로봇으로의 무샷 배포 달성

안전하고 효율적인 미세조정 전략: 결정적 정책 실행과 세계 모델 내 확률적 탐색 분리를 통해 적응 중 위험성 완화 및 샘플 효율성 개선

공개 소스 파이프라인: 사전학습, 무샷 배포, 미세조정을 아우르는 통합 휴머노이드 제어 파이프라인 공개

Figure 1: Large-scale pretraIning and efficient FineTuning (LIFT) Framework. In stage (i), we

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 대규모 시뮬레이션 효율성과 샘플-효율적 적응을 효과적으로 결합하고, 안전성을 강조한 미세조정 전략으로 휴머노이드 제어의 실질적 도전을 해결한다. 실로봇 검증과 공개 코드는 로보틱스 커뮤니티에 즉시 활용 가능한 기초를 제공한다.