Learning Versatile Humanoid Manipulation with Touch Dreaming

Essence

Fig. 1: Our system enables versatile, contact-rich, and dexterous humanoid manipulation. A: long-horizon, multi-stage ma

휴머노이드 로봇의 접촉-풍부한 조작을 위해 VR 텔레오퍼레이션 기반 데이터 수집과 터치 감각을 핵심 모달리티로 하는 Humanoid Transformer with Touch Dreaming (HTD)을 제안한다.

Motivation

Known: 휴머노이드 로봇의 전신 제어와 텔레오퍼레이션 기술이 발전했으며, 행동 복제를 통한 학습 방식도 제안되었다. 그러나 기존 시스템들은 전신 안정성, 손가락 민첩성, 터치 센싱을 동시에 통합하지 못했다.
Gap: 접촉-풍부한 조작에서 터치를 핵심 모달리티로 모델링하면서 단일 단계의 행동 복제로 훈련되는 전신 휴머노이드 정책이 부재하다. 기존 터치 학습 방식들은 별도의 사전훈련, 명시적 월드 모델, 다단계 추론을 요구한다.
Why: 접촉은 미끄러짐, 잼, 균형 상실을 방지하는 데 필수적이며, 접촉이 자주 변하는 조작 작업에서 순수 비전과 고유감각만으로는 부족하기 때문이다.
Approach: RL 기반 전신 제어기와 VR 텔레오퍼레이션을 통합한 데이터 수집 시스템을 구축하고, 비전, 고유감각과 함께 터치를 모달리티로 하는 multimodal encoder–decoder Transformer를 제안한다. Touch Dreaming 기법으로 미래 손-관절 힘과 미래 터치 잠재 표현을 예측하도록 훈련한다.

Achievement

Fig. 1: Our system enables versatile, contact-rich, and dexterous humanoid manipulation. A: long-horizon, multi-stage ma

통합 하드웨어 시스템: RL 기반 전신 제어기, VR 텔레오퍼레이션, 분산형 터치 센싱을 결합한 완전한 휴머노이드 조작 시스템 개발
HTD 모델: 비전, 고유감각, 터치를 multimodal로 처리하는 encoder–decoder Transformer로 Touch Dreaming을 통한 단일 단계 훈련 실현
강력한 성능: 다섯 가지 접촉-풍부한 실제 작업에서 기준선 대비 평균 성공률 90.9% 상대 개선
잠재 공간 터치 예측의 우월성: 원본 터치 예측 대비 잠재 공간 터치 예측이 성공률 30% 상대 향상 제시

How

Fig. 4: HTD model architecture. HTD is a modular encoder–decoder Transformer. Left: modality tokenizers encode multi-vie

RL 기반 whole-body controller로 복잡한 조작 중 안정적인 하체 및 몸통 실행 보장
VR 텔레오퍼레이션과 human-to-humanoid motion mapping을 결합한 효율적인 실세계 데시 수집
Multimodal encoder–decoder Transformer 아키텍처로 터치를 비전, 고유감각과 동등하게 처리
Exponential Moving Average (EMA) target encoder를 사용한 안정적인 잠재 공간 지도학습
행동 예측 외에 미래 손-관절 힘과 미래 터치 잠재 예측을 auxiliary objective로 추가하여 접촉-인식 표현 학습 유도
Insert-T, Book Organization, Towel Folding, Cat Litter Scooping, Tea Serving의 다섯 가지 작업으로 평가

Originality

터치를 단순 보조 신호가 아닌 비전, 고유감각과 동등한 핵심 모달리티로 설계
별도의 사전훈련이나 명시적 월드 모델 없이 Touch Dreaming을 auxiliary objective로 통합한 단일 단계 훈련 프레임워크
EMA target encoder를 통한 잠재 공간 터치 예측으로 I-JEPA, V-JEPA와 유사한 predictive latent learning 원칙을 터치-중심 휴머노이드 정책에 적용
전신 안정성, 완전한 손가락 민첩성, 터치 센싱과 모델링을 모두 통합한 첫 휴머노이드 시스템

Limitation & Further Study

다섯 가지 작업으로 평가되었으므로 더 광범위한 작업 유형으로의 일반화 가능성 미지수
데이터 수집이 VR 텔레오퍼레이션을 요구하므로 확장성 제한 가능성
터치 센서의 노이즈, 고장, 센서 특성 차이에 대한 강건성 분석 부족
다양한 터치 센서 타입(e.g., capacitive, optical)에 대한 적응성 미검증
후속 연구: 자가-지도 학습이나 시뮬레이션을 통한 데이터 수집 효율화, 터치 센서 고장 대응, 다양한 휴머노이드 플랫폼으로의 이전 학습

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 터치를 핵심 모달리티로 하는 Touch Dreaming 기법과 통합된 실세계 데이터 수집 시스템으로 휴머노이드 접촉-풍부한 조작의 실현 가능성을 강력하게 입증한다. 다섯 가지 다양한 실제 작업에서 90.9% 성능 개선을 달성하며, 잠재 공간 예측의 효과성을 명확히 보여주는 높은 질의 연구이다.