LOTUS: Continual Imitation Learning for Robot Manipulation Through Unsupervised Skill Discovery

Essence

Fig. 1: Method Overview. LOTUS is a continual imitation learning

LOTUS는 물리 로봇이 인간 시연으로부터 계속 새로운 조작 과제를 학습하도록 하는 지속적 모방 학습 알고리즘으로, open-vocabulary vision model을 이용한 비지도 기술 발견과 메타-컨트롤러 기반의 기술 합성을 통해 시각 기반 조작을 수행한다.

Known: 계층적 강화학습 및 모방학습 기반의 기술 발견 방법들이 존재하며, 고정된 기술 집합이나 단일 과제에 초점을 맞춘 방법들이 주를 이룬다.
Gap: 기존 기술 발견 방법들은 고정된 기술 집합을 가정하거나 높은 샘플 복잡도를 요구하며, 시간 경과에 따라 변화하는 데이터 분포를 다루지 못한다.
Why: 로봇이 평생 동안 계속해서 새로운 과제를 효율적으로 학습하고 이전 과제의 성능을 유지하면서 새 과제로의 지식 전이를 달성해야 하는 실제 배포 환경에서 중요하다.
Approach: Open-vocabulary vision model을 사용하여 비분할 시연에서 반복 패턴으로 기술을 추출하고, 증분 기술 클러스터링으로 기존 기술 업데이트와 새 기술 추가를 동적으로 관리하며, 메타-컨트롤러가 기술을 구성하여 새로운 과제를 해결한다.

Fig. 1: Method Overview. LOTUS is a continual imitation learning

Fig. 2: LOTUS consists of two processes: continual skill discovery with open-world perception and hierarchical policy le

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: LOTUS는 지속적 모방학습에서 동적 기술 발견과 계층적 합성을 통해 실제 로봇이 효율적으로 평생 학습할 수 있도록 하는 혁신적 접근법으로, 견고한 실험 검증과 11% 이상의 성능 향상을 통해 그 효과성을 입증한다.