Robustness evaluation of offline reinforcement learning for robot control against action perturbations

저자: Yogesh K. Dwivedi, Nir Kshetri, Laurie Hughes, Emma Slade, Anand Jeyaraj, Arpan Kumar Kar, Abdullah M. Baabdullah, Alex Koohang, Vishnupriya Raghavan, Manju Ahuja, Hanaa Albanna, Mousa Ahmad Albashrawi, Adil S. Al-Busaidi, Janarthanan Balakrishnan, Yves Barlette, Sriparna Basu, Indranil Bose, Laurence Brooks, Dimitrios Buhalis, Lemuria Carter | 날짜: 2024 | URL: https://arxiv.org/abs/2412.18781 📄 PDF

Essence

Figure 3: Testing-time robustness evaluation results under varying adversarial perturbation strengths in three legged

본 논문은 오프라인 강화학습(Offline RL) 방법들의 행동 섭동(action perturbation)에 대한 견고성을 평가하며, 기존 방법들이 온라인 RL보다 더 취약함을 보여준다.

Motivation

Known: 온라인 RL은 환경과의 직접 상호작용을 통해 광범위한 탐색이 가능하며, 도메인 랜더마이제이션과 적대적 훈련으로 현실 갭을 해결할 수 있다. 오프라인 RL은 보수적 훈련을 통해 Q-value 과대평가를 완화한다.
Gap: 기존 오프라인 RL 견고성 연구는 상태 공간 섭동에 집중했으나, 로봇의 작동기 고장 같은 행동 공간 섭동에 대한 견고성은 탐구되지 않았다. 행동 섭동은 정책 네트워크의 출력에 직접 영향을 미치므로 별도의 분석이 필요하다.
Why: 로봇 제어 실제 응용에서 작동기 고장이나 신호 왜곡 같은 행동 섭동은 시스템 신뢰성을 위협하는 핵심 문제이며, 오프라인 RL의 실용성 확대를 위해 이에 대한 견고성 이해가 필수적이다.
Approach: MuJoCo 시뮬레이션에서 BCQ, TD3+BC, IQL 등 기존 오프라인 RL 방법들을 평가하고, random 및 adversarial perturbation(differential evolution 기반)을 행동에 주입하여 테스트 시간 견고성을 측정한다. 섭동된 데이터셋으로 학습한 정책의 견고성도 평가한다.

Achievement

Figure 3: Testing-time robustness evaluation results under varying adversarial perturbation strengths in three legged

오프라인 RL의 취약성 입증: 기존 오프라인 RL 방법들이 행동 섭동에 대해 온라인 RL보다 현저히 더 취약함을 정량적으로 보여줌
데이터셋 커버리지와의 연관성: 오프라인 RL의 테스트 시간 견고성이 학습 데이터셋의 상태-행동 커버리지에 의존함을 실증
섭동 데이터 증강의 한계: 섭동된 데이터셋으로 학습해도 테스트 시간 견고성 개선이 미미함을 증명, 더 나은 오프라인 RL 방법 필요성 강조

How

Figure 1: Overview of the robustness evaluation for offline RL. Offline RL models are trained on varying-quality offline

OpenAI Gym의 Hopper-v2, HalfCheetah-v2, Walker2d-v2 등 다리 로봇 환경에서 실험 수행
D4RL 데이터셋(expert, medium, medium-expert)을 사용하여 BCQ, TD3+BC, IQL 방법 평가
Random perturbation과 differential evolution 기반 adversarial perturbation을 joint torque 신호에 적용
평균 episodic reward를 주요 성과 지표로 사용하여 견고성 평가
행동 섭동을 포함한 증강 데이터셋으로 정책 재학습 후 견고성 재평가
온라인 RL(PPO, SAC)과의 비교를 통해 상대적 취약성 분석

Originality

오프라인 RL에서 행동 공간 섭동에 대한 견고성을 처음으로 체계적으로 평가한 연구
Interactive access를 가정하지 않는 differential evolution 기반 적대적 섭동 방법을 오프라인 설정에 적용
보수적 정책 제약(BCQ, TD3+BC)과 값 함수 정규화(IQL) 방법들의 견고성을 비교 분석
데이터셋 커버리지와 견고성의 연관성을 실증적으로 입증한 점

Limitation & Further Study

실험이 MuJoCo 시뮬레이션 환경에 제한되어 있으며, 실제 로봇 하드웨어에서의 검증 부재
Differential evolution 기반 적대적 섭동만 사용하여 다양한 공격 방식에 대한 평가 부족
섭동 데이터로 학습해도 견고성이 개선되지 않는 이유에 대한 심층적 분석 미흡
오프라인 RL의 견고성 향상을 위한 새로운 알고리즘 제안이 없고, 문제 제시만 수행
후속 연구로 보수적 정책 제약의 완화와 견고성 간의 trade-off 분석, 적응형 행동 섭동 학습 방법 개발 필요

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 오프라인 RL의 실제 응용에 중요한 행동 섭동 견고성을 처음 다루었으며, 기존 방법들의 취약성을 명확히 입증했다. 다만 해결책 제시 부족과 시뮬레이션 환경 제한이 아쉬우나, 향후 견고한 오프라인 RL 개발을 위한 중요한 벤치마크 연구로 가치가 높다.

같이 보면 좋은 논문

기반 연구

Unsupervised pretraining for fact verification by language model distillation

859는 언어모델 기반의 사실 검증과 내재적 신뢰성을 다루어, RL의 행동 및 보상 평가에 관한 신뢰성 논의에 이론적 토대를 제시한다.

기반 연구

Evaluation of openai o1: Opportunities and challenges of agi

Evaluation of openai o1 논문은 AI 에이전트 평가의 실무적 한계와 방법론을 논의하며, 688의 오프라인 RL 견고성 분석에도 적용 가능합니다.

기반 연구

Improving generalization of robot locomotion policies via sharpness-aware reinforcement learning

688은 오프라인 강화학습의 일반화 평가와 다양한 환경 내 강인성 실험을 다뤄서, 422의 sharpness-aware minimization 적용 시 실험적 참조가 된다.

기반 연구

Kimi k1.5: Scaling reinforcement learning with llms

449는 대형 언어모델과 RL 융합 확장 전략을 제시하며 RL의 일반화 및 취약성 문제의 이론적 기반을 제공한다.

기반 연구

Value iteration for learning concurrently executable robotic control tasks

오프라인 강화학습의 견고성 평가와 다양한 환경 적용 사례가 본 논문의 로봇 제어 동시학습의 실험적 근거가 됩니다.

다른 접근

Reinforcement Learning for Dynamic Microfluidic Control

오프라인 RL의 로봇 제어 견고성 평가로, 강화학습 기반 마이크로플루이딕 실험 제어의 한계 및 안전성 문제와 연결해볼 수 있습니다.

다른 접근

Zero-shot sim-to-real transfer for reinforcement learning-based visual servoing of soft continuum arms

891은 RL 정책의 sim-to-real zero-shot 전이 문제에서 견고성을 다르게 평가하여, 688의 오프라인 RL 견고성 연구와 비교가 가능하다.

다른 접근

Guided by guardrails: Control barrier functions as safety instructors for robotic learning

Robustness evaluation of offline reinforcement learning for science 논문은 RL의 안전/견고성 문제를 CBF 접근 이외에 실험 기반 평가로 다루어, RL 안전성의 대안적 논의를 제시합니다.

후속 연구

Reinforcement Learning for Dynamic Microfluidic Control

마이크로플루이딕 제어 실제 실험 현장에서 RL 알고리즘의 견고성을 직접 실험적으로 분석한 논문으로, 실질적 후속 연구다.

후속 연구

Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design

Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models 논문은 보상 기반 튜닝과 견고성 강화 접근을 통한 RL 모델 개선 방법을 추가로 다룹니다.

후속 연구

Lang-PINN: From Language to Physics-Informed Neural Networks via a Multi-Agent Framework

456은 자연어에서 물리 제약 강화 신경망을 생성하는 방식으로 RL 기반 모델 견고성을 새로운 형태로 발전시킨다.

응용 사례

Virtual lab powered by 'AI scientists' super-charges biomedical research

868에서 AI 기반 바이오메디컬 실험 자동화의 사례를 다루므로, RL 기반 제어시스템의 실현 가능성과 연결되어 있습니다.

← 목록으로 돌아가기