On the Vulnerability of LLM/VLM-Controlled Robotics

Essence

Fig. 1: Vulnerability-Triggering Perturbations. We showcase perturbations inducing misalignment-related vulnerabilities

LLM/VLM 기반 로봇 시스템이 입력 모달리티의 작은 변화에 매우 취약하며, 의미상 동일한 지시사항의 약간의 변형만으로도 로봇의 행동이 크게 달라지는 문제를 분석한다.

Known: LLM/VLM은 로봇 제어에 효과적이며 다양한 작업에서 우수한 성능을 보인다. 기존 연구는 주로 적대적 공격(adversarial attacks)과 jailbreak 프롬프트에 초점을 맞추었다.
Gap: 자연스러운 사용자 입력 변형으로 인한 로봇의 신뢰성 문제가 거의 연구되지 않았으며, 의미 보존 변형이 로봇 작업 수행에 미치는 영향에 대한 체계적 분석이 부족하다.
Why: 로봇이 병원, 가정, 공장 등 실제 환경에 배포될 때 안정성과 신뢰성이 필수적이며, 사용자의 다양한 표현 방식에 무관하게 일관된 행동을 해야 하기 때문이다.
Approach: 입력 모달리티 민감성을 분석하기 위해 수학적 프레임워크를 제시하고, text-action misalignment, text-image misalignment, perception-physical world misalignment 등의 perturbation 전략을 제안하여 실제 로봇 조작 작업에서 검증한다.

Fig. 1: Vulnerability-Triggering Perturbations. We showcase perturbations inducing misalignment-related vulnerabilities

입력 모달리티 민감성 규명: 현재의 LLM/VLM 제어 로봇 시스템이 입력 변형에 매우 취약함을 경험적으로 입증하고, 이것이 적대적 공격이 아닌 일상적 변형에서도 발생함을 보였다.
수학적 형식화: 의미상 유사한 프롬프트가 상이한 로봇 행동을 유발하는 조건을 정의하여 perturbation 유도 불안정성을 정량화하는 프레임워크를 제시했다.
실증적 취약성 분석: 여러 misalignment 유형에 대한 perturbation 전략을 개발하고, 두 개의 대표적 LLM/VLM 제어 로봇 시스템에서 성공률을 22.2%와 14.6% 감소시킬 수 있음을 입증했다.

Fig. 1: Vulnerability-Triggering Perturbations. We showcase perturbations inducing misalignment-related vulnerabilities

Text-Action Misalignment: 언어 프롬프트의 행동 관련 성분을 동의어로 변경하여 LLM의 행동 사전과의 대응 관계를 끊는다.
Text-Image Misalignment: 프롬프트의 개체명과 속성을 동의어나 다른 표현으로 수정하여 언어 입력과 시각 관찰 간의 불일치를 유발한다.
Perception-Physical World Misalignment: 로봇의 시각 입력에 변환을 적용하여 인식된 상태와 실제 물리적 상태 간 불일치를 초래한다.
실험 검증: 로봇 조작 작업(robot manipulation tasks)을 통해 각 perturbation 전략의 효과를 정량적으로 평가한다.

적대적 공격이 아닌 자연스러운 입력 변형으로 인한 로봇 시스템의 취약성을 처음으로 체계적으로 분석했다.
다중 모달(multi-modal) 통합으로 인해 발생하는 고유한 fragility를 밝혀냈으며, 이는 순수 텍스트 기반 응용과 구분되는 새로운 문제이다.
Three-layer misalignment (text-action, text-image, perception-physical) 프레임워크를 통해 LLM/VLM 로봇의 취약성을 다각적으로 분석했다.
의미 보존 변형만으로도 심각한 성능 저하를 유발할 수 있음을 입증하여 기존 adversarial robustness 연구와 차별화된다.

현재까지 제시된 방법은 주로 취약성을 노출하는 데 초점이 있으며, 이를 완화하거나 강화하는 구체적인 방안이 부족하다.
실험이 특정 로봇 조작 작업(manipulation tasks)에 국한되어 있으며, 다양한 로봇 플랫폼과 navigation, reasoning 등 다른 작업 영역으로의 일반화 가능성이 불명확하다.
입력 perturbation의 강도와 범위 설정이 자의적일 수 있으며, 실제 현장에서의 입력 변형 분포와의 정합성에 대한 검증이 필요하다.
후속 연구는 입력 모달리티 robustness를 향상시키기 위한 training strategies, prompting techniques, 또는 모듈 간 alignment 검증 메커니즘 개발에 초점을 맞춰야 한다.
다중 모달 시스템의 정렬 문제에 대한 이론적 분석과 해결책 개발이 필요하다.

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 LLM/VLM 제어 로봇의 안전 배포에 중요한 입력 모달리티 민감성 문제를 처음으로 체계적으로 분석하며, 명확한 실증 결과를 제시함으로써 로봇 안전성 연구에 중요한 기여를 한다. 다만 구체적인 해결책 제시가 미흡하고 실험 범위 확대가 필요하다.