On the Vulnerability of LLM/VLM-Controlled Robotics
์ ์: Xiyang Wu, Souradip Chakraborty, Ruiqi Xian, Jing Liang, Tianrui Guan, Fuxiao Liu, Brian M. Sadler, Dinesh Manocha, Amrit Singh Bedi | ๋ ์ง: 2024-02-15 | URL: https://arxiv.org/abs/2402.10340 📄 PDF
Essence
Fig. 1: Vulnerability-Triggering Perturbations. We showcase perturbations inducing misalignment-related vulnerabilities
LLM/VLM ๊ธฐ๋ฐ ๋ก๋ด ์์คํ
์ด ์
๋ ฅ ๋ชจ๋ฌ๋ฆฌํฐ์ ์์ ๋ณํ์ ๋งค์ฐ ์ทจ์ฝํ๋ฉฐ, ์๋ฏธ์ ๋์ผํ ์ง์์ฌํญ์ ์ฝ๊ฐ์ ๋ณํ๋ง์ผ๋ก๋ ๋ก๋ด์ ํ๋์ด ํฌ๊ฒ ๋ฌ๋ผ์ง๋ ๋ฌธ์ ๋ฅผ ๋ถ์ํ๋ค.
Motivation
- Known: LLM/VLM์ ๋ก๋ด ์ ์ด์ ํจ๊ณผ์ ์ด๋ฉฐ ๋ค์ํ ์์
์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ ์ฃผ๋ก ์ ๋์ ๊ณต๊ฒฉ(adversarial attacks)๊ณผ jailbreak ํ๋กฌํํธ์ ์ด์ ์ ๋ง์ถ์๋ค.
- Gap: ์์ฐ์ค๋ฌ์ด ์ฌ์ฉ์ ์
๋ ฅ ๋ณํ์ผ๋ก ์ธํ ๋ก๋ด์ ์ ๋ขฐ์ฑ ๋ฌธ์ ๊ฐ ๊ฑฐ์ ์ฐ๊ตฌ๋์ง ์์์ผ๋ฉฐ, ์๋ฏธ ๋ณด์กด ๋ณํ์ด ๋ก๋ด ์์
์ํ์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ์ฒด๊ณ์ ๋ถ์์ด ๋ถ์กฑํ๋ค.
- Why: ๋ก๋ด์ด ๋ณ์, ๊ฐ์ , ๊ณต์ฅ ๋ฑ ์ค์ ํ๊ฒฝ์ ๋ฐฐํฌ๋ ๋ ์์ ์ฑ๊ณผ ์ ๋ขฐ์ฑ์ด ํ์์ ์ด๋ฉฐ, ์ฌ์ฉ์์ ๋ค์ํ ํํ ๋ฐฉ์์ ๋ฌด๊ดํ๊ฒ ์ผ๊ด๋ ํ๋์ ํด์ผ ํ๊ธฐ ๋๋ฌธ์ด๋ค.
- Approach: ์
๋ ฅ ๋ชจ๋ฌ๋ฆฌํฐ ๋ฏผ๊ฐ์ฑ์ ๋ถ์ํ๊ธฐ ์ํด ์ํ์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ , text-action misalignment, text-image misalignment, perception-physical world misalignment ๋ฑ์ perturbation ์ ๋ต์ ์ ์ํ์ฌ ์ค์ ๋ก๋ด ์กฐ์ ์์
์์ ๊ฒ์ฆํ๋ค.
Achievement
Fig. 1: Vulnerability-Triggering Perturbations. We showcase perturbations inducing misalignment-related vulnerabilities
- ์
๋ ฅ ๋ชจ๋ฌ๋ฆฌํฐ ๋ฏผ๊ฐ์ฑ ๊ท๋ช
: ํ์ฌ์ LLM/VLM ์ ์ด ๋ก๋ด ์์คํ
์ด ์
๋ ฅ ๋ณํ์ ๋งค์ฐ ์ทจ์ฝํจ์ ๊ฒฝํ์ ์ผ๋ก ์
์ฆํ๊ณ , ์ด๊ฒ์ด ์ ๋์ ๊ณต๊ฒฉ์ด ์๋ ์ผ์์ ๋ณํ์์๋ ๋ฐ์ํจ์ ๋ณด์๋ค.
- ์ํ์ ํ์ํ: ์๋ฏธ์ ์ ์ฌํ ํ๋กฌํํธ๊ฐ ์์ดํ ๋ก๋ด ํ๋์ ์ ๋ฐํ๋ ์กฐ๊ฑด์ ์ ์ํ์ฌ perturbation ์ ๋ ๋ถ์์ ์ฑ์ ์ ๋ํํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
- ์ค์ฆ์ ์ทจ์ฝ์ฑ ๋ถ์: ์ฌ๋ฌ misalignment ์ ํ์ ๋ํ perturbation ์ ๋ต์ ๊ฐ๋ฐํ๊ณ , ๋ ๊ฐ์ ๋ํ์ LLM/VLM ์ ์ด ๋ก๋ด ์์คํ
์์ ์ฑ๊ณต๋ฅ ์ 22.2%์ 14.6% ๊ฐ์์ํฌ ์ ์์์ ์
์ฆํ๋ค.
How
Fig. 1: Vulnerability-Triggering Perturbations. We showcase perturbations inducing misalignment-related vulnerabilities
- Text-Action Misalignment: ์ธ์ด ํ๋กฌํํธ์ ํ๋ ๊ด๋ จ ์ฑ๋ถ์ ๋์์ด๋ก ๋ณ๊ฒฝํ์ฌ LLM์ ํ๋ ์ฌ์ ๊ณผ์ ๋์ ๊ด๊ณ๋ฅผ ๋๋๋ค.
- Text-Image Misalignment: ํ๋กฌํํธ์ ๊ฐ์ฒด๋ช
๊ณผ ์์ฑ์ ๋์์ด๋ ๋ค๋ฅธ ํํ์ผ๋ก ์์ ํ์ฌ ์ธ์ด ์
๋ ฅ๊ณผ ์๊ฐ ๊ด์ฐฐ ๊ฐ์ ๋ถ์ผ์น๋ฅผ ์ ๋ฐํ๋ค.
- Perception-Physical World Misalignment: ๋ก๋ด์ ์๊ฐ ์
๋ ฅ์ ๋ณํ์ ์ ์ฉํ์ฌ ์ธ์๋ ์ํ์ ์ค์ ๋ฌผ๋ฆฌ์ ์ํ ๊ฐ ๋ถ์ผ์น๋ฅผ ์ด๋ํ๋ค.
- ์คํ ๊ฒ์ฆ: ๋ก๋ด ์กฐ์ ์์
(robot manipulation tasks)์ ํตํด ๊ฐ perturbation ์ ๋ต์ ํจ๊ณผ๋ฅผ ์ ๋์ ์ผ๋ก ํ๊ฐํ๋ค.
Originality
- ์ ๋์ ๊ณต๊ฒฉ์ด ์๋ ์์ฐ์ค๋ฌ์ด ์
๋ ฅ ๋ณํ์ผ๋ก ์ธํ ๋ก๋ด ์์คํ
์ ์ทจ์ฝ์ฑ์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๋ค.
- ๋ค์ค ๋ชจ๋ฌ(multi-modal) ํตํฉ์ผ๋ก ์ธํด ๋ฐ์ํ๋ ๊ณ ์ ํ fragility๋ฅผ ๋ฐํ๋์ผ๋ฉฐ, ์ด๋ ์์ ํ
์คํธ ๊ธฐ๋ฐ ์์ฉ๊ณผ ๊ตฌ๋ถ๋๋ ์๋ก์ด ๋ฌธ์ ์ด๋ค.
- Three-layer misalignment (text-action, text-image, perception-physical) ํ๋ ์์ํฌ๋ฅผ ํตํด LLM/VLM ๋ก๋ด์ ์ทจ์ฝ์ฑ์ ๋ค๊ฐ์ ์ผ๋ก ๋ถ์ํ๋ค.
- ์๋ฏธ ๋ณด์กด ๋ณํ๋ง์ผ๋ก๋ ์ฌ๊ฐํ ์ฑ๋ฅ ์ ํ๋ฅผ ์ ๋ฐํ ์ ์์์ ์
์ฆํ์ฌ ๊ธฐ์กด adversarial robustness ์ฐ๊ตฌ์ ์ฐจ๋ณํ๋๋ค.
Limitation & Further Study
- ํ์ฌ๊น์ง ์ ์๋ ๋ฐฉ๋ฒ์ ์ฃผ๋ก ์ทจ์ฝ์ฑ์ ๋
ธ์ถํ๋ ๋ฐ ์ด์ ์ด ์์ผ๋ฉฐ, ์ด๋ฅผ ์ํํ๊ฑฐ๋ ๊ฐํํ๋ ๊ตฌ์ฒด์ ์ธ ๋ฐฉ์์ด ๋ถ์กฑํ๋ค.
- ์คํ์ด ํน์ ๋ก๋ด ์กฐ์ ์์
(manipulation tasks)์ ๊ตญํ๋์ด ์์ผ๋ฉฐ, ๋ค์ํ ๋ก๋ด ํ๋ซํผ๊ณผ navigation, reasoning ๋ฑ ๋ค๋ฅธ ์์
์์ญ์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ด ๋ถ๋ช
ํํ๋ค.
- ์
๋ ฅ perturbation์ ๊ฐ๋์ ๋ฒ์ ์ค์ ์ด ์์์ ์ผ ์ ์์ผ๋ฉฐ, ์ค์ ํ์ฅ์์์ ์
๋ ฅ ๋ณํ ๋ถํฌ์์ ์ ํฉ์ฑ์ ๋ํ ๊ฒ์ฆ์ด ํ์ํ๋ค.
- ํ์ ์ฐ๊ตฌ๋ ์
๋ ฅ ๋ชจ๋ฌ๋ฆฌํฐ robustness๋ฅผ ํฅ์์ํค๊ธฐ ์ํ training strategies, prompting techniques, ๋๋ ๋ชจ๋ ๊ฐ alignment ๊ฒ์ฆ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ์ ์ด์ ์ ๋ง์ถฐ์ผ ํ๋ค.
- ๋ค์ค ๋ชจ๋ฌ ์์คํ
์ ์ ๋ ฌ ๋ฌธ์ ์ ๋ํ ์ด๋ก ์ ๋ถ์๊ณผ ํด๊ฒฐ์ฑ
๊ฐ๋ฐ์ด ํ์ํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM/VLM ์ ์ด ๋ก๋ด์ ์์ ๋ฐฐํฌ์ ์ค์ํ ์
๋ ฅ ๋ชจ๋ฌ๋ฆฌํฐ ๋ฏผ๊ฐ์ฑ ๋ฌธ์ ๋ฅผ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๋ฉฐ, ๋ช
ํํ ์ค์ฆ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํจ์ผ๋ก์จ ๋ก๋ด ์์ ์ฑ ์ฐ๊ตฌ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ๋ค๋ง ๊ตฌ์ฒด์ ์ธ ํด๊ฒฐ์ฑ
์ ์๊ฐ ๋ฏธํกํ๊ณ ์คํ ๋ฒ์ ํ๋๊ฐ ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์