Keep on Going: Learning Robust Humanoid Motion Skills via Selective Adversarial Training
์ ์: Yang Zhang, Zhanxiang Cao, Buqing Nie, Haoyang Li, Zhong Jiangwei, Qiao Sun, Xiaoyi Hu, Xiaokang Yang, Yue Gao | ๋ ์ง: 2025-07-11 | URL: https://arxiv.org/abs/2507.08303 📄 PDF
Essence
Figure 2: Overview of the SA2RT. The SAP identifies vulnerabilities in motion states and generates adversarial samples b
์ธ๊ฐํ ๋ก๋ด์ ์ฅ์๊ฐ ์์ ์ ์ด์์ ์ํด ์ ํ์ ์ ๋์ ๊ณต๊ฒฉ(SA2RT)์ ํตํ ๊ฒฌ๊ณ ํ ๋์ ์ ์ด ์ ์ฑ
์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๊ณต๊ฒฉ ์์ฐ ์ ์ฝ ํ์์ ์ทจ์ฝํ ์ํ์ ํ๋์ ์ฐพ์ ํ์ ํ๋ ์ญ๋์ ๊ฐํ์ฌ ์ ์ฑ
์ ๊ฐํํ๋ค.
Motivation
- Known: RL ๊ธฐ๋ฐ ์ธ๊ฐํ ๋ก๋ด ์ ์ด๋ ๋ณต์กํ ๋์์ ํ์ตํ ์ ์์ผ๋, domain randomization๊ณผ ์ ๊ทํ ์ ์ฝ ๋ฑ์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ ์ฑ
์ ํน์ ์ทจ์ฝ์ ์ ์ ํํ ์๋ณํ์ง ๋ชปํ๋ค. ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ์ ์ด๊ธฐ๋ ์ผ์/์ก์ถ์์ดํฐ ๋
ธ์ด์ฆ์ ์ธ๋ถ ์ญ๋์ ๋งค์ฐ ๋ฏผ๊ฐํ๋ค.
- Gap: ๊ธฐ์กด์ domain randomization์ ๋นํน์ด์ ์ญ๋๋ง ์ ๊ณตํ๊ณ , ์ ๊ทํ ์ ์ฝ์ ํ์๊ณผ ๊ฒฌ๊ณ ์ฑ ๊ฐ์ ํธ๋ ์ด๋์คํ๊ฐ ์์ผ๋ฉฐ, ๊ณ ์ฐจ์ ์ํ ๋ฐ ์์ ๋๋ฅผ ๊ฐ์ง ์ธ๊ฐํ ๋ก๋ด์์ ํ์ ํ๋ ์ทจ์ฝ์ ์๋ณ๊ณผ ๊ณต๊ฒฉ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ตฌ๋์ง ์์๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ด ์ผ์ ํ๊ฒฝ์์ ์ฅ์๊ฐ ์ ๋ขฐ์ฑ ์๊ฒ ์๋ํ๋ ค๋ฉด ์ ์ฑ
์ ์ค์ ์ทจ์ฝ์ ์ ์ฐพ์๋ด๊ณ ์ ํ์ ์ผ๋ก ๊ฐํํ๋ ๊ฒ์ด ํ์์ ์ด๋ฉฐ, ์ด๋ ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฒฉ์ฐจ ๊ทน๋ณต๊ณผ ์ค์ ๋ฐฐํฌ ์ฑ๊ณต๋ฅ ํฅ์์ ์ง๊ฒฐ๋๋ค.
- Approach: Selective Attack Policy(SAP)๋ผ๋ ํ์ต ๊ฐ๋ฅํ ์ ๋์ ๋คํธ์ํฌ๊ฐ ๋์ ์ ์ฑ
์ ์ทจ์ฝ์ ์ ์๋ณํ๊ณ ๊ณต๊ฒฉ ์์ฐ ์ ์ฝ ํ์์ ์ต์ํ์ ์ญ๋์ผ๋ก ์ต๋ ์ํฅ์ ์ฃผ๋๋ก ์ค๊ณ๋๋ค. ๋์ ์ ์ฑ
๊ณผ ๊ณต๊ฒฉ ์ ์ฑ
์ ๊ต๋ ์ต์ ํ(non-zero sum ๊ฒ์)๋ฅผ ํตํด ๋ฐ๋ณต์ ์ผ๋ก ๊ฒฌ๊ณ ์ฑ์ ๊ฐํํ๋ค.
Achievement
- ์งํ ํต๊ณผ ์ฑ๊ณต๋ฅ : ์ ๋์ ํ์ต ์ ์ฑ
์ด ์งํ ํก๋จ ์ฑ๊ณต๋ฅ ์ 40% ํฅ์์ํด
- ๊ถค์ ์ถ์ ์ค์ฐจ ๊ฐ์: ๋์ ๊ถค์ ์ถ์ ์ค๋ฅ๋ฅผ 32% ๊ฐ์
- ์ฅ์๊ฐ ์์ ์ฑ: ์ฅ๊ธฐ๊ฐ ์์ง์ ๋ฐ ์ถ์ ์ฑ๋ฅ์ ์ ์งํ๋ ๊ฒฌ๊ณ ํ ์ ์ฑ
๋ฌ์ฑ
- ์ผ๋ฐํ ์ฑ๋ฅ: ๋ณด์์ ๊ณผ์ ํฉ ์์ด ์ค์ ์ผ์ ๋
ธ์ด์ฆ์ ํ๊ฒฝ ๋ณ๋์ ๋ํ ์ ์๋ ฅ ์ฆ๋
How
Figure 2: Overview of the SA2RT. The SAP identifies vulnerabilities in motion states and generates adversarial samples b
- Two-player Markov game ํ๋ ์์ํฌ๋ก ๊ณต๊ฒฉ์(adversary) ์ ์ฑ
ฯ_ฮฑ์ ํผํด์(victim) ๋์ ์ ์ฑ
ฯ_ฮฝ๋ฅผ ์ ์
- ๊ณต๊ฒฉ ์ ์ฑ
์ด ์ํ ๊ณต๊ฐ๊ณผ ํ๋ ๊ณต๊ฐ ๋ชจ๋์์ ์ญ๋์ ์์ฑํ๋, ๊ณต๊ฒฉ ์์ฐ ์ ์ฝ์ผ๋ก ํฌ์ํ ๊ณต๊ฒฉ๋ง ํ์ฉ
- ๊ณต๊ฒฉ ์ ์ฑ
์ ๋ชฉ์ : ๋์ ์ ์ฑ
์ ๋์ ๋ณด์์ ์ต์ํํ๋ ์ทจ์ฝ์ ์๋ณ
- ๋์ ์ ์ฑ
์ ๋ชฉ์ : ๊ณต๊ฒฉ์์ ์ญ๋์๋ ๋ถ๊ตฌํ๊ณ ์๋ ์์
์ฑ๋ฅ ์ ์ง
- ๊ต๋ ์ต์ ํ: ๊ณต๊ฒฉ ์ ์ฑ
๊ฐ์ โ ๋์ ์ ์ฑ
๊ฐํ์ ๋ฐ๋ณต ์ฌ์ดํด
- Unitree G1 ์ธ๊ฐํ ๋ก๋ด์์ ์ง๊ฐ ๊ธฐ๋ฐ ๋ณดํ๊ณผ ์ ์ ์ ์ด ์์
์ผ๋ก ๊ฒ์ฆ
- ๋ฐฐํฌ ์์๋ SAP ์์ด ๊ฐํ๋ ๋์ ์ ์ฑ
๋ง ์ฌ์ฉ
Originality
- ์ธ๊ฐํ ๋ก๋ด์ ๊ณ ์ฐจ์ ์ํ-ํ๋ ๊ณต๊ฐ์์ ์ ํ์ ์ทจ์ฝ์ ์๋ณ์ ํตํ ํ์ ํ๋ ์ ๋์ ํ์ต์ด ์ฒด๊ณ์ ์ผ๋ก ์ ์๋ ๊ฒ์ ์ด๋ฒ์ด ์ฒ์
- ๊ณต๊ฒฉ ์์ฐ ์ ์ฝ์ ๋์
ํ์ฌ ๋ณด์์ ๊ณผ์ ํฉ์ ํผํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ์ทจ์ฝ์ ๋
ธ์ถ ๋ฌ์ฑ
- Non-zero sum game์ ๊ต๋ ์ต์ ํ๋ก ๋์ ์ผ๋ก ๋ณํํ๋ ์ ์ฑ
์ทจ์ฝ์ ์ ์ง์์ ์ผ๋ก ๋์
- ์ํ ๊ณต๊ฐ๊ณผ ํ๋ ๊ณต๊ฐ ๋์ ์ญ๋์ ํตํ ํฌ๊ด์ ๊ฒฌ๊ณ ์ฑ ํฅ์
Limitation & Further Study
- ์คํ์ด Unitree G1 ๋จ์ผ ํ๋ซํผ์ ์ ํ๋์ด ๋ค๋ฅธ ์ธ๊ฐํ ๋ก๋ด์ผ๋ก์ ์ผ๋ฐํ ๊ฒ์ฆ ๋ถ์ฌ
- ๊ณต๊ฒฉ ์์ฐ ์ ์ฝ์ ์ค์ ์ด ์๋์ ์ด๋ฉฐ, ์ต์ ์์ฐ๊ฐ ๊ฒฐ์ ์ ๋ํ ์ฒด๊ณ์ ์ง์นจ ๋ถ์กฑ
- SAP ํ์ต์ ํ์ํ ๊ณ์ฐ ์ค๋ฒํค๋ ๋ฐ ํ์ต ์๊ฐ์ ๋ํ ์ ๋์ ๋ถ์ ๋ฏธํก
- ๊ทน๋จ์ ํ๊ฒฝ(๋งค์ฐ ๋ถ๊ท์นํ ์งํ, ํฐ ์ธ๋ถ ํ) ๋ฑ์์์ ์ฑ๋ฅ ํ๊ณ ๋ฏธ๊ฒํ
- ํ์ ์ฐ๊ตฌ: ๋ค์ค ๋ก๋ด ํ๋ซํผ์์์ ์ ์ฑ
์ ์ด ํ์ต, ๋์ ๊ณต๊ฒฉ ์์ฐ ์ต์ ํ, ์ค์๊ฐ ์ ์ํ ๊ณต๊ฒฉ ์ ์ฑ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ ํ์ ์ ๋์ ๊ณต๊ฒฉ์ ํตํด ์ธ๊ฐํ ๋ก๋ด์ ๋์ ๊ฒฌ๊ณ ์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ๊ฐํํ๋ ํ์ ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, ์ค์ ๋ก๋ด ํ๋ซํผ์์ 40% ์ฑ๊ณต๋ฅ ํฅ์ ๋ฑ ๊ด๋ชฉํ ๋งํ ์ฑ๊ณผ๋ฅผ ์
์ฆํ๋ค. ๋ค๋ง ๋จ์ผ ๋ก๋ด ํ๋ซํผ ์คํ๊ณผ ๊ณต๊ฒฉ ์์ฐ ์ค์ ์ ์ผ๋ฐํ ์ธก๋ฉด์์ ๊ฐ์ ์ ์ฌ์ง๊ฐ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์