Learning to Walk and Fly with Adversarial Motion Priors
์ ์: Giuseppe L'Erario, Drew Hanover, Angel Romero, Yunlong Song, Gabriele Nava, Paolo Maria Viceconte, Daniele Pucci, Davide Scaramuzza | ๋ ์ง: 2023-09-22 | URL: https://arxiv.org/abs/2309.12784 📄 PDF
Essence
Fig. 2: The discriminator learns to distinguish between samples
๋ณธ ๋
ผ๋ฌธ์ Adversarial Motion Priors(AMP)์ ๊ฐํํ์ต์ ๊ฒฐํฉํ์ฌ ํญ๊ณต ์ธํ๋ก๋ด(aerial humanoid robot)์ด ์ธ๊ฐ ๊ฐ์ ๋ณดํ๊ณผ ๋นํ ์ฌ์ด๋ฅผ ์๋์ผ๋ก ์ ํํ๋๋ก ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๋ณต์กํ ๋ณด์ ํจ์ ์์ด ๋์ ๋ฐ์ดํฐ์
์ ๋ชจ๋ฐฉํ๋ฉด์ ๊ณผ์ ๋ฅผ ์ํํ๋ฉฐ, ํ๊ฒฝ ํผ๋๋ฐฑ์ ๋ฐ๋ผ locomotion ๋ชจ๋๊ฐ ์๋ฐ์ ์ผ๋ก ์ ํ๋๋ค.
Motivation
- Known: ๊ธฐ์กด ์ฐ๊ตฌ๋ ์ฃผ๋ก ๊ฐ๋ณ locomotion ์คํ์ผ์ ํนํ๋ ๋ก๋ด ์์คํ
์ ๊ฐ๋ฐํ์ผ๋ฉฐ, ๋ณดํ๊ณผ ๋นํ๊ณผ ๊ฐ์ ์ด์ข
locomotion ๊ฐ์ ์ ํ์ trajectory optimization์ด๋ state machine์ ํตํด ๋ช
์์ ์ผ๋ก ์ ์ด๋์๋ค.
- Gap: ํญ๊ณต ์ธํ๋ก๋ด์ด ๊ณ ์์ค์ ๊ณผ์ ๋ฌ์ฑ์ ์ํด ์ธ์ , ์ด๋ป๊ฒ locomotion ๋ชจ๋๋ฅผ ์๋์ผ๋ก ์ ํํด์ผ ํ๋์ง์ ๋ํ ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค. ํนํ ๋ช
์์ trajectory ์ถ์ ์ด๋ state machine ์์ด ์๋ฐ์ ์ผ๋ก mode-switching์ด ์ผ์ด๋๋ ๋ฐฉ๋ฒ์ด ์์๋ค.
- Why: Search and rescue, surveillance, exploration ๊ฐ์ ๋ค์ํ ํ๊ฒฝ์์ ์์จ์ ์ผ๋ก ํ๋ํ ์ ์๋ ํญ๊ณต ์ธํ๋ก๋ด์ versatile locomotion ๋ฅ๋ ฅ์ ์ค์ ์์ฉ์์ ์ค์ํ๋ฉฐ, ์ด๋ ๋ก๋ด ์๋์ฑ๊ณผ ์ ์์ฑ์ ํ๊ธฐ์ ์ผ๋ก ํฅ์์ํจ๋ค.
- Approach: ๋ณธ ๋
ผ๋ฌธ์ AMP์ style reward์ task reward๋ฅผ ๊ฒฐํฉํ ์ด์ค ๋ณด์ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ, discriminator๊ฐ ๋ฐ์ดํฐ์
๊ณผ ์ ์ฑ
์์ฑ ๋์์ ๊ตฌ๋ณํ๋๋ก ํ์ต์ํค๋ฉด์ ๋์์ ๊ณ ์์ค ๊ณผ์ (waypoint tracking)๋ฅผ ์ํํ๋๋ก ๊ฐํํ์ต์ผ๋ก ์ ์ฑ
์ ํ๋ จํ๋ค. ์๋์ง proxy ํญ์ ๋ณด์ํจ์์ ํฌํจ์์ผ ์์ฐ์ค๋ฌ์ด mode-switching์ ์ ๋ํ๋ค.
Achievement
Fig. 4: Snapshots of the walking motion obtained using inverse
- ์ต์ด ์๋ mode-switching ๋ฌ์ฑ: trajectory optimization์ด๋ state machine ์์ด walking๊ณผ flying ์ฌ์ด์ smooth transitions๋ฅผ ์๋ฐ์ ์ผ๋ก ํ์ต
- ์ด์ค ๋ฐ์ดํฐ์
ํ์ฉ: ์ธ๊ฐ ์ ์ฌ ๋ณดํ ๋ฐ์ดํฐ์
๊ณผ trajectory optimization์ผ๋ก๋ถํฐ ์์ฑ๋ ๋นํ ๋์ ๋ฐ์ดํฐ์
์ ๋์์ ๋ชจ๋ฐฉ
- ๋ณต์ก ํ๊ฒฝ์์์ ์ฑ๋ฅ: NVIDIA Isaac Gym ํ๊ฒฝ์์ ๋ณต์กํ ์งํ ๋ฐ rough courses๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ํ
- ์ค์ ๋ชจํฐ ๋ชจ๋ธ ์ ์ฉ: ์ด์์ thrust์ ์ค์ jet-powered actuation ๋ ๊ฐ์ง ๊ฒฝ์ฐ ๋ชจ๋์์ ๊ฒ์ฆ
How
Fig. 2: The discriminator learns to distinguish between samples
- Floating-base formalism์ ์ฌ์ฉํ์ฌ ํญ๊ณต ์ธํ๋ก๋ด์ ๋์ญํ์ ๋ชจ๋ธ๋ง (Eq. 1)
- Markov Decision Process(MDP) ํ๋ ์์ํฌ ๋ด์์ ์ ์ฑ
ฯฯ๋ฅผ ์ฌ์ธต ์ ๊ฒฝ๋ง์ผ๋ก ํํ
- Style reward Srt๋ adversarial discriminator๊ฐ ์์ฑ๋ ๋์๊ณผ ๋ฐ์ดํฐ์
์ํ์ ๊ตฌ๋ณํ ์ ์๋๋ก ํ์ต
- Task reward Grt๋ waypoint tracking์ ์ํ ๊ณ ์์ค ๋ชฉํ ๋ฌ์ฑ์ ์ฅ๋ ค
- ์ด ๋ณด์ rt = wGยทGrt + wSยทSrt์์ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ์ฌ balance ์ ์ด
- ์๋์ง proxy ํญ์ ํฌํจ์์ผ ์ง๋ฉด์ด ์ ๊ทผ ๊ฐ๋ฅํ ๋ walking์, ๊ทธ๋ ์ง ์์ ๋ flying์ ์๋์ผ๋ก ์ ํํ๋๋ก ์ ๋
- iRonCub ํญ๊ณต ์ธํ๋ก๋ด์ ๋ํด Isaac Gym ์๋ฎฌ๋ ์ดํฐ์์ ํ๋ จ ๋ฐ ํ๊ฐ
Originality
- AMP๋ฅผ ํญ๊ณต ์ธํ๋ก๋ด์ multimodal locomotion์ ์ฒ์ ์ ์ฉํ์ฌ, ๋ ์ด์ง์ ์ธ locomotion ์คํ์ผ ๊ฐ์ ์๋ ์ ํ ๋ฌ์ฑ
- ๋ช
์์ trajectory optimization ๋๋ state machine ์์ด ๊ฐํํ์ต๋ง์ผ๋ก mode-switching์ ์๋ฐ์ ์ถํ์ ๊ตฌํํ ํ์ ์ ์ ๊ทผ
- ์ธ๊ฐ ๋ณดํ ๋ฐ์ดํฐ์
๊ณผ ์ต์ ๋นํ ๊ถค์ ์ ๋์์ ๋ชจ๋ฐฉํ๋ unified framework ์ ์
- ์๋์ง proxy ํญ์ ํตํ task-driven ์๋ mode selection ๋ฉ์ปค๋์ฆ์ ์ฐฝ์์ ์ค๊ณ
Limitation & Further Study
- ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ(Isaac Gym)์์๋ง ๊ฒ์ฆ๋์์ผ๋ฉฐ ์ค๋ฌผ ๋ก๋ด iRonCub ์คํ์ด ๋ถ์ฌ
- ์ธ๊ฐ ๋ณดํ ๋ฐ์ดํฐ์
์ ํ์ง๊ณผ diversity๊ฐ ์ต์ข
์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ด ์ถฉ๋ถํ ๋ถ์๋์ง ์์
- ๋ณต์กํ ์งํ์ ์ ์์ ๋ค์ํ ํ๊ฒฝ ์กฐ๊ฑด์ ๋ํ generalization ๋ฅ๋ ฅ์ด ์ ํ์
- Jet-powered actuation ๋ชจ๋ธ์ด ์ค์ ์์คํ
๊ณผ ์์ ํ ์ผ์นํ๋์ง ๊ฒ์ฆ ํ์
- ํ์ ์ฐ๊ตฌ๋ก ์ค์ ํญ๊ณต ์ธํ๋ก๋ด ํ๋์จ์ด์์์ ๊ฒ์ฆ ๋ฐ ๋ ๋ณต์กํ 3D ์งํ ํ๊ฒฝ ํ
์คํธ ์ํ ๊ถ๊ณ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ AMP์ ๊ฐํํ์ต์ ๊ฒฐํฉ์ ํตํด ํญ๊ณต ์ธํ๋ก๋ด์ multimodal locomotion์์ ์๋ mode-switching์ด๋ผ๋ ๋ฏธํด๊ฒฐ ๋ฌธ์ ๋ฅผ ์ฐ์ํ๊ฒ ํด๊ฒฐํ ๋์ ์์ค์ ์ฐ๊ตฌ์ด๋ค. ๋น๋ก ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ํ์ ๋์ด ์์ง๋ง, ๊ธฐ์ ์ ํ์ ์ฑ, ๋ฌธ์ ํด๊ฒฐ์ ์ฐ์์ฑ, ๊ทธ๋ฆฌ๊ณ ์ค์ ์์ฉ ๊ฐ๋ฅ์ฑ ์ธก๋ฉด์์ ๋ก๋ด๊ณตํ ๋ถ์ผ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์