SkillMimic: Learning Basketball Interaction Skills from Demonstrations
์ ์: Yinhuai Wang, Qihan Zhao, Runyi Yu, Hok Wai Tsui, Ailing Zeng, Jing Lin, Zhengyi Luo, Jiwen Yu, Xiu Li, Qifeng Chen, Jian Zhang, Lei Zhang, Ping Tan | ๋ ์ง: 2024-08-12 | URL: https://arxiv.org/abs/2408.15270 📄 PDF
Essence
Figure 2. Concept of SkillMimic. We define an interaction skill as
SkillMimic์ skill-specific reward ์ค๊ณ ์์ด ํตํฉ๋ HOI imitation reward๋ฅผ ์ฌ์ฉํ์ฌ ๋จ์ผ policy๋ก ๋ค์ํ ๋๊ตฌ ์ํธ์์ฉ ๊ธฐ์ ์ ํ์ตํ๊ณ ํฉ์ฑํ ์ ์๋ data-driven ํ๋ ์์ํฌ๋ค.
Motivation
- Known: ๊ธฐ์กด RL ๊ธฐ๋ฐ ์ธ๊ฐ-๋ฌผ์ฒด ์ํธ์์ฉ ํ์ต์ ๊ฐ skill๋ง๋ค ์์์
์ผ๋ก ์ค๊ณ๋ reward๋ฅผ ํ์๋ก ํ๋ฉฐ, locomotion ๋ชจ๋ฐฉ ํ์ต์ ์ฃผ๋ก ์ด๋ ๊ธฐ์ ์๋ง ์ง์ค๋์ด ์๋ค.
- Gap: ๋ค์ํ ์ํธ์์ฉ ๊ธฐ์ ์ ํตํฉ๋ ํ๋ ์์ํฌ๋ก ํ์ตํ๊ณ ์ฅ๊ธฐ ๋ณตํฉ ์์
(์: ์ฐ์ ๋์ )์ ์ํํ ์ ์๋ ๋ฐฉ๋ฒ์ด ๋ถ์ฌํ๋ค.
- Why: skill-specific reward ์ค๊ณ์ ์ ๊ฑฐ๋ ํ์ฅ์ฑ๊ณผ ์ผ๋ฐํ๋ฅผ ํฌ๊ฒ ํฅ์์ํค๋ฉฐ, ๋๊ตฌ์ ๊ฐ์ ๋ณต์กํ ์ํธ์์ฉ ํ์ต์์ ์ค์ฉ์ ์ธ ํด๊ฒฐ์ฑ
์ ์ ๊ณตํ๋ค.
- Approach: Contact graph๋ฅผ ํตํด ์ ๋ฐํ ์ ์ด ๋ชจ๋ฐฉ์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ , ํตํฉ๋ HOI imitation reward๋ก ๋ค์ํ ๊ธฐ์ ์ ํ์ตํ ํ, high-level controller๋ฅผ ํตํด ๊ธฐ์ ์ ์ฌ์กฐํฉํ์ฌ ๋ณตํฉ ์์
์ ์ํํ๋ค.
Achievement
Figure 1. We propose a novel approach that for the first time enables physically simulated humanoids to learn a variety
- SkillMimic ํ๋ ์์ํฌ: ๋์ผํ hyperparameter๋ก dribbling, layup, shooting ๋ฑ ๋ค์ํ ๋๊ตฌ ๊ธฐ์ ์ ํ์ตํ๊ณ smooth skill switching์ ์คํ
- Contact graph: ๋ค์ํ ์ํธ์์ฉ skill์ ์ ์ฉ ๊ฐ๋ฅํ ์ผ๋ฐ์ ์ธ ์ ์ด ๋ชจ๋ธ๋ง ๋ฐฉ๋ฒ์ผ๋ก precise contact imitation ๋ฌ์ฑ
- ํตํฉ HOI imitation reward: skill-specific reward ์์ด diverse interaction pattern์ ํจ๊ณผ์ ์ผ๋ก captureํ๋ ํตํฉ reward ์ค๊ณ
- ๊ณ์ธต์ ๊ธฐ์ ํฉ์ฑ: ํ์ต๋ interaction skill์ ๊ณ ์์ค controller๋ก ์ฌ์ฌ์ฉํ์ฌ ์ฐ์ ๋์ ๊ฐ์ ์ฅ๊ธฐ ๋ณตํฉ ์์
๋ฌ์ฑ
- BallPlay ๋ฐ์ดํฐ์
: RGB ๋น๋์ค ๊ธฐ๋ฐ BallPlay-V(8๊ฐ ๊ธฐ์ )์ optical motion capture ๊ธฐ๋ฐ BallPlay-M(35๋ถ)์ ๋ ๋๊ตฌ HOI ๋ฐ์ดํฐ์
๊ณต๊ฐ
How
Fig. 3 (b) shows the training pipeline of SkillMimic. Given
- HOI state transition์ผ๋ก interaction skill์ ์ ์ํ์ฌ reference motion๊ณผ์ ์ํ ์ ์ด ์ผ์น๋ ๊ธฐ๋ฐ ํ์ต
- Contact graph๋ฅผ ์ฌ์ฉํ์ฌ humanoid์ object ๊ฐ์ physical contact๋ฅผ explicitly ๋ชจ๋ธ๋ง ๋ฐ reward ์ค๊ณ
- Kinematic motion matching, contact reward, object state reward๋ก ๊ตฌ์ฑ๋ ํตํฉ HOI imitation reward ๊ตฌ์ฑ
- Single IS policy๋ก ๋ค์ค ๊ธฐ์ ํ์ต ๋ฐ smooth transition ์ง์
- High-level policy๋ฅผ ๋ณ๋ ํ์ตํ์ฌ IS policy์ ๊ธฐ์ ์กฐํฉ์ผ๋ก ๋ณตํฉ ์์
์ํ
- Motion capture ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ฐ humanoid controller integration์ ํตํ ์ค์ ๊ตฌํ
Originality
- ์ฒซ ํตํฉ HOI imitation ํ๋ ์์ํฌ: ๊ธฐ์กด locomotion ๋ชจ๋ฐฉ ๋ฐฉ๋ฒ์ interaction skill๋ก ํ์ฅํ๋, contact ๋ฐ relative motion์ unbalanced reward ๋ฌธ์ ๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ํด๊ฒฐ
- Contact graph ์ ์: ๊ธฐ์กด interaction graph์ kinematic ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ physical contact๋ฅผ explicitly ์ฐ์ ์ํ๋ ์๋ก์ด ๋ชจ๋ธ๋ง ๋ฐฉ์
- Skill ํฉ์ฑ์ ํตํ ์ฅ๊ธฐ ์์
: ๊ฐ๋ณ interaction skill ํ์ต๊ณผ ๊ณ ์์ค ์ ์ด์ ์กฐํฉ์ผ๋ก ์ฒ์ ์ฐ์ ๋๊ตฌ ๋์ ๋ฌ์ฑ
- Data-driven scalability ์
์ฆ: dataset ๊ท๋ชจ ์ฆ๊ฐ์ ๋ฐ๋ฅธ skill ๋ค์์ฑ ๋ฐ ์ผ๋ฐํ ๊ฐ์ ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์
Limitation & Further Study
- ๋๊ตฌ domain์ ํนํ๋์ด ์์ผ๋ฉฐ ๋ค๋ฅธ ๋ณต์กํ ์ํธ์์ฉ(์: ์
๊ธฐ ์ฐ์ฃผ, ์ธ๋ฐํ ์๊ณต์)์ผ๋ก์ ์ผ๋ฐํ ๊ฒ์ฆ ๋ถ์ฌ
- High-level task ํฉ์ฑ์ ์ํ reward ์ค๊ณ ๋ฐ hierarchical policy ํ์ต ๊ณผ์ ์ด ์ฌ์ ํ ์์์
๊ฐ์
ํ์
- Contact graph๊ฐ ๋ชจ๋ ์ ํ์ ์ํธ์์ฉ์ ๋๋ฑํ๊ฒ ํจ๊ณผ์ ์ธ์ง์ ๋ํ ๋ถ์ ๋ถ์กฑ
- Real robot ์ค๋ฌด ์ ์ฉ ์ sim-to-real transfer ๊ฒ์ฆ ํ์
- ํ์ ์ฐ๊ตฌ: (1) ๋ค์ํ domain์ HOI ๋ฐ์ดํฐ์
์์ง ๋ฐ cross-domain generalization ์ฐ๊ตฌ, (2) high-level policy ํ์ต์ ์๋ํ, (3) sim-to-real transfer ๊ธฐ๋ฒ ๊ฐ๋ฐ, (4) ๋ ๋ณต์กํ multi-agent ์ํธ์์ฉ ํ์ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: SkillMimic์ skill-specific reward ์ ๊ฑฐ๋ฅผ ํตํด ์ํธ์์ฉ ๊ธฐ์ ํ์ต์ ์ค์ฉ์ฑ์ ํ์ ์ ์ผ๋ก ๊ฐ์ ํ์ผ๋ฉฐ, contact graph์ ํตํฉ HOI reward ์ค๊ณ๋ ๊ธฐ์ ์ ์ผ๋ก ๊ฒฌ๊ณ ํ๊ณ ๋๊ตฌ ๋ฐ์ดํฐ์
๊ธฐ์ฌ์ ํจ๊ป ์ด ๋ถ์ผ์ significant advance๋ฅผ ์ด๋ฃฌ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์