Learning Athletic Humanoid Tennis Skills from Imperfect Human Motion Data (LATENT)
์ ์: Zhikai Zhang, Haofei Lu, Yunrui Lian, Ziqing Chen, Yun Liu, Chenghuai Lin, Han Xue, Zicheng Zeng, Zekun Qi, Shaolin Zheng, Qing Luan, Jingbo Wang, Junliang Xing, He Wang, Li Yi | ๋ ์ง: 2026-03-13 | URL: https://arxiv.org/abs/2603.12686 📄 PDF
Essence
Figure 2 Overview of LATENT. (a) We pre-train a motion tracker on collected imperfect human motion data. (b) We construc
LATENT๋ ๋ถ์์ ํ ์ธ๊ฐ ๋ชจ์
๋ฐ์ดํฐ(5์๊ฐ ๋ถ๋์ ํ
๋์ค ํ๋ฆฌ๋ฏธ๋ธ)๋ก๋ถํฐ ์์ ๊ฐ๋ฅํ ์ ์ฌ ํ๋ ๊ณต๊ฐ์ ๊ตฌ์ฑํ๊ณ , ๊ณ ์์ค ์ ์ฑ
์ผ๋ก ์ด๋ฅผ ๋ณด์ ยทํฉ์ฑํ์ฌ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ์ธ๊ฐ๊ณผ์ ๋ฉํฐ์ท ํ
๋์ค ๋ ๋ฆฌ๋ฅผ ์ํํ๋๋ก ํ์ตํ๋ ์์คํ
์ด๋ค.
Motivation
- Known: ์ธ๊ฐ ๋ชจ์
๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์ ์ฌ ํ๋ ๊ณต๊ฐ ํ์ต์ ๊ธฐ์กด ์ฐ๊ตฌ์์ ๋ค๋ฃจ์ด์ ธ ์์ผ๋ฉฐ, ์ต๊ทผ humanoid ๋ก๋ด์ ์คํฌ์ธ ๋ฅ๋ ฅ ํฅ์์ด ์งํ ์ค์ด๋ค. ๊ทธ๋ฌ๋ ์์ ํ๊ณ ์ ํํ ํ
๋์ค ๋ชจ์
๋ฐ์ดํฐ ์์ง์ ์ด๋ ค์์ด ์์๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ ์์ ํ๊ณ ์ ํํ ์ธ๊ฐ-ํ
๋์ค ๋ชจ์
์ํ์ค ์์ง์ ์๊ตฌํ๊ฑฐ๋ ๋ณต์กํ ๋น๋์ค ์ฒ๋ฆฌ ํ์ดํ๋ผ์ธ์ด ํ์ํ๋ค. ๋ถ์์ ํ ๋ชจ์
ํ๋ฆฌ๋ฏธํฐ๋ธ๋ง์ผ๋ก ์ด๋๋ฅ๋ ฅ ๋์ ํ
๋์ค ๊ธฐ์ ์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์ฌํ๋ค.
- Why: ํ
๋์ค๋ ์์ 15-30 m/s์ ๊ณ ์ ๊ณต์ ๋ฐ๋ฆฌ์ด ๋จ์๋ก ๋ฐ์ํด์ผ ํ๋ฉฐ, ๋์ ๋ฒ์์ ์์ง์๊ณผ ์ ๋ฐํ ์๋ชฉ ์กฐ์ ์ด ํ์ํด humanoid ๋ก๋ด์ athletic ๋ฅ๋ ฅ์ ๊ฒ์ฆํ๋ ์ข์ ๋ฒค์น๋งํฌ์ด๋ค.
- Approach: ์ธ ๋จ๊ณ ํ์ดํ๋ผ์ธ์ผ๋ก, ์ฒซ์งธ compact motion capture๋ก 5๋ช
์ ์ ์๋ก๋ถํฐ 5์๊ฐ์ ํ๋ฆฌ๋ฏธํฐ๋ธ ์คํฌ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ , ๋์งธ ์์ ๊ฐ๋ฅํ latent action space๋ฅผ motion tracker์ variational information bottleneck์ผ๋ก ๊ตฌ์ฑํ ํ, ์
์งธ latent action barrier๋ฅผ ํตํด high-level policy๊ฐ task ์ฑ๋ฅ๊ณผ ์์ฐ์ค๋ฌ์ด ๋์์ ๊ท ํ์๊ฒ ํ์ตํ๋๋ก ํ๋ค.
Achievement
Figure 1 (a) The humanoid performs multi-shot rallies with a human player using different stroke types across various co
- Correctable latent space: ๋ถ์์ ํ ๋ชจ์
๋ฐ์ดํฐ์์ high-level policy์ ๋ณด์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ latent action space ์ค๊ณ
- Latent action barrier (LAB): state-based action distribution prior๋ฅผ ์ด์ฉํด RL ํ์์ ์ ์ฝํ๋ฉฐ task ์ฑ๋ฅ๊ณผ motion style adherence์ ๊ท ํ์ ๋ฌ์ฑ
- Sim-to-real transfer: dynamics randomization๊ณผ observation noise ์ ์ฉ์ผ๋ก robust real-world deployment ๋ฌ์ฑ
- Real-world demonstration: Unitree G1 humanoid์์ ์ธ๊ฐ ํ๋ ์ด์ด์ ์์ ์ ์ธ ๋ฉํฐ์ท ๋ ๋ฆฌ ์ํ, ์ต๊ณ 15 m/s ์ด์์ ๊ณ ์ ๊ณต ํ๊ฒฉ ์ฑ๊ณต
How
Figure 2 Overview of LATENT. (a) We pre-train a motion tracker on collected imperfect human motion data. (b) We construc
- Motion capture: 3mร5m์ compact ์์คํ
์์ 5๋ช
์ ์ ์๋ก๋ถํฐ forehand, backhand, lateral shuffle, crossover step ๋ฑ์ ํ๋ฆฌ๋ฏธํฐ๋ธ ์คํฌ ์์ง
- Motion retargeting: LocoMuJoCo๋ฅผ ์ฌ์ฉํด ์ธ๊ฐ ๋ชจ์
์ humanoid ๋ชจ์
์ผ๋ก ๋ณํ
- Motion tracker pre-training: ์์ง๋ imprecise ๋ชจ์
์ ๋ชจ๋ฐฉํ๋๋ก tracker ํ์ต
- Latent space distillation: variational information bottleneck์ ํตํด motion tracker๋ฅผ latent model๋ก ์ฆ๋ฅ
- High-level policy training: PPO๋ฅผ ์ฌ์ฉํด latent space์์ samplingํ๊ณ wrist correction์ ์์ธกํ๋ฉฐ task reward์ latent action barrier constraint๋ฅผ ๊ณ ๋ ค
- Sim-to-real: ๋ก๋ด๊ณผ ํ
๋์ค๊ณต์ ๋์ญํ randomization ๋ฐ ๊ด์ธก ๋
ธ์ด์ฆ ์ ์ฉ
Originality
- ๋ถ์์ ๋ฐ์ดํฐ์ ์ฒด๊ณ์ ํ์ฉ: imprecise์ incomplete ๋ชจ์
๋ฐ์ดํฐ์ ํน์ฑ์ ๋ช
์์ ์ผ๋ก ์ ์ํ๊ณ ๊ฐ๊ฐ์ ๋์ํ๋ ์ค๊ณ ์ ์
- Wrist correction ๋ฉ์ปค๋์ฆ: ๋์ ์ ๋ฐ๋๊ฐ ํ์ํ racket swing ๋ณด์ ์ latent space ์์์ high-level policy๋ก ํด๊ฒฐ
- Latent action barrier: state-based distribution prior ๊ธฐ๋ฐ์ novel constraint๋ก task ์ฑ๋ฅ๊ณผ motion naturalness์ trade-off ํด๊ฒฐ
- Real-world athletic ์คํฌ์ธ ๊ตฌํ: humanoid ๋ก๋ด์ ๋น ๋ฅธ ๋ฐ์๊ณผ ์ ๋ฐํ ์์ง์์ด ๋์์ ์๊ตฌ๋๋ ํ
๋์ค ๋ ๋ฆฌ์ ์ค์ธ๊ณ ๊ตฌํ
Limitation & Further Study
- ๋ฐ์ดํฐ ์์ง์ ํ๊ณ: 5๋ช
์ amateur ์ ์๋ก๋ถํฐ 5์๊ฐ๋ง ์์งํ์ผ๋ฉฐ, professional ์ ์์ ๋ฐ์ดํฐ๋ ๋ ๋ค์ํ ์คํ์ผ ๋ฏธํฌํจ
- ๋ชจ์
์บก์ฒ ์์คํ
์ ์ ์ฝ: 3mร5m ์์ญ ๋ด์์์ ํ๋ฆฌ๋ฏธํฐ๋ธ๋ง ์์ง ๊ฐ๋ฅ, ์ ๋ฐ์ ์ธ ์ฝํธ ์ปค๋ฒ๋ฆฌ์ง๋ ๊ณ ์ ์ด๋ ์คํฌ์ ์์ ์ฑ ๋ฏธ๋ณด์ฅ
- ์ผ๋ฐํ ์ฑ๋ฅ: wrist correction์ด ํน์ swing ์คํ์ผ์ ์ต์ ํ๋์์ ๊ฐ๋ฅ์ฑ, ์๋ก์ด strike ๊ฐ๋๋ ์๋์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ ๋ฏธํ๊ฐ
- Real-world ๊ฒ์ฆ ์ ํ: Unitree G1 ๋จ์ผ ๋ก๋ด์์๋ง ๊ฒ์ฆ๋์์ผ๋ฉฐ, ๋ค๋ฅธ humanoid ํ๋ซํผ์ผ๋ก์ ์ ์ด ์ฑ๋ฅ ๋ฏธํ์ธ
- ์๋๋ฐฉ ์์ธก ๋ฅ๋ ฅ: ์ธ๊ฐ ์๋์ ๋์ ์์ธก ์์ด ๊ณ ์ ๋ ball trajectory์ ๋์ํ๋ ์์ค, ์ง์ ํ interactive rally์ ๋ณต์ก์ฑ ๋ฏธํด๊ฒฐ
- ํ์์ฐ๊ตฌ ๋ฐฉํฅ: (1) professional player ๋ฐ์ดํฐ ํฌํจ, (2) ๋ ๋ค์ํ court position๊ณผ strike ์กฐ๊ฑด์ ๋ํ ์ผ๋ฐํ, (3) ์๋๋ฐฉ์ ์์ง์์ ์์ธกํ๊ณ ๋์ํ๋ ๋ฅ๋ ฅ ํ์ฅ, (4) ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ transfer learning
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๋ถ์์ ํ ๋ชจ์
๋ฐ์ดํฐ๋ก๋ถํฐ athletic humanoid ์คํฌ์ธ ๊ธฐ์ ์ ํ์ตํ๋ ์ค์ง์ ์ด๊ณ ์ฐฝ์์ ์ธ ์์คํ
์ ์ ์ํ๋ฉฐ, correctable latent space์ latent action barrier๋ผ๋ ๋ ๊ฐ์ง novel design์ผ๋ก imperfect data์ ํ๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ทน๋ณตํ๋ค. Real-world humanoid ๋ก๋ด์์ ์ธ๊ฐ๊ณผ์ ๋ฉํฐ์ท ํ
๋์ค ๋ ๋ฆฌ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ๊ตฌํํ ์ ์ด ์ด ๋ถ์ผ์ ์ค์ํ ์ด์ ํ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์