Learning Human-Like Badminton Skills for Humanoid Robots
์ ์: Yeke Chen, Shihao Dong, Xiaoyu Ji, Jingkai Sun, Zeren Luo, Liu Zhao, Jiahui Zhang, Wanyue Li, Ji Ma, Bowen Xu, Yimin Han, Yudong Zhao, Peng Lu | ๋ ์ง: 2026-02-09 | DOI: 10.48550/arXiv.2602.08370 📄 PDF
Essence
Fig. 2: Overview of the Framework. The pipeline progressively transforms a kinematic imitator into a dynamic striker thr
ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ๋ฐฐ๋๋ฏผํด ๊ธฐ์ ์ ์ต๋ํ๋๋ก ํ๋ Imitation-to-Interaction ์ ์ง์ ๊ฐํํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์๋ฎฌ๋ ์ด์
์์ ์ค์ ๋ก๋ด์ผ๋ก์ ์ ๋ก์ท sim-to-real ์ ์ด๋ฅผ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ณต์กํ ์ ์ ์ด๋ ๋ชจ๋ฐฉ์ด๋ ์ ์ ์กฐ์์ ๊ฐ๋ฅํ์ง๋ง, ์ธ๊ฐ๋ต๊ณ ๊ธฐ๋ฅ์ ์ธ ๋์ ์ํธ์์ฉ์ ๋์์ ๋ฌ์ฑํ๊ธฐ ์ด๋ ต๋ค. ์ต๊ทผ AMP ๋ฑ ๋ชจ์
ํ๋ผ์ด์ด ๊ธฐ๋ฐ ํ์ต๊ณผ ์คํฌ์ธ ๋ก๋ณดํฑ์ค ์ฐ๊ตฌ๊ฐ ์งํ๋์๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ ์ด๋ํ์ ๋ชจ๋ฐฉ๊ณผ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์ํธ์์ฉ ์ฌ์ด์ ๊ฐ๊ฒฉ์ ๊ทน๋ณตํ์ง ๋ชปํ์ผ๋ฉฐ, ๋ฐฐ๋๋ฏผํด์ฒ๋ผ ์ ํํ ํ์ด๋ฐ, ๋์ ์๋, ์ ์ ํ์์ด ๋ชจ๋ ํ์ํ ๋์ ์ ์คํฌ์ธ ์์ ์ธ๊ฐ๋ต๊ณ ๊ธฐ๋ฅ์ ์ธ ์ฑ๋ฅ์ ์คํํ์ง ๋ชปํ๋ค.
- Why: ๋ฐฐ๋๋ฏผํด์ explosive whole-body coordination๊ณผ timing-critical interception์ ๋์์ ์๊ตฌํ๋ ์ต๊ณ ๋๋ ์คํฌ์ธ ๋ก, ๋ก๋ด์ ์ง๊ฐ-์์ฌ๊ฒฐ์ -์ด๋ ์คํ์ ํตํฉ์ ํ
์คํธํ๋ ์ด์์ ์ธ ๋ฒค์น๋งํฌ์ด๋ฉฐ, ์ฑ๊ณตํ๋ฉด ๋ฒ์ฉ ๋ก๋ด ๋ฅ๋ ฅ ํฅ์์ ๊ธฐ์ฌํ ์ ์๋ค.
- Approach: 4๋จ๊ณ ํ์ดํ๋ผ์ธ์ผ๋ก (1) ๋ชจ์
์บก์ฒ ๋ฐ์ดํฐ๋ก๋ถํฐ robust motor prior ํ์ต, (2) goal-conditioned distillation์ ํตํด Time-to-Hit, Target Hit State ๋ฑ model-based state representation์ผ๋ก ์์ถ, (3) AMP๋ฅผ ํ์ฉํ ์์ ํ, (4) manifold expansion ์ ๋ต์ผ๋ก ํฌ์ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ง ์ํธ์์ฉ ๋ณผ๋ฅจ์ผ๋ก ์ผ๋ฐํํ์ฌ '๋ชจ๋ฐฉ์'์์ 'ํ๊ฒฉ ์ํ์'๋ก ์งํ์ํจ๋ค.
Achievement
Fig. 1: Real-world Deployment of the System. We present a learning-based framework that enables a humanoid to perform ag
- ์ ๋ก์ท sim-to-real ์ ์ด: ๋ฐฐ๋๋ฏผํด ๊ธฐ์ ์ ์ฒซ ๋ฒ์งธ ์ ์ zero-shot sim-to-real ์ ์ด๋ฅผ ๋ฌผ๋ฆฌ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์์ ์ฑ๊ณต์ ์ผ๋ก ๋ฌ์ฑ
- ๋ค์ํ ๊ธฐ์ ์ต๋: Forehand Lift, Backhand Lift, Drop Shot ๋ฑ ๋ค์ํ ๋ฐฐ๋๋ฏผํด ๊ธฐ์ ์ ์๋ฎฌ๋ ์ด์
์์ ์ต๋ ๋ฐ ์ค์ ํ๊ฒฝ์์ ์คํ
- ์ธ๊ฐ๋ค์ด ๋์ ์ ์ง: ๊ธฐ๋ฅ์ ์ ํ์ฑ์ ํ๋ณดํ๋ฉด์๋ kinetic elegance์ biomechanically efficient posture ์ ์ง
- ํฌ์ ๋ฐ์ดํฐ ๊ทน๋ณต: Manifold expansion ์ ๋ต์ผ๋ก ์ ํ๋ ์ ๋ฌธ๊ฐ ์์ฐ(discrete strike points)์ ๋ฐ์ง ์ํธ์์ฉ ๊ณต๊ฐ์ผ๋ก ์ผ๋ฐํ
How
Fig. 2: Overview of the Framework. The pipeline progressively transforms a kinematic imitator into a dynamic striker thr
- Stage 1 - Imitation: Teacher policy๊ฐ MoCap ๋ฐ์ดํฐ์์ proprioceptive observation๊ณผ imitation goal์ ํ์ฉํด ์ ์ ์ด๋ ์ถ์
- Stage 2 - Distillation: DAgger๋ฅผ ํตํด teacher ์ ์ฑ
์ student policy๋ก ์ฆ๋ฅํ๋ฉฐ, ๊ด์ฐฐ ๊ณต๊ฐ์ proprioception + task goal (target hit/recovery state) + Time-to-Hit๋ก ์ถ์ํ์ฌ ๋ฏธ๋ ๊ถค์ ์ ๋ํ ์์กด์ฑ ์ ๊ฑฐ
- Stage 3 - Stabilization: AMP discriminator๋ฅผ ์ฌ์ฉํ RL fine-tuning์ผ๋ก style reward ์ ์ฉํ์ฌ ์ธ๊ฐ๋ค์ด ์คํ์ผ ์ ์ง ๋ฐ ์ถ์ ์ค์ฐจ ์ต์ํ
- Stage 4 - Interaction: ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ shuttlecock dynamics์์ ์ํธ์์ฉ์ ํตํด ์ ์ฑ
์ ์๊ฐ-๊ณต๊ฐ ๋ฐ์ง manifold๋ก ์ผ๋ฐํ
- Manifold Expansion: ํฌ์ํ ๋ฐ์ดํฐ ์ํ์ ๋ฐ์ง ์ํธ์์ฉ ๋ณผ๋ฅจ์ผ๋ก ํ์ฅํ์ฌ ์ ํํ ํ์ด๋ฐ ๋ฐ ์์น ๋ฌ์ฑ ๊ฐ๋ฅํ๊ฒ ํจ
Originality
- Imitation-to-Interaction ํ๋ ์์ํฌ: ์ด๋ํ์ ๋ชจ๋ฐฉ์์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์ํธ์์ฉ์ผ๋ก์ ์ ์ง์ ์ ํ ๊ตฌ์กฐ๊ฐ ํ์ ์
- Model-based State Representation: Time-to-Hit, Target Hit State, Target Recovery State ๋ฑ ๋ชจ์
ํ๋ผ์ด์ด๋ฅผ ๋ณด์กดํ๋ ํนํ๋ ์ํ ํํ ์ค๊ณ
- Manifold Expansion ์ ๋ต: ํฌ์ expert demonstration์ ๋ฐ์ง ์ํธ์์ฉ ๊ณต๊ฐ์ผ๋ก ์ผ๋ฐํํ๋ ์๋ก์ด ์ ๊ทผ๋ฒ
- End-to-end Zero-shot Sim-to-Real: ๋ฐฐ๋๋ฏผํด ์คํฌ์ธ ๋๋ฉ์ธ์์ ์ธ๊ฐ๋ค์ด ์ ์ ํ์์ ์ฒซ ๋ฒ์งธ ์ฑ๊ณต์ sim-to-real ์ ์ด
Limitation & Further Study
- ํ๊ฒฝ ๋ณ๋์ฑ: ์คํ์ด ์ ํ๋ ๋ฐฐ๋๋ฏผํด ์๋๋ฆฌ์ค์์๋ง ๊ฒ์ฆ๋์์ผ๋ฉฐ, ์๋ก ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ์ด๋ ํ๊ฒฝ ์กฐ๊ฑด์์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ์๋ ํ๋ ์ด์ด ๋ถ์ฌ: ๋ฐฐ๋๋ฏผํด์ ํต์ฌ์ธ ์๋๋ฐฉ๊ณผ์ ๋์ ์ํธ์์ฉ ๋ฐ ์ ์ ์ ๋ต์ด ํฌํจ๋์ง ์์
- shuttlecock ๋ชจ๋ธ๋ง: ์ค์ shuttlecock์ ๋ณต์กํ ๊ณต๊ธฐ์ญํ์ ์์ ํ ํฌํจํ์ง ๋ชปํ์ ๊ฐ๋ฅ์ฑ
- ํ์ฅ์ฑ ํ๊ณ: ๋ณต์กํ 4๋จ๊ณ ํ์ดํ๋ผ์ธ์ผ๋ก ์ธํ ํ์ต ๋น์ฉ๊ณผ ์๋ก์ด ์คํฌ์ธ ๋๋ ๊ธฐ์ ๋ก์ ์ ์ด ๊ฐ๋ฅ์ฑ ๋ถ๋ช
ํ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ค์ค ์์ด์ ํธ ์๋๋ฆฌ์ค์์์ ๊ฒฝ์์ ์ํธ์์ฉ ํ์ต, (2) ๋ ๋ค์ํ ํ๊ฒฝ ์กฐ๊ฑด์์์ robust transfer, (3) ์จ๋ผ์ธ ์ ์ ๋ฉ์ปค๋์ฆ ์ถ๊ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ์คํฌ์ธ ์ ์ด์ ์๋ก์ด ๊ฒฝ๊ณ๋ฅผ ๊ฐ์ฒํ ํ์ ์ ์ฐ๊ตฌ๋ก, Imitation-to-Interaction ํ๋ ์์ํฌ์ manifold expansion ์ ๋ต์ ํฌ์ํ ์ ๋ฌธ๊ฐ ๋ฐ์ดํฐ์์ ๊ณ ๋๋ก ์ ๋ฐํ๊ณ ์ธ๊ฐ๋ค์ด ์ด๋์ ํ์ตํ๋ ๊ฐ๋ ฅํ ์๋ฃจ์
์ ์ ์ํ๋ค. ์ ๋ก์ท sim-to-real ์ ์ด์ ์ฑ๊ณต์ ์ค์ฉ์ ๊ฐ์น๊ฐ ๋์ผ๋, ์๋๋ฐฉ ์ํธ์์ฉ๊ณผ ํ๊ฒฝ ๋ณ๋์ฑ ์ธก๋ฉด์ ์ ํ์ด ๋จ์ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์