Learning Agile Striker Skills for Humanoid Soccer Robots from Noisy Sensory Input
์ ์: Zifan Xu, Myoungkyu Seo, Dongmyeong Lee, Hao Fu, Jiaheng Hu, Jiaxun Cui, Yuqian Jiang, Zhihan Wang, Anastasiia Brund, Joydeep Biswas, Peter Stone | ๋ ์ง: 2025-12-10 | DOI: 10.48550/arXiv.2512.06571 📄 PDF
Essence
Fig. 2: Left: The network architectures for the teacher and the student network; Right: Multi-stage training framework:
์ด ๋
ผ๋ฌธ์ reinforcement learning ๊ธฐ๋ฐ์ 4๋จ๊ณ ํ์ต ํ๋ ์์ํฌ๋ฅผ ํตํด ์ธ๊ฐํ ๋ก๋ด์ด ๋
ธ์ด์ฆ๊ฐ ์๋ ์ผ์ ์
๋ ฅ์์๋ ๊ฐ๊ฑดํ ๋ณผ ํนํน ๊ธฐ์ ์ ์ต๋ํ๋๋ก ํ๋ ์์คํ
์ ์ ์ํ๋ค.
Motivation
- Known: ์ธ๊ฐํ ๋ก๋ด์ whole-body control์ locomotion๊ณผ manipulation ๋ถ์ผ์์ RL์ ํตํด ์ฑ๊ณต์ ์ผ๋ก ํ์ต๋์ด ์๋ค. ์ฌ์กฑ ๋ก๋ด์ soccer ์์
์์ ๋์ ์์ ์ฑ์ ๊ฐ์ง๊ณ ์์ด ์ด๋ฏธ ํ๋ ฅ ํ๋ ์ด์ ์ ํํ ์ํ
์ ๋ฌ์ฑํ๋ค.
- Gap: ์ธ๊ฐํ ๋ก๋ด์ ball-kicking์ ๋น ๋ฅธ ๋ค๋ฆฌ ์ค์, ํ ๋ฐ ์ง์ง์์์ ์์ธ ์์ ์ฑ, ๊ทธ๋ฆฌ๊ณ ๋
ธ์ด์ฆ๊ฐ ์๋ ์ง๊ฐ ํ์์์ ๊ฐ๊ฑด์ฑ์ด ๋์์ ํ์ํ์ง๋ง ์ด๋ฌํ ์กฐ๊ฑด๋ค์ ๋ชจ๋ ๋ค๋ฃจ๋ ์ฐ๊ตฌ๊ฐ ๋ถ์กฑํ๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ ์ธ๊ฐ ํ๊ฒฝ์์ ์๋ํ๋๋ก ์ค๊ณ๋์์ผ๋ฉฐ, soccer ๊ฐ์ ๋์ ์ด๊ณ ์ง๊ฐ-์์กด์ ์์
์ whole-body control์ ์ค์ ์ ์ฉ์ฑ์ ๊ฒ์ฆํ๋ ์ข์ ๋ฒค์น๋งํฌ๊ฐ ๋๋ค.
- Approach: teacher-student ํ๋ ์์ํฌ๋ฅผ ํ์ฅํ์ฌ, teacher๋ ground-truth ์ํ ์ ๋ณด๋ก ํ์ตํ๊ณ student๋ noisy perception์ผ๋ก๋ถํฐ mimicํ๋ ๊ตฌ์กฐ์, 4๋จ๊ณ curriculum ํ์ต(ball chasing โ directional kicking โ policy distillation โ constrained RL adaptation)์ ์ถ๊ฐํ๋ค.
Achievement
Fig. 2: Left: The network architectures for the teacher and the student network; Right: Multi-stage training framework:
- 4๋จ๊ณ curriculum ํ์ต ํ๋ ์์ํฌ: long-distance chasing, directional kicking, DAgger ๊ธฐ๋ฐ policy distillation, N-P3O๋ฅผ ํตํ online adaptation์ ์์ฐจ์ ์ผ๋ก ์ํ
- ํ์ค์ ์ง๊ฐ ๋ชจ๋ธ๋ง: velocity-dependent noise, delayed updates, frame drops๋ฅผ ํฌํจํ์ฌ sim-to-real gap ๊ฐ์
- ๋์ kicking ์ ํ๋: ์ค์ Booster T1 ๋ก๋ด์์ ๋ค์ํ ball-goal ๊ตฌ์ฑ์ ๋ํด ํ๊ท 66.7% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ๊ฐ๊ฑดํ constrained RL ์ ์: heterogeneous credit assignment๋ฅผ ํตํด kick ์ง์ ์ ๋ถ์์ฐ์ค๋ฌ์ด ์์ง์(sharp turning, jittery leg motions) ์ ๊ฑฐ
- ํฌ๊ด์ ablation ์ฐ๊ตฌ: constrained RL, noise modeling, adaptation stage์ ํ์์ฑ์ ์ค์ฆ์ ์ผ๋ก ์
์ฆ
How
Fig. 2: Left: The network architectures for the teacher and the student network; Right: Multi-stage training framework:
- Stage 1 (Teacher policy chasing): privileged ground-truth ball position์ ์ฌ์ฉํ์ฌ long-distance ball chasing ํ์ต, aggressive domain randomization(external pushes)์ผ๋ก imperfect state recovery ์ ๋
- Stage 2 (Teacher policy kicking): teacher policy๋ฅผ ํ์ฅํ์ฌ directional kicking ํ์ต, reward function์ ball-goal alignment์ kick strength ํฌํจ
- Stage 3 (Policy distillation): DAgger๋ฅผ ํตํด teacher policy๋ฅผ student policy๋ก distill, imperfect perception์ velocity-dependent noise model, temporal delays, frame drops๋ก ๋ชจ๋ธ๋ง
- Stage 4 (Adaptation and refinement): N-P3O(constrained RL algorithm)๋ฅผ ์ฌ์ฉํ์ฌ online adaptation, heterogeneous credit assignment๋ก motion refinement ์ํ
- Network architecture: history encoder์ MLP๋ฅผ ์ฌ์ฉํ policy network, proprioceptive + ball/goal position estimate ์
๋ ฅ
- Deployment: ํ์ต๋ student policy๋ฅผ zero-shot์ผ๋ก Booster T1 ๋ก๋ด์ ๋ฐฐํฌ
Originality
- Teacher-student ํ๋ ์์ํฌ์ 4๋จ๊ณ curriculum์ ์ฒด๊ณ์ ์ผ๋ก ๊ตฌ์ฑํ์ฌ progressive skill acquisition ๋ฌ์ฑ
- Velocity-dependent noise model, delayed updates, frame drops๋ฅผ ์ข
ํฉ์ ์ผ๋ก ํฌํจํ ํ์ค์ ์ง๊ฐ ๋ชจ๋ธ๋ง
- Constrained RL(N-P3O)๊ณผ heterogeneous credit assignment๋ฅผ ๊ฒฐํฉํ์ฌ motion refinement ๋ฌธ์ ํด๊ฒฐ
- Humanoid ball-kicking์ visuomotor whole-body control์ ๋ฒค์น๋งํฌ ์์
์ผ๋ก ์ฒด๊ณํ
Limitation & Further Study
- ์ค์ ๋ก๋ด ํ๊ฐ๊ฐ Booster T1 ํ ์ข
๋ฅ์ ๋ก๋ด์๋ง ์ ํ๋จ, ๋ค๋ฅธ ํํ์ ์ธ๊ฐํ ๋ก๋ด์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธํ์ธ
- 66.7% ์ฑ๊ณต๋ฅ ์ ์ค์ soccer ๊ฒฝ๊ธฐ์ ์ถฉ๋ถํ์ง ์์ ์ ์์ผ๋ฏ๋ก, ์ถ๊ฐ์ ์ธ robustness ํฅ์ ํ์
- ๋
ผ๋ฌธ์์ computational cost์ ํ์ต ์๊ฐ์ ๋ํ ์์ธํ ๋ถ์ ๋ถ์ฌ
- ์ธ๋ถ perturbation(opponents์ ์ถฉ๋)์ ๋ํ ๊ตฌ์ฒด์ ์ธ ๋์ ์ ๋ต์ด ์ ํ์ ์
- ํ์ ์ฐ๊ตฌ: ๋ค์ํ humanoid morphology์ ๋ํ ์ผ๋ฐํ, real-time adaptation ๋ฉ์ปค๋์ฆ ๊ฐ์ , multi-agent soccer ์๋๋ฆฌ์ค๋ก์ ํ์ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ noisy perception ํ๊ฒฝ์์ ์ธ๊ฐํ ๋ก๋ด์ ๋ณต์กํ ๋์ ๊ธฐ์ ์ ํ์ตํ๋ ํ์ค์ ์ด๊ณ ์ฒด๊ณ์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, 4๋จ๊ณ curriculum, ํ์ค์ ์ง๊ฐ ๋ชจ๋ธ๋ง, constrained RL ์ ์์ ์กฐํฉ์ผ๋ก sim-to-real gap์ ํจ๊ณผ์ ์ผ๋ก ๊ฐ์์์ผฐ๋ค. ์ค์ ๋ก๋ด ์คํ ๊ฒฐ๊ณผ์ ํฌ๊ด์ ablation ์ฐ๊ตฌ๋ ์ ์ ๋ฐฉ๋ฒ์ ํ๋น์ฑ์ ์ ์
์ฆํ๊ณ ์์ผ๋, ๋จ์ผ ๋ก๋ด ํ๋ซํผ ํ๊ฐ์ 66.7% ์ฑ๊ณต๋ฅ ์ด ์ค๋ฌด ์ ์ฉ์ฑ์ ์ํด์๋ ์ถ๊ฐ ๊ฐ์ ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์