Humanoid Goalkeeper: Learning from Position Conditioned Task-Motion Constraints
์ ์: Junli Ren, Junfeng Long, Tao Huang, Huayi Wang, Zirui Wang, Feiyu Jia, Wentao Zhang, Jingbo Wang, Ping Luo, Jiangmiao Pang | ๋ ์ง: 2026-03-14 | DOI: 10.48550/arXiv.2510.18002 📄 PDF
Essence
Fig. 2: Method framework: We train our policy using an end-to-end
์ธ๊ฐํ ๋ก๋ด์ ๊ณจํคํผ ์ญํ ์ ์ํด ์์น ์กฐ๊ฑด๋ถ task-motion constraints๋ฅผ ํ์ตํ๋ end-to-end RL ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์ธ๊ฐ ๋ชจ์
ํ๋ผ์ด์ด๋ฅผ adversarial scheme์ผ๋ก ํตํฉํ์ฌ ์๋ํ๋๊ณ ์ธ๊ฐ๋ค์ด ์ ์ ๋์์ ์์ฑํ๋ค.
Motivation
- Known: ์ฌ์กฑ ๋ก๋ด์ ๋์ ๊ฐ์ฒด ์ํธ์์ฉ ๋ฅ๋ ฅ๊ณผ imitation learning์ ํตํ ์ธ๊ฐ ๋ชจ์
์คํฌ ์ ์ด๊ฐ ์์ฐ๋์์ผ๋, ์ธ๊ฐํ ๋ก๋ด์ ๋์ ๋ณดํธ ๋ฒ์ ์ปค๋ฒ์ ์์ฐ์ค๋ฌ์ด ์ ์ ๋์ ์์ฑ์ ์ฌ์ ํ ๋ฏธํด๊ฒฐ ๊ณผ์ ์ด๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ์๋ค์ teleoperation์ด๋ ๊ณ ์ motion tracking์ ์์กดํ๊ฑฐ๋ ์ฌ์ ์ ์๋ motion primitives๋ก ์ ํ๋์ด ์์ผ๋ฉฐ, ๊ด๋ฒ์ํ interception ๋ฒ์๋ฅผ ์ปค๋ฒํ๋ฉด์ ๋์์ ์ธ๊ฐ๋ค์ด ์์ง์์ ์์ฑํ๋ ๋จ์ผ ํตํฉ ์ ์ฑ
์ด ๋ถ์ฌํ๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ ๊ณจํคํผ ๋ฅ๋ ฅ์ ์ง๊ฐ, ์์ฌ๊ฒฐ์ , ๋ฏผ์ฒฉํ ๋ชจํฐ ์ ์ด๋ฅผ ํตํฉํด์ผ ํ๋ฉฐ, ์ด๋ ๋ก๋ด์ ๋ฌผ๋ฆฌ์ ์ง๋ฅ ํ๊ฐ๋ฅผ ์ํ ์ค์ํ ๋ฒค์น๋งํฌ์ด์ ์ค์๊ฐ ๋์ ์ํธ์์ฉ ๊ธฐ์ ๋ฐ์ ์ ์ํ ํต์ฌ์ด๋ค.
- Approach: PPO ์๊ณ ๋ฆฌ์ฆ๊ณผ IsaacGym ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ task ๋ณด์๊ณผ motion discriminator๋ฅผ ball ์ฐฉ์ง ์์ญ์ ๋ฐ๋ผ ์กฐ๊ฑดํํ๊ณ , adversarial training scheme์ผ๋ก task ์ฑ๊ณต๊ณผ motion realism์ ๋์์ ์ต์ ํํ๋ ๋ฐฉ์์ ์ฑํํ๋ค.
Achievement
Fig. 1: We present Humanoid Goalkeeper, capable of performing goalkeeping tasks across various regions with a wide opera
- End-to-end RL ์ ์ฑ
: ๋ณ๋์ ์ต์ ํ ๋จ๊ณ ์์ด task ์ฑ๊ณต๊ณผ motion realism์ jointly enforceํ๋ ํตํฉ ํ๋ ์์ํฌ ๋ฌ์ฑ
- ๊ด๋ฒ์ํ operational coverage: ์์น ์กฐ๊ฑด๋ถ motion priors๋ฅผ ํตํด ๋์ ๋ณดํธ ๋ฒ์๋ฅผ ์ปค๋ฒํ๋ฉด์ ๋น ๋ฅธ ์๋ต ์๊ฐ ์ ์ง
- ์ค์๊ฐ ์๋ ์ธํฐ์
์
: ๊ณ ์ ๋นํ ๊ณต์ ๋ฏผ์ฒฉํ๊ณ ์๋ํ๋ ์ธ๊ฐ๋ค์ด ์ธํฐ์
์
์ฑ๋ฅ ์ค์ฆ
- ์ผ๋ฐํ ๋ฅ๋ ฅ: ๊ณจํคํผ ์ธ์๋ ball escaping, grabbing ๋ฑ ๊ด๋ จ ๋์ ์ํธ์์ฉ ํ์คํฌ๋ก ์ ๊ทผ๋ฒ ํ์ฅ ์์ฐ
- ์ค์ ํ๋์จ์ด ๋ฐฐํฌ: sim-to-real ๊ฐญ ํ์๋ฅผ ์ํ ์ง๊ฐ ๋
ธ์ด์ฆ, ๊ถค์ ์ถ์ , ๋ฉํฐ๋ชจ๋ฌ ์ผ์ฑ ํตํฉ์ผ๋ก ์ค์ ์ธ๊ฐํ ๋ก๋ด์์ ์ฑ๊ณต์ ๋ฐฐํฌ
How
Fig. 2: Method framework: We train our policy using an end-to-end
- Training environment์ k๊ฐ regions์ผ๋ก ๋ถํ ํ๊ณ ๊ฐ region์ ๋์ํ๋ ball landing position์ ์ํ๋ง
- Ball position (Oball)๊ณผ proprioceptive observations (Op)๋ฅผ actor input์ผ๋ก ์ฌ์ฉํ๋ฉฐ, ์๊ฐ ์ ๋ณด ์บก์ฒ๋ฅผ ์ํด ๊ธธ์ด T์ history ์ ์ง
- Position-conditioned task reward rt๋ฅผ sigmoid ํจ์ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณํ์ฌ end-effector๊ฐ ๋์ ํ๊ฒ ptarget์ ๋๋ฌํ๋๋ก ์ ๋
- Ball ๊ฑฐ๋ฆฌ์ ๋ฐ๋ผ ์์ธก๋ ์ฐฉ์ง์ (pland)๊ณผ ์ค์ ball position(pball) ๊ฐ switching์ ํตํด ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ ํ๊ฒํ
์ต์ ํ
- Motion priors๋ฅผ ball landing region R์ ๋ฐ๋ผ ์กฐ๊ฑดํ๋ discriminator๋ฅผ ํตํด adversarial training์ผ๋ก ํตํฉ
- Onboard camera ๋๋ MoCap ์์คํ
๋ชจ๋ ํธํ ๊ฐ๋ฅํ๋๋ก ๋ก์ปฌ ํ๋ ์ ๊ธฐ๋ฐ ๊ด์ธก ์ค๊ณ
- PPO ์๊ณ ๋ฆฌ์ฆ์ผ๋ก task reward์ motion discriminator ์์ค์ joint optimization
Originality
- ๊ธฐ์กด์ ๊ณ ์ motion primitives๋ pre-learned skills ์ ํ ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, ๊ด์ธก ์กฐ๊ฑดํ๋ adversarial training์ ํตํด position-specific motion priors๋ฅผ end-to-end ์ ์ฑ
์ผ๋ก ํตํฉํ๋ ์๋ก์ด ์ ๊ทผ๋ฒ
- Ball landing position์ ๊ธฐ๋ฐ์ผ๋ก constraint space๋ฅผ ๋ถํ ํ๋ position-conditioned task reward ์ค๊ณ๋ก ๊ด๋ฒ์ํ operational range ๋ฌ์ฑ
- Humanoid ํ๋ซํผ์์ millisecond-level ๋์ ์ํธ์์ฉ์ ์ฒ์์ผ๋ก ์์ฐํ๋ฉฐ, quadruped ๊ธฐ๋ฐ์ ์ ํ ์ฐ๊ตฌ๋ณด๋ค ๋ณต์กํ ์ ์ ์ ์ด ๋ฌธ์ ํด๊ฒฐ
- Real-world feasibility๋ฅผ ์ํด perception noise, trajectory estimation, multi-modal sensing์ training loop์ ๋ช
์์ ์ผ๋ก ํตํฉํ๋ ์ค์ฉ์ ์ ๊ทผ๋ฒ
Limitation & Further Study
- ๋
ผ๋ฌธ์์ ์ค์ ์ฑ๊ณต๋ฅ , ์คํจ ์ฌ๋ก, ํ๊ณ ์ํฉ(์: ๊ทน๋๋ก ๋น ๋ฅธ ๊ณต, ๋ณต์กํ ๊ถค์ )์ ๋ํ ์ ๋์ ๋ถ์ ๋ถ์ฌ
- Position-conditioned approach์ region ๊ฐ์ k์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ ๋ฐ ์ต์ k ๊ฐ ๊ฒฐ์ ๊ธฐ์ค์ด ๋ช
ํํ์ง ์์
- Adversarial training์ discriminator ์์ค ๊ฐ์ค์น์ task reward ๊ฐ์ trade-off ๋ถ์ ๋ฏธํก
- ๋จ์ผ ๋ก๋ด ํ๋ซํผ์์์ ๊ฒ์ฆ์ผ๋ก ๋ค์ํ humanoid ์ํคํ
์ฒ์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- Motion prior ๋ฐ์ดํฐ์ ๋ค์์ฑ๊ณผ ํ์ง์ด ์ต์ข
์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ ๋ถ์ ํ์
- Sim-to-real ๊ฐญ ํ์ ๊ณผ์ ์์ ์ด๋ค ์๋ฎฌ๋ ์ด์
ํ๋ผ๋ฏธํฐ(๋ง์ฐฐ, ์ง๋, ์ผ์ ์ง์ฐ ๋ฑ)๊ฐ ๊ฐ์ฅ ์ค์ํ์ง์ ๋ํ ablation study ๋ถ์ฌ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ position-conditioned adversarial motion priors๋ฅผ ํตํด humanoid ๋ก๋ด์ ์๋ํ๋๊ณ ์ธ๊ฐ๋ค์ด ๊ณจํคํผ ๋ฅ๋ ฅ์ ์ฒ์์ผ๋ก ์์ฐํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ฉฐ, ์ค์ ํ๋์จ์ด ๋ฐฐํฌ์ task ์ผ๋ฐํ๋ฅผ ํตํด ์ค์ฉ์ฑ์ ์
์ฆํ์ผ๋, ์ ๋์ ๋ถ์๊ณผ ablation study๊ฐ ๊ฐํ๋ ํ์๊ฐ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์