Learning Vision-Driven Reactive Soccer Skills for Humanoid Robots
์ ์: Yushi Wang, Changsheng Luo, Penghui Chen, Jianran Liu, Weijian Sun, Tong Guo, Kechang Yang, Biao Hu, Yangang Zhang, Mingguo Zhao | ๋ ์ง: 2025-11-06 | DOI: 10.48550/arXiv.2511.03996 📄 PDF
Essence
Figure 1 System overview. The real-world robot is equipped with an onboard camera for visual perception. Image
๋ณธ ๋
ผ๋ฌธ์ ์๊ฐ ์ธ์๊ณผ ๋ชจ์
์ ์ด๋ฅผ ์ง์ ํตํฉํ ํตํฉ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ปจํธ๋กค๋ฌ๋ฅผ ํตํด ์ธํ ๋ก๋ด์ด ๋ฐ์ํ ์ถ๊ตฌ ๊ธฐ์ ์ ์ต๋ํ ์ ์๋๋ก ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. Adversarial Motion Priors๋ฅผ ์๊ฐ ๊ธฐ๋ฐ ๋์ ์ ์ด ํ๊ฒฝ์ผ๋ก ํ์ฅํ์ฌ ์ค์ RoboCup ๊ฒฝ๊ธฐ์์ ๊ฐ๋ ฅํ ๋ฐ์์ฑ์ ๋ณด์ฌ์ค๋ค.
Motivation
- Known: ๊ธฐ์กด ๋ก๋ด ์ถ๊ตฌ ์์คํ
์ ์ ์์ค ๋ชจํฐ ์คํฌ๊ณผ ๊ณ ์์ค ์ ๋ต์ ๋ถ๋ฆฌํ๋ decoupled ์ํคํ
์ฒ๋ฅผ ์ฌ์ฉํ์์ผ๋ฉฐ, ์ด์ RL ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ๋ค์ ๋ฐ์์ฑ์ด ๋ฎ๊ณ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ํฌ๊ฒ ์์กดํ๋ ๋ฌธ์ ๊ฐ ์์๋ค.
- Gap: ์๊ฐ ๊ธฐ๋ฐ์ ๋ฐ์ํ ์ปจํธ๋กค๋ฌ๊ฐ ์ ์ฝ ์๋ ํ๊ฒฝ์์ ์ผ๊ด๋๊ณ ๊ฐ๊ฑดํ ์ถ๊ตฌ ํ๋์ ์์ฑํ ์ ์๋ open challenge๊ฐ ์กด์ฌํ๋ค. ํนํ ๋
ธ์ด์ฆ ์๋ ์๊ฐ ์
๋ ฅ๊ณผ ์ค์๊ฐ ๋์ ํ๊ฒฝ์์์ perception-action coupling์ด ๋ถ์กฑํ๋ค.
- Why: ์ธํ ๋ก๋ด ์ถ๊ตฌ๋ embodied intelligence์ ๋ํ์ ๊ณผ์ ๋ก์, ์ค์๊ฐ ์๊ฐ ์ถ์ , ๋น ๋ฅธ ์์ฌ๊ฒฐ์ , ์ ์ํ ๊ฐ๊ฐ์ด๋ ์กฐ์ ์ด ํ์ํ๋ฉฐ, ์ด๋ ๋น์ ํ ๋์ ํ๊ฒฝ์์์ ์์จ ๋ก๋ด ์ด์ ๋ฅ๋ ฅ์ผ๋ก ์ง๊ฒฐ๋๋ค.
- Approach: encoder-decoder ์ํคํ
์ฒ์ ์ค์ ์๊ฐ ํน์ฑ์ ๋ชจ๋ธ๋งํ๋ virtual perception system์ ๊ฒฐํฉํ์ฌ, ๋ถ์์ ํ ๊ด์ฐฐ๋ก๋ถํฐ privileged state๋ฅผ ๋ณต์ํ๊ณ perception๊ณผ action ์ฌ์ด์ ๋ฅ๋์ ์กฐ์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ๋จ๊ณ์ ํ๋ จ ๊ณผ์ ์์ด AMP ๊ธฐ๋ฐ RL๋ก ํตํฉ ํ์ต์ ์ํํ๋ค.
Achievement
Figure 2 Performance of the controller in various scenarios. (A to F) Real match performance in cluttered
- ํตํฉ ์๊ฐ-๋ชจํฐ ์ ์ด: ๋จ์ผ ๋จ๊ณ ํ๋ จ์ผ๋ก ball searching, chasing, multi-directional kicking ๋ฑ์ ์ ์ํ ํ๋์ ์๋ ์คํฌ ๋ถํ ์์ด ํ๋
- ๊ฐ๋ ฅํ ๋ฐ์์ฑ: ์๊ฐ ์
๋ ฅ์ ๋ํ ๋น ๋ฅธ ๋ฐ์๊ณผ gait ๋์ ์กฐ์ ์ผ๋ก ์ ํํ ์ํ
๋ฌ์ฑ
- ์ค์ธ๊ณ ์ฑ๋ฅ: RoboCup 2025 Adult-size Humanoid League ์ฐ์นํ๊ณผ 2025 World Humanoid Robot Games์์ ์ฆ๋ช
๋ ๊ฒฝ์ ํ๊ฒฝ์์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ
- ๋ค์ํ ํ๋ฉด ๋์: grass, slabstone, soil, asphalt, rubber ๋ฑ ๋ค์ํ ์งํ์์ ๊ฐ๊ฑดํ ์ฑ๋ฅ ์ ์ง
- perception-action coupling: encoder-decoder ๋คํธ์ํฌ์ virtual perception system์ผ๋ก ์๊ฐ ๋
ธ์ด์ฆ ์ํ ๋ฐ ๋ณผ ์์ง์ ์์ธก ๊ฐ๋ฅ
How
Figure 1 System overview. The real-world robot is equipped with an onboard camera for visual perception. Image
- Intel RealSense Depth Camera D435i๋ฅผ ์ด์ฉํ 25 Hz ์นด๋ฉ๋ผ ์
๋ ฅ
- Camera ์ด๋ฏธ์ง๋ฅผ Bird's Eye View (BEV) ๊ณต๊ฐ์ผ๋ก ํฌ์ํ์ฌ detection ์ฒ๋ฆฌ", 'Proprioception, ball detection, odometry ๊ธฐ๋ฐ goal ์ ๋ณด๋ฅผ ์ ์ฑ
์ ์
๋ ฅ
- 50 Hz๋ก joint position command ์์ฑ
- Adversarial Motion Priors (AMP)๋ฅผ RL ๋ณด์ ์ ํธ๋ก ํ์ฉํ์ฌ expert-like ๋์ ์ ๋
- Multi-critic framework๋ก reward objectives ๊ฐ ๊ฐ์ญ ์ํ ๋ฐ ํ์ต ์์ ํ
- Virtual perception system์ผ๋ก ์๋ฎฌ๋ ์ด์
์์ onboard vision ํน์ฑ ๋ชจ๋ฐฉ
- Encoder๋ก historical observation ์์ถ, decoder๋ก privileged state ๋ณต์
Originality
- GAN ๊ธฐ๋ฐ motion learning์ proprioception ๊ธฐ๋ฐ ๋ชจ๋ฐฉ์์ ์๊ฐ ํผ๋๋ฐฑ ๋ฐ perception-action ์กฐ์ ์ด ํ์ํ ์ค์ธ๊ณ ๋์ ํ๊ฒฝ์ผ๋ก ํ์ฅํ ์ฒซ ์๋
- Virtual perception system์ ํตํ sim-to-real gap ํด์: ์๋ฎฌ๋ ์ด์
์์ ์ค์ ์นด๋ฉ๋ผ์ ์๊ฐ ํน์ฑ(๋
ธ์ด์ฆ, ์ง์ฐ, ๊ณต๊ฐ ์ ์ฝ) ๋ชจ๋ธ๋ง
- Encoder-decoder ์ํคํ
์ฒ๋ก ๋ถ์์ ํ ๊ด์ฐฐ๋ก๋ถํฐ privileged state ๋ณต์ํ๋ ์๋ก์ด ๋ฐฉ์
- ๋จ๊ณ์ ํ๋ จ ์์ด ๋จ์ผ ๋จ๊ณ RL ํ๋ จ์ผ๋ก ๋ค์ํ ์ถ๊ตฌ ๊ธฐ์ ์ ๋์์ ์ต๋
- BEV ๊ณต๊ฐ ๊ธฐ๋ฐ perception pipeline์ผ๋ก ํจ์จ์ ์ธ ์๊ฐ ํน์ง ์ถ์ถ ๋ฐ ํํ
Limitation & Further Study
- Vision-based ์ปจํธ๋กค์ ์ฌ์ ํ ์นด๋ฉ๋ผ์ onboard ์ ์ฝ(์์ผ๊ฐ, ์ฒ๋ฆฌ ์ง์ฐ)์ ์์กดํ๋ฉฐ, ์ด๋ ์ฅ๊ฑฐ๋ฆฌ ๋ณผ ์ถ์ ์์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- Jetson AGX Orin ๊ฐ์ ๊ณ ์ฑ๋ฅ ์ฃ์ง ์ปดํจํ
์ฅ์น ํ์๋ก ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ์ด์์ฑ ์ ํ
- Virtual perception system์ ์ ํ๋๊ฐ ์ค์ ํ๊ฒฝ์ ๋ณต์กํ ์๊ฐ ์๊ณก(์กฐ๋ช
๋ณํ, ๋ฐ์ฌ ๋ฑ)์ ์์ ํ ํฌ์ฐฉํ์ง ๋ชปํ ๊ฐ๋ฅ์ฑ
- ํ์์ฐ๊ตฌ: (1) ๋ ๊ฒฝ๋ํ๋ perception ๋ชจ๋ธ๋ก ์ ์ฑ๋ฅ ๋ก๋ด ์ง์, (2) ๋ฉํฐ ์นด๋ฉ๋ผ ๋๋ wider FOV ์ผ์ ํ์ฉ, (3) ๋๋ฉ์ธ ์ผ๋ฐํ๋ฅผ ์ํ ๋ค์ํ ๊ฒฝ๊ธฐ์ฅ ํ๊ฒฝ์์์ ๊ฐ๊ฑด์ฑ ๊ฐํ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ Adversarial Motion Priors๋ฅผ ์๊ฐ ๊ธฐ๋ฐ ๋์ ์ ์ด๋ก ์ฑ๊ณต์ ์ผ๋ก ํ์ฅํ์ฌ, ๊ฐํํ์ต ๊ธฐ๋ฐ ์ธํ ๋ก๋ด์ด ์ค์ธ๊ณ ์ถ๊ตฌ ํ๊ฒฝ์์ ๋ฐ์ํ ํ๋์ ์๋์ผ๋ก ์ต๋ํ ์ ์์์ ์ฒ์์ผ๋ก ์
์ฆํ๋ค. RoboCup 2025 ์ฐ์น์ด๋ผ๋ ์ค์ ๊ฒฝ์ ์ฑ๊ณผ๋ ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ์ค์ฉ์ฑ๊ณผ ๊ฒฌ๊ณ ์ฑ์ ๊ฐ๋ ฅํ๊ฒ ๊ฒ์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์