RoboStriker: Hierarchical Decision-Making for Autonomous Humanoid Boxing
์ ์: Kangning Yin, Zhe Cao, Wentao Dong, Weishuai Zeng, Tianyi Zhang, Qiang Zhang, Jingbo Wang, Jiangmiao Pang, Ming Zhou, Weinan Zhang | ๋ ์ง: 2026-01-30 | DOI: 10.48550/arXiv.2601.22517 📄 PDF
Essence
Figure 2. Overview of RoboStriker. Stage I pretrains a motion tracker to produce physically plausible humanoid behaviors
RoboStriker๋ ์ธ๊ฐ ์์ค์ ๊ฒฝ์๋ ฅ ์๋ ํด๋จธ๋
ธ์ด๋ ๊ถํฌ๋ฅผ ์ํด ๋์ ์์ค์ ์ ๋ต ์ถ๋ก ๊ณผ ๋ฎ์ ์์ค์ ๋ฌผ๋ฆฌ์ ์คํ์ ๋ถ๋ฆฌํ๋ 3๋จ๊ณ ๊ณ์ธต์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. Motion capture ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ต๋ ๋์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๊ตฌ์กฐํ๋ ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ์์ถํ ํ, Latent-Space NFSP๋ฅผ ํตํด ๋ค์ค ์์ด์ ํธ ๊ฒฝ์ ํ์ต์ ์ํํ๋ค.
Motivation
- Known: MARL์ ์ ๋ต์ ์ํธ์์ฉ์ ์ํ ์๋ฆฌ์ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ฉฐ, DeepMimic๊ณผ AMP๋ ๋ชจ๋ฐฉ์ ํตํด ๊ฒฌ๊ณ ํ ๋จ์ผ ์์ด์ ํธ ์ ์ด๋ฅผ ๋ฌ์ฑํ๋ค. ๊ทธ๋ฌ๋ ์ด๋ค ์ ๊ทผ๋ฒ์ ํด๋จธ๋
ธ์ด๋์ ๋์ ์ฐจ์ ์ ์ด ์ญํ๊ณผ ๋น์ ์์ ํ์ต ํ๊ฒฝ์์์ ๋ฌผ๋ฆฌ์ ์คํ ๊ฐ๋ฅ์ฑ์ ๋์์ ํด๊ฒฐํ์ง ๋ชปํ๋ค.
- Gap: ๊ธฐ์กด ๊ฒ์ ์ด๋ก ์ MARL ๋ฐฉ๋ฒ๋ค์ ๋ฌผ๋ฆฌ์ ์คํ ๊ฐ๋ฅ์ฑ์ ์ํ ๊ท๋ฉ์ ํธํฅ์ด ๋ถ์กฑํ๋ฉฐ, ๊ตฌํ๋ ์ ์ด ํ๋ ์์ํฌ๋ ์ ๋ต์ ๊ณต์งํ๋ ์๋ ์ธ์ ์ ์์ ์ง์ํ์ง ์๋๋ค. ๋ฐ๋ผ์ ๋์ ์ฐจ์ ์ ์ด ์ญํ ํ๊ฒฝ์์ ์์ ์ ์ธ ๊ฒฝ์ ์ ๋ต ์งํ๋ฅผ ์ด๋ฃจ๋ ๋ฐฉ๋ฒ์ด ๋ถ์ฌํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๊ถํฌ๋ ๋ฌผ๋ฆฌ์ ์ ์ฝ ํ์์ ์ ๋ต ํ์์ ํ์์ฑ๊ณผ ์์ ์ฑ ์ ์ง ์ฌ์ด์ ๋ชจ์์ ๋ํํ๋ ๊ณผ์ ์ด๋ฉฐ, ์ด๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ ์ค์ ๋ก๋ด ๊ฒฝ์ ์์
์ ์ค์ฉํ์ ํ์์ ์ด๋ค. ๋ํ ์ด๋ ์ถ์ ๊ฒ์์์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ธฐ๋ฐ๋ ์์คํ
์ผ๋ก MARL์ ํ์ฅํ๋ ์ผ๋ฐ์ ์์น์ ์ ๊ณตํ ์ ์๋ค.
- Approach: RoboStriker๋ motion capture ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ตํ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ๋์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ Gaussian-parameterized ๋ถํฌ๋ฅผ ๋จ์ ์ด๊ตฌ์ ํฌ์ํ์ฌ ๊ตฌ์กฐํ๋ ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ์์ถํ๋ค. ๊ทธ ํ Latent-Space NFSP๋ฅผ ํตํด ์์ด์ ํธ๋ค์ด ์์ ๋ชจํฐ ๊ณต๊ฐ์ด ์๋ ์ ์ฌ ๋์ ๊ณต๊ฐ ๋ด์์ ๊ฒฝ์ ์ ์ ์ ํ์ตํ๋๋ก ํ๋ค.
Achievement
Figure 1. Real-world clips of humanoid boxing using RoboStriker,
- ๋ฌผ๋ฆฌ์ -์ ๋ต์ ์ด์ค์ฑ ํด๊ฒฐ: ๋ฌผ๋ฆฌ์ ์คํ ๊ฐ๋ฅ์ฑ๊ณผ ๋น์ ์์ ํ์ต, ์ ๋ต ์งํ์ ์์คํ
์์ ์ฑ ๊ฐ์ ๋ด์ฌ์ ๋ชจ์์ ๊ณต์์ ์ผ๋ก ํน์ฑํํ๊ณ ํด๊ฒฐ
- ๊ณ์ธต์ ๋ถํด ํ๋ ์์ํฌ: ๋์ ์์ค์ ์ ๋ต ์ถ๋ก ๊ณผ ๋ฎ์ ์์ค์ ๋ฌผ๋ฆฌ์ ์คํ์ ๋ถ๋ฆฌํ์ฌ ๋์ ๊ฒฉํฌ ํ๋์ ์งํ๋ฅผ ์ํ ์์ ์ ๊ฒฝ๋ก ์ ๊ณต
- ์๋ฎฌ๋ ์ด์
์ฐ์์ฑ๊ณผ ์ค์ธ๊ณ ์ด์ : Unitree G1 ํด๋จธ๋
ธ์ด๋์์ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ํฅ์๋ ์ฑ๋ฅ, ๊ฒฌ๊ณ ์ฑ, ์๋ ด ์์ ์ฑ์ ๋ฌ์ฑํ๊ณ sim-to-real transfer ์ฑ๊ณต
- ์ผ๋ฐํ๋ ๊ตฌ์กฐ: embodied multi-agent ๊ฒฝ์์ ์ํ ์ผ๋ฐ์ ๋ ์ํผ ์ ๊ณต์ผ๋ก ์ถ์ ๊ฒ์์์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋ก๋ด ์์คํ
์ผ๋ก์ MARL ํ์ฅ ๊ฐ๋ฅ์ฑ ์์ฐ
How
Figure 2. Overview of RoboStriker. Stage I pretrains a motion tracker to produce physically plausible humanoid behaviors
- Stage I - ๋์ ์ถ์ ๊ธฐ ํ์ต: DeepMimic ๊ธฐ๋ฐ tracking policy๋ฅผ human motion capture ๋ฐ์ดํฐ๋ก ํ๋ จํ์ฌ ๋ค์ํ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ๊ถํฌ ๊ธฐ์ ์ต๋
- Stage II - ๋์ ์ธ์ฝ๋ฉ: Encoder-Decoder ๊ตฌ์กฐ๋ก ํ์ต๋ ๋์๋ค์ ๊ตฌ์กฐํ๋ ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ์์ถํ๋ฉฐ, KL divergence ์ ์ฝ๊ณผ ํจ๊ป Gaussian ๋ถํฌ๋ฅผ ๋จ์ ์ด๊ตฌ์ ํฌ์ํ์ฌ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ฐ๋ฅํ ๋์์ ๋ถ๋ถ๊ณต๊ฐ์ ํ์ ์ ํ
- Stage III(a) - ํ๋ ์๋ฐ์
: AMP ๊ธฐ๋ฐ curriculum์ ์ฌ์ฉํ์ฌ ์ ์ฑ
์ ์ด ์ ์ฌ ๋ค์์ฒด ๋ด์์ ์ด๊ธฐํํ๊ณ ๊ฒฝ์์ cold-start ๋ฌธ์ ์ํ
- Stage III(b) - Latent-Space NFSP: ๋ ์์ด์ ํธ๊ฐ ์ ์ฌ ๋์ ๊ณต๊ฐ ๋ด์์ NFSP๋ฅผ ์ํํ๋ฉฐ, ํผํฉ๋ ์ ๋ต(best response์ reservoir policy์ ๊ฐ์ค ์กฐํฉ)์ผ๋ก ์๋๋ฐฉ๊ณผ ์ํธ์์ฉํ์ฌ ๊ฒ์ ์ด๋ก ์ ๊ท ํ์ ์๋ ด
- ์์ ํ ๋ฉ์ปค๋์ฆ: ์ ํ๋ ์ ์ฌ ๋ค์์ฒด๋ compactํ๊ณ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์์ ํ ์ ๋ต ํ์ ๊ณต๊ฐ์ ์ ์ํ์ฌ ๋ชจํฐ ์์ค ๋ถ์์ ์ฑ ์์ด LS-NFSP ์ด์ ๊ฐ๋ฅ
Originality
- ์ต์ด ํ์ํ: embodied MARL์ ๋ด์ฌ์ ๋ชจ์(๋ฌผ๋ฆฌ์ ์คํ๊ฐ๋ฅ์ฑ vs ๋น์ ์์ ํ์ต, ์ ๋ต ์งํ vs ์์คํ
์์ ์ฑ)์ ์ต์ด๋ก ๊ณต์์ ์ผ๋ก ํน์ฑํ
- ์์์ ์ ์ฝ ํ์ฉ: Gaussian ๋ถํฌ๋ฅผ ๋จ์ ์ด๊ตฌ์ ํฌ์ํ๋ ๋ฐฉ์์ผ๋ก ๋ฌผ๋ฆฌ์ ์คํ๊ฐ๋ฅ ๋์์ ๋ถ๋ถ๊ณต๊ฐ์ ํ์์ ์๋์ผ๋ก ์ ํํ๋ ์๋ก์ด ์ ๊ทํ ๊ธฐ๋ฒ
- Latent-Space NFSP: ๊ธฐ์กด NFSP๋ฅผ ์ฒ์์ผ๋ก ์ ์ฌ ๊ณต๊ฐ์ ์ ์ฉํ์ฌ ๊ณ ์ฐจ์ ์ ์ด ์ญํ ํ๊ฒฝ์์์ ๋ค์ค ์์ด์ ํธ ํ์ต ์์ ํ
- ๊ณ์ธต์ ๋ถํด์ ์ค์ฆ: motion tracking โ latent encoding โ competitive learning์ 3๋จ๊ณ ๋ถํด๊ฐ embodied ๊ฒฝ์ ์์
์ ์ผ๋ง๋ ํจ๊ณผ์ ์ธ์ง ์ฒ์ ์์ฐ
Limitation & Further Study
- ๋๋ฉ์ธ ํน์์ฑ: ํ๋ ์์ํฌ๊ฐ ๊ถํฌ ์์
์ผ๋ก ๊ฒ์ฆ๋์์ผ๋, ๋ค๋ฅธ ์ ํ์ ์ ์ด ๊ธฐ๋ฐ embodied ๊ฒฝ์ ์์
์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ช
ํํ์ง ์์
- ๋ชจ์
๋ฐ์ดํฐ ์์กด์ฑ: ์ด๊ธฐ ๋์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ง๊ณผ ๋ค์์ฑ์ด ์ต์ข
์ฑ๋ฅ์ ์ง์ ์ํฅ์ ๋ฏธ์น๋ฏ๋ก, ์ ํ๋ motion capture ๋ฐ์ดํฐ๋ก๋ ํ๋ ๊ณต๊ฐ์ ์ ์ฝ์ด ๋ฐ์ ๊ฐ๋ฅ
- ์ค์ธ๊ณ ๊ฒ์ฆ ์ ํ: sim-to-real transfer๊ฐ ์์ฐ๋์์ผ๋ ์ ๋์ ์ฑ๋ฅ ๋น๊ต์ ๋ ๋ณต์กํ ์ค์ธ๊ณ ์๋๋ฆฌ์ค์์์ ์์ ์ฑ ํ๊ฐ ํ์
- ๊ณ์ฐ ๋ณต์ก๋ ๋ถ์ ๋ถ์ฌ: 3๋จ๊ณ ํ์ดํ๋ผ์ธ์ ์ ์ฒด ํ๋ จ ์๊ฐ ๋ฐ ๊ณ์ฐ ๋น์ฉ์ ๋ํ ์์ธ ๋ถ์์ด ๋
ผ๋ฌธ์์ ์ ๊ณต๋์ง ์์
- ํ์ ์ฐ๊ตฌ: ๋ค์ค ๊ฐ์ฒด ์ํธ์์ฉ, ์ฅ์๊ฐ ๊ฒฝ์ ์์ ์ฑ, ๋ค์ํ ์ฒดํ์ ๋ก๋ด ์ ์, ์จ๋ผ์ธ ์ ์ ํ์ต ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: RoboStriker๋ embodied MARL์ ๊ทผ๋ณธ์ ๋ชจ์์ ์ฒ์์ผ๋ก ๊ณต์ํํ๊ณ ๊ณ์ธต์ ๋ถํด๋ฅผ ํตํด ์ค์ง์ ์ผ๋ก ํด๊ฒฐํ๋ ์ฃผ์ ๊ธฐ์ฌ๋ฅผ ์ ์ํ๋ค. ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด์์ ๊ถํฌ๋ผ๋ ๋์ ์ ์์
์ ์ฑ๊ณต์ ์ผ๋ก ๋ฌ์ฑํ์ฌ, ์ถ์ ๊ฒ์์์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋ก๋ด ์์คํ
์ผ๋ก MARL์ ํ์ฅํ๋ ์ค์ํ ๋ง์ผ์คํค์ ์ ๊ณตํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์