KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills
์ ์: Weiji Xie, Jinrui Han, Jiakun Zheng, Huanyu Li, Xinzhe Liu, Jiyuan Shi, Weinan Zhang, Chenjia Bai, Xuelong Li | ๋ ์ง: 2025-06-15 | URL: https://arxiv.org/abs/2506.12851 📄 PDF
Essence
Figure 1: An overview of PBHC that includes three core components: (a) motion extraction from
๋ณธ ๋
ผ๋ฌธ์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์ธ๊ฐํ ๋ก๋ด ์ ์ด ํ๋ ์์ํฌ(PBHC)๋ฅผ ์ ์ํ์ฌ ์ฟตํธ, ๋์ฑ ๋ฑ ๊ณ ๋๋ก ๋์ ์ธ ์ธ๊ฐ ํ๋์ ๋ชจ๋ฐฉํ๋๋ก ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๋ค๋จ๊ณ ๋ชจ์
์ฒ๋ฆฌ์ ์ ์ํ ๋ชจ์
์ถ์ ์ ํตํด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ํ์ ํ ๋ฎ์ ์ถ์ ์ค์ฐจ๋ฅผ ๋ฌ์ฑํ๊ณ ์ค์ ๋ก๋ด์ ๋ฐฐํฌ๋๋ค.
Motivation
- Known: ์ธ๊ฐํ ๋ก๋ด์ ๋ชจ์
์บก์ฒ ๋ฐ์ดํฐ์ RL์ ํ์ฉํ์ฌ ์ธ๊ฐ ํ๋์ ๋ชจ๋ฐฉํ ์ ์์ผ๋, ๊ธฐ์กด ์๊ณ ๋ฆฌ์ฆ์ ๋ถ๋๋ฝ๊ณ ์ ์์ ๋ชจ์
์ถ์ ์๋ง ์ ํ๋๋ค. ๋ฌผ๋ฆฌ์ ์ ์ฝ ์กฐ๊ฑด ์๋ฐ๊ณผ ๊ณ ์ฐจ์ ์ ์ด ๊ณต๊ฐ์ ์ด๋ ค์์ด ์ฃผ์ ๋์ ์ด๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค(H2O, OmniH2O, ExBody ๋ฑ)์ ๋ฎ์ ์๋์ ๋ถ๋๋ฌ์ด ๋ชจ์
๋ง ์ถ์ ๊ฐ๋ฅํ๋ฉฐ, ๋์ ์ด๊ณ ๋ณต์กํ ๋ชจ์
์ ๋ํด ๋์ ์ถ์ ์ค์ฐจ๋ฅผ ๋ณด์ธ๋ค. ์ด๋ ค์ด ๋ชจ์
์ ๋ํ ์ ์ ํ ํ์ฉ ๋ฉ์ปค๋์ฆ ๋ถ์ฌ๋ก ๊ณ ๋๋ก ๋์ ์ธ ํ๋ ํ์ต์ด ๋ถ๊ฐ๋ฅํ๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ ์ค์ฉ์ ์ ์ฉ์ฑ์ ๋์ด๊ธฐ ์ํด ๊ณ ์ฐจ์ ์ ์ด ์ ์ฑ
์ด ๋ณต์กํ๊ณ ๋น ๋ฅธ ๋์์ ์ ํํ ์ถ์ ํ ์ ์์ด์ผ ํ๋ฉฐ, ์ด๋ ๋ก๋ด์ ๋ฌผ๋ฆฌ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฅํ๋ฉด์๋ ์ธ๊ฐ๊ณผ ์ ์ฌํ ํํ๋ ฅ ์๋ ํ๋ ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: ๋ ๋จ๊ณ ํ๋ ์์ํฌ๋ฅผ ๋์
ํ๋ค: (1) ๋ชจ์
์ฒ๋ฆฌ ๋จ๊ณ์์ HMR ๋ชจ๋ธ๋ก SMPL ํฌ๋งท ์ถ์ถ, ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ํํฐ๋ง(CoM-CoP ์์ ์ฑ), ์ ์ด ๋ง์คํฌ ๊ธฐ๋ฐ ๋ณด์ , IK ๊ธฐ๋ฐ ๋ฆฌํ๊ฒํ
์ ์ํํ๊ณ (2) ๋ชจ์
๋ชจ๋ฐฉ ๋จ๊ณ์์ bi-level optimization์ผ๋ก ์ถ์ ํฉํฐ๋ฅผ ๋์ ์กฐ์ ํ๋ ์ ์ํ ์ปค๋ฆฌํ๋ผ์ ๊ตฌ์ฑํ๋ฉฐ, ๋น๋์นญ actor-critic ์ํคํ
์ฒ๋ก ์ ์ฑ
์ ํ๋ จํ๋ค.
Achievement
Figure 1: An overview of PBHC that includes three core components: (a) motion extraction from
- ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋ชจ์
ํํฐ๋ง: CoM๊ณผ CoP์ ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ ์์ ์ฑ ํ๋ณ๊ณผ ์ ์ด ๋ง์คํฌ ์ถ์ถ์ ํตํด ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ ๋ชจ์
์ ์ฌ์ ์ ์ ๊ฑฐํ์ฌ ๋ฐ์ดํฐ์
ํ์ง ํฅ์
- ์ ์ํ ๋ชจ์
์ถ์ ๋ฉ์ปค๋์ฆ: Bi-level optimization ๊ธฐ๋ฐ์ ์ถ์ ํฉํฐ ฯ๋ฅผ ๋์ ์ผ๋ก ์กฐ์ ํ์ฌ ์ด๋ ค์ด ๋ชจ์
์ ๋ํ ํฉ๋ฆฌ์ ์ธ ํ์ฉ๋ ์ค์ ๋ฐ ์จ๋ผ์ธ ์ถ์ ์ ํตํ ํ๋ฃจํ ์ ์ด
- ๋น๋์นญ actor-critic ์ํคํ
์ฒ: ๋นํ๊ฐ๊ฐ reward vectorization๊ณผ ํน๊ถ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ๊ฐ์น ์ถ์ ์ ๊ฐ์ ํ๋ฉด์ ๋ฐฐ์ฐ๋ ๊ตญ์ ๊ด์ธก๋ง ์ฌ์ฉํ๋๋ก ์ค๊ณ
- ์ค์ ๋ฐฐํฌ ์ฑ๊ณต: Unitree G1 ๋ก๋ด์์ ์ฟตํธ, ๋์ฑ ๋ฑ ๊ณ ๋๋ก ๋์ ์ธ ๋ชจ์
์ ์์ ์ ์ด๊ณ ํํ๋ ฅ ์๊ฒ ์ํ
- ๋ฎ์ ์ถ์ ์ค์ฐจ: ๊ธฐ์กด ๋ฐฉ๋ฒ(ExBody, ExBody2, ASAP ๋ฑ) ๋๋น ํ์ ํ ๋ฎ์ ์ถ์ ์ค์ฐจ ๋ฌ์ฑ
How
Figure 1: An overview of PBHC that includes three core components: (a) motion extraction from
- GVHMR์ผ๋ก ๋จ์ ๋น๋์ค๋ก๋ถํฐ SMPL ํฌ๋งท ๋ชจ์
์ถ์ (์ค๋ ฅ ์ ๋ ฌ ๋ฐ ๋ฐ ๋ฏธ๋๋ผ ๊ฐ์)
- CoM(center of mass)๊ณผ CoP(center of pressure)์ ํฌ์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ์ฌ ํ๋ ์๋ณ ์์ ์ฑ ํ๊ฐ (Equation 1)
- ๊ฒฝ๊ณ ํ๋ ์ ์์ ์ฑ ์กฐ๊ฑด๊ณผ ์ต๋ ๋ถ์์ ๊ฐญ ์กฐ๊ฑด์ผ๋ก ๋์ ์์ ์ฑ์ด ๋ถ์กฑํ ๋ชจ์
์ํ์ค ์ ๊ฑฐ
- ๋ฐ๋ชฉ ๋ณ์์ ์์๋ ๊ฐ์ (zero-velocity assumption) ๊ธฐ๋ฐ ์ ์ด ๋ง์คํฌ ์ถ์ (Equation 2)
- ์ ์ด ๋ง์คํฌ๋ก๋ถํฐ ๋ถ๋ ์ํฐํฉํธ ๋ณด์
- ๋ฏธ๋ถ ์ญ๊ธฐ๊ตฌํ(differential inverse kinematics)์ ํตํ G1 ๋ก๋ด์ผ๋ก์ ๋ชจ์
๋ฆฌํ๊ฒํ
- ์ถ์ ๋ณด์ ํจ์๋ฅผ ์ถ์ ํฉํฐ ฯ๋ก ์กฐ์ : r_track = ฯ ยท r_track^base
- ์ถ์ ์ค์ฐจ์ ๊ธฐ๋ฐํ bi-level optimization์ผ๋ก ์ต์ ์ถ์ ํฉํฐ ฯ*๋ฅผ ๋์ถ
- ์จ๋ผ์ธ ์ถ์ ์ค์ฐจ ์ถ์ ์ ํตํ ํ๋ฃจํ ํฉํฐ ์
๋ฐ์ดํธ ๊ท์น ์ ์ฉ
- PPO ์๊ณ ๋ฆฌ์ฆ์ผ๋ก actor-critic ์ ์ฑ
์ต์ ํ (๋นํ๊ฐ๋ ํน๊ถ ์ ๋ณด ํ์ฉ, ๋ฐฐ์ฐ๋ ๊ตญ์ ๊ด์ธก๋ง ์ฌ์ฉ)
Originality
- ๋ฌผ๋ฆฌ ์ ์ฝ ๊ธฐ๋ฐ ์ฌ์ ํํฐ๋ง: CoM-CoP ๊ฑฐ๋ฆฌ ๋ฐ ๋์ ์์ ์ฑ ์กฐ๊ฑด์ ์ด์ฉํ ์ฒด๊ณ์ ์ธ ๋ชจ์
ํํฐ๋ง์ ๊ธฐ์กด ์ธ์ด ๋ผ๋ฒจ(ExBody) ๋๋ ์ฌํ ํํฐ๋ง(H2O) ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ ๋ฌผ๋ฆฌ ์๋ฆฌ ๊ธฐ๋ฐ์ ์ฌ์ ์ ๋ณ ๋ฐฉ์์ผ๋ก ๋ณด๋ค ๊ทผ๊ฑฐ ์๋ ์ ๊ทผ
- ์ ์ํ ์ปค๋ฆฌํ๋ผ์ bi-level optimization ๊ณต์ํ: ์ถ์ ํฉํฐ๋ฅผ ๋์ ์ผ๋ก ์กฐ์ ํ๋ bi-level optimization ๋ฌธ์ ์ค์ ์ ์ด๋ ค์ด ๋ชจ์
์ ๋ํ ์๋ ํ์ฉ๋ ์กฐ์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์๋ก์ด ๋ฉ์ปค๋์ฆ
- ์จ๋ผ์ธ ํ๋ฃจํ ํฉํฐ ์
๋ฐ์ดํธ: ํ๋ จ ์ค ์ค์๊ฐ์ผ๋ก ์ถ์ ์ค์ฐจ๋ฅผ ์ถ์ ํ์ฌ ํฉํฐ๋ฅผ ๋์ ์ผ๋ก ์ ์ ํ๋ ์ ์ํ ๋ฉ์ปค๋์ฆ์ ๊ณ ์ ์ปค๋ฆฌํ๋ผ๊ณผ ์ฐจ๋ณํ
- ๋น๋์นญ actor-critic ๊ตฌ์กฐ์ ํน๊ถ ์ ๋ณด ํ์ฉ: ๋นํ๊ฐ๋ ์ฐธ์กฐ ์ํ์ ์ถ๊ฐ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ๊ฐ์น ์ถ์ ์ ๊ฐํํ๋ฉด์๋ ๋ฐฐ์ฐ๋ ํ์ค์ ๊ด์ธก๋ง ์ฌ์ฉํ์ฌ sim-to-real ๊ฐญ ๊ฐ์
- ์ข
ํฉ์ ํ์ดํ๋ผ์ธ: ๋ชจ์
์ถ์ ๋ถํฐ ํํฐ๋ง, ๋ณด์ , ๋ฆฌํ๊ฒํ
, ์ ์ํ ์ถ์ , RL ํ๋ จ์ ํตํฉํ ์ฒด๊ณ์ ์ธ ํ๋ ์์ํฌ๋ ๊ธฐ์กด ๋จํธ์ ์ ๊ทผ ๋๋น ๋ณด๋ค ์ ๊ตํ ์ค๊ณ
Limitation & Further Study
- ๋ชจ์
์ถ์ ์ ํ๋์ ์์กด: GVHMR์ ๋ชจ์
๋ณต๊ตฌ ํ์ง์ ์์กดํ๋ฉฐ, ์ด๊ธฐ ์ถ์ ์ค๋ฅ๊ฐ ์ดํ ๋จ๊ณ์ ์ ํ๋ ์ ์์
- ๋ฌผ๋ฆฌ ํํฐ๋ง ์๊ณ๊ฐ์ ๊ฒฝํ์ ์ค์ : ฯต_stab, ฯต_N, ฯต_vel, ฯต_height ๋ฑ ๋ค์์ ์๊ณ๊ฐ์ด ๊ฒฝํ์ ์ผ๋ก ์ ํ๋์ด ์ผ๋ฐํ์ฑ์ด ์ ํ๋ ์ ์์
- ๋จ์ผ ๋ก๋ด ๋ฐฐํฌ: Unitree G1์๋ง ๋ฐฐํฌ๋์ด ๋ค์ํ ์ธ๊ฐํ ๋ก๋ด์ผ๋ก์ ํ์ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ์ ์ ์ํ ๊ฐ์ ์ ํ๊ณ: zero-velocity assumption ๊ธฐ๋ฐ ์ ์ด ๋ง์คํฌ ์ถ์ ์ ๋ฐ์ด ์์ ํ ์ ์งํ ๋๋ง ์ ํํ์ฌ ๋น ๋ฅธ ๋์์์ ์ค๋ฅ ๊ฐ๋ฅ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ์ ์ํ ์๊ณ๊ฐ ํ์ต์ผ๋ก ์๋ ํ๋ผ๋ฏธํฐ ์กฐ์ , (2) ๋ค์ํ ๋ก๋ด ํํ์ ๋ฌผ๋ฆฌ ์ ์ฝ์ ์ผ๋ฐํ ๊ฐ๋ฅํ ํ๋ ์์ํฌ ๊ฐ๋ฐ, (3) Sim-to-real gap ์ถ๊ฐ ๊ฐ์๋ฅผ ์ํ ๋๋ฉ์ธ ์ ์ ๊ธฐ๋ฒ ์ ์ฉ, (4) ๋ ๋ณต์กํ ๋ค์ฒด ์ํธ์์ฉ(์: ํ๊ฒฉ, ๊ธฐ์ ์กฐํฉ) ํ์ต ๋ฅ๋ ฅ ๊ฐํ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋ชจ์
์ฒ๋ฆฌ, ์ ์ํ bi-level optimization ์ปค๋ฆฌํ๋ผ, ๋น๋์นญ actor-critic ๊ตฌ์กฐ๋ฅผ ๊ฒฐํฉํ ํฌ๊ด์ ํ๋ ์์ํฌ๋ก ๊ณ ๋๋ก ๋์ ์ธ ์ธ๊ฐํ ๋ก๋ด ์ ์ด ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๋ค. ์ค์ ๋ก๋ด ๋ฐฐํฌ ์ฑ๊ณต๊ณผ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ํ์ ํ ์ฑ๋ฅ ํฅ์์ ๊ฐ๋ ฅํ ๊ธฐ์ ์ ๊ธฐ์ฌ๋ฅผ ์
์ฆํ๋ฉฐ, ์ธ๊ฐํ ๋ก๋ด์ ๋์ ํ๋ ํ์ต ๋ถ์ผ์์ ์ค์ํ ์ง์ ์ ์ด๋ฃฌ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์