Hold My Beer: Learning Gentle Humanoid Locomotion and End-Effector Stabilization Control
์ ์: Yitang Li, Yuanhang Zhang, Wenli Xiao, Chaoyi Pan, Haoyang Weng, Guanqi He, Tairan He, Guanya Shi | ๋ ์ง: 2025-05-30 | URL: https://arxiv.org/abs/2505.24198 📄 PDF
Essence
Figure 1: Learning Gentle Humanoid Locomotion and End-Effector Stabilization Control with
ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ์๋ฃ๋ฅผ ๋ค๊ณ ๊ฑธ์ ๋ ํ๋ฆฌ์ง ์๋๋ก ์์ฒด์ ํ์ฒด๋ฅผ ๋ถ๋ฆฌ๋ ์์ด์ ํธ๋ก ์ ์ดํ๋ SoFTA ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, ๋๋ฆฐ ๋ณดํ ์ ์ด์ ๋น ๋ฅธ end-effector ์์ ํ๋ฅผ ๋์์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ณดํ ์ ์ด์ ์กฐ์ ๋ฅ๋ ฅ์ ํฌ๊ฒ ๋ฐ์ ํ์ผ๋, ๋ณดํ ์ค ๋ฌผ์ฒด๋ฅผ ์์ ์ ์ผ๋ก ๋ค๊ณ ์๋ fine-grained end-effector ์ ์ด๋ ์ฌ์ ํ ๋ฏธํด๊ฒฐ ๊ณผ์ ์ด๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์์ฒด์ ํ์ฒด๋ฅผ ๋จ์ผ ์ ์ฑ
์ผ๋ก ์ ์ดํ๋ ค ์๋ํ์ผ๋ ์๋ก ๋ค๋ฅธ task ํน์ฑ ๋๋ฌธ์ ์ด๋ ค์์ ๊ฒช๊ณ ์๋ค.
- Gap: ๋ณดํ(๋๋ฆฐ timescale, ์ด์ฐ ์ ์ด ๋์ญํ, robustness ์ค์ฌ)๊ณผ end-effector ์์ ํ(๋น ๋ฅธ timescale, ์ฐ์ ์ ์ด, ๊ณ ์ ๋ฐ๋ ์ค์ฌ) ์ฌ์ด์ ๊ทผ๋ณธ์ ์ธ task ํน์ฑ ๋ถ์ผ์น๋ก ์ธํด, ๋จ์ผ ์์ด์ ํธ ์ ์ฑ
์ ๋ ๋ชฉํ๋ฅผ ๋์์ ๋ง์กฑํ๊ธฐ ์ด๋ ต๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ์๋ฃ ์ ๋ฌ, ์์ ์ดฌ์ ๋ฑ ์ค์ ํ๊ฒฝ์์ ์ ๋ฐํ ์กฐ์ ์์
์ ์ํํ๋ ค๋ฉด ๋ณดํ๊ณผ end-effector ์์ ํ๋ฅผ ๋ชจ๋ ํด๊ฒฐํด์ผ ํ๋ฉฐ, ์ด๋ ๋ก๋ด์ ์ค์ฉ์ฑ๊ณผ ์์ ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.
- Approach: ์์ฒด(14 DoF)์ ํ์ฒด(13 DoF)๋ฅผ ์๋ก ๋ค๋ฅธ ์ฃผํ์์ reward structure๋ฅผ ๊ฐ์ง ๋ ๊ฐ์ ๋
๋ฆฝ์ ์ธ ์์ด์ ํธ๋ก ์ ์ดํ๋ Slow-Fast Two-Agent (SoFTA) ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์์ฒด๋ 100 Hz์์ ์ ๋ฐํ EE ์ ์ด๋ฅผ, ํ์ฒด๋ 50 Hz์์ robust gait์ ๋ด๋นํ๋ค.
Achievement
Figure 1: Learning Gentle Humanoid Locomotion and End-Effector Stabilization Control with
- End-effector ๊ฐ์๋ ๊ฐ์: ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น 2-5๋ฐฐ end-effector ๊ฐ์๋ ๊ฐ์๋ฅผ ๋ฌ์ฑํ์ฌ ๊ฑฐ์ ์ธ๊ฐ ์์ค์ ์์ ์ฑ ๋ฌ์ฑ
- ์ค์ธ๊ณ ๋ฐฐํฌ ์ฑ๊ณต: Unitree G1๊ณผ Booster T1 ํด๋จธ๋
ธ์ด๋์์ ์๋ฃ ์ด๋ฐ, ์์ ์ ์ธ 1์ธ์นญ ์์ ์ดฌ์, disturbance ๊ฑฐ๋ถ ๋ฑ ์ค์ ์์
์ํ
- Emergent ๋ณด์ ํ๋: ์์ฒด๊ฐ ์๋์ผ๋ก ๋ณดํ ์ง๋์ ๋ณด์ํ๋ ํ๋์ ํ์ตํ์ฌ ์กฐ์ ์ whole-body ๋์ ๋ฌ์ฑ
- ๊ด๋ฒ์ํ ๊ฒ์ฆ: ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ธ๊ณ ์คํ์ ํตํด ๋ค์ํ ๋ณดํ ์กฐ๊ฑด์์ EE ์์ ํ ํจ๊ณผ ์
์ฆ
How
Figure 2: Overview of the SoFTA framework: The framework employs two distinct agents that
- Decoupled Action Space: ์์ฒด 14 DoF์ ํ์ฒด 13 DoF๋ฅผ ๋
๋ฆฝ์ ์ธ action space๋ก ๋ถ๋ฆฌํ์ฌ policy interference ์ํ
- Frequency Separation: ์์ฒด๋ 100 Hz(์ ๋ฐ ์ ์ด), ํ์ฒด๋ 50 Hz(robust ๋ณดํ)์ ์๋ก ๋ค๋ฅธ ์ ์ด ์ฃผํ์ ์ค์
- Task-specific Reward Design: ์์ฒด๋ end-effector ๊ฐ์๋ ํ๋ํฐ(racc, rang-acc, rzero-acc), ์ค๋ ฅ ๋ณด์ (rgrav-xy) ๋ฑ์ reward; ํ์ฒด๋ ๋ณดํ tracking ์ค์ฌ์ reward ๊ตฌ์ฑ
- Shared Observation: ๋ ์์ด์ ํธ๊ฐ ๋์ผํ proprioceptive ๋ฐ goal ๊ด์ฐฐ๊ฐ์ ๊ณต์ ํ์ฌ whole-body ์กฐ์ ๊ฐ๋ฅ
- PPO Training: PPO ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ๊ฐ ์์ด์ ํธ๋ฅผ ๋
๋ฆฝ์ ์ผ๋ก ํ์ตํ๋ ๊ณต์ observation์ ํตํด ์๋ฌต์ ์กฐ์
- Domain Randomization & Sim-to-Real Transfer: ์๋ฎฌ๋ ์ด์
์์ ๋ค์ํ ํ๊ฒฝ ์กฐ๊ฑด์ผ๋ก ํ์ต ํ ์ค์ธ๊ณ ๋ฐฐํฌ
Originality
- ์ฒ์์ผ๋ก ๋น๋ ๋ถ๋ฆฌ ๊ธฐ๋ฐ ์ ๊ทผ: ๋ณดํ๊ณผ end-effector ์ ์ด์ ์๋ก ๋ค๋ฅธ task dynamics๋ฅผ ์ ํํ ๋ถ์ํ๊ณ , ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์์ฒด์ ํ์ฒด์ ๋ค๋ฅธ ์ ์ด ์ฃผํ์๋ฅผ ํ ๋นํ ํ์ ์ ์ค๊ณ
- ๋ค์ค ์์ด์ ํธ humanoid ์ ์ด์ ์๋ก์ด ํด์: ๊ธฐ์กด multi-agent ๋ถํด ๋ฐฉ๋ฒ๋ค๊ณผ ๋ฌ๋ฆฌ, task characteristic์ ๊ทผ๋ณธ์ ์ธ ์ฐจ์ด(objective level๊ณผ dynamics level)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์์ํฌ ์ค๊ณ
- End-effector ํนํ reward ํจ์: ๊ฐ์๋ ํ๋ํฐ, exponential decay ํํ์ rzero-acc, ์ค๋ ฅ ํธํธ ํ๋ํฐ ๋ฑ end-effector ์์ ํ์ ํนํ๋ reward ์งํฉ ๊ฐ๋ฐ
- ์ค์ธ๊ณ humanoid ๋ฐฐํฌ: ๋จ์ํ ์๋ฎฌ๋ ์ด์
๊ฒฐ๊ณผ๊ฐ ์๋ Unitree G1, Booster T1 ๋ฑ ์ค์ ํด๋จธ๋
ธ์ด๋์์ ์๋ฃ ์ด๋ฐ, ์์ ์ดฌ์ ๋ฑ ์ค์ง์ ์์
๋ฌ์ฑ
Limitation & Further Study
- ๋ ์์ด์ ํธ ๊ฐ ๋ช
์์ ์กฐ์ ๋ฉ์ปค๋์ฆ ๋ถ์ฌ: Shared observation์ ํตํ ์๋ฌต์ ์กฐ์ ๋ง ์กด์ฌํ๋ฉฐ, ๋ช
์์ ์ํ์ฒด coordination ๋ฉ์ปค๋์ฆ์ด ๋ช
ํํ์ง ์์
- ๊ณ ์ ์ฃผํ์ ๋น์จ์ ํ๊ณ: ์์ฒด 100 Hz, ํ์ฒด 50 Hz์ 2:1 ๋น์จ์ด ์ต์ ์ธ์ง, ๋ค๋ฅธ task์์๋ ๋ค๋ฅธ ์ฃผํ์๊ฐ ํ์ํ์ง์ ๋ํ ๋ถ์ ๋ถ์กฑ
- ํ์ฅ์ฑ ๋ฌธ์ : ์ํ ์ ์ด ๋๋ 3๊ฐ ์ด์์ end-effector๊ฐ ์๋ ๊ฒฝ์ฐ ํ๋ ์์ํฌ์ ํ์ฅ์ฑ์ด ๋ถ๋ช
ํํจ
- sim-to-real gap์ ์์ ํ ํด๊ฒฐ ๋ฏธํก: ๋์ ์ ์ด ์ฃผํ์๋ก ์ธํ sim-to-real ๋ฏผ๊ฐ์ฑ์ ๋ถ๋ถ์ ์ผ๋ก๋ง ํด๊ฒฐํ๋ฉฐ, ํ๊ฒฝ ๋ณํ์ ๋ํ robustness ํ๊ฐ๊ฐ ์ ํ์
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ค์ค ๋ชฉํ task(์ฌ๋ฌ end-effector ๋์ ์ ์ด)์ ๋ํ ํ์ฅ, (2) ์ ์ํ ์ฃผํ์ ์กฐ์ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ, (3) ๋ถํ์ค์ฑ ๊ธฐ๋ฐ robust control ํตํฉ, (4) ๋ ๋ณต์กํ manipulation task(biped ๋ก๋ด์ด ๊ตฌ์ฒด์ ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ๋ ๊ฒฝ์ฐ) ํ๊ตฌ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ํด๋จธ๋
ธ์ด๋์ ๋ณดํ ์ค end-effector ์์ ํ๋ผ๋ ์ค์ํ๋ฉด์๋ ๋ฏธํด๊ฒฐ ๋ฌธ์ ๋ฅผ frequency separation๊ณผ decoupled control๋ก ์ฐ์ํ๊ฒ ํด๊ฒฐํ ์ฐฝ์์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ฉฐ, ์ค์ธ๊ณ ๋ฐฐํฌ๋ก ์ค์ฉ์ฑ์ ์
์ฆํ ๋ฐ์ด๋ ์ฐ๊ตฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์