A Hierarchical Framework for Humanoid Locomotion with Supernumerary Limbs
์ ์: Bowen Zhi | ๋ ์ง: 2025-11-25 | URL: https://arxiv.org/abs/2512.00077 📄 PDF
Essence
Figure 3.1: Training performance of the PPO agent over 500 million environment steps. (a)
๋ณธ ๋
ผ๋ฌธ์ ์ด๊ณผ ์ฌ์ง(Supernumerary Limbs, SLs)๋ก ์ฆ๊ฐ๋ ์ธํ๋ก๋ด(humanoid robot)์ ์์ ์ ์ธ ๋ณดํ์ ์ํด ๊ณ์ธต์ ์ ์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ํ์ต ๊ธฐ๋ฐ์ ์ ์์ค ๋ณดํ ์ ์ฑ
๊ณผ ๋ชจ๋ธ ๊ธฐ๋ฐ์ ๊ณ ์์ค ๋์ ๊ท ํ ์ ์ด๊ธฐ๋ฅผ ๊ฒฐํฉํ ๋ถ๋ฆฌ๋ ์ ๊ทผ๋ฐฉ์์ ํตํด SLs๋ก๋ถํฐ์ ๋์ ๊ต๋์ ํจ๊ณผ์ ์ผ๋ก ์ํํ๋ค.
Motivation
- Known: ๊ธฐ์กด ์ธํ๋ก๋ด ์ ์ด๋ Zero-Moment Point (ZMP) ๊ธฐ์ค์ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ด๋ Deep Reinforcement Learning (DRL) ๊ธฐ๋ฐ ์ ๊ทผ์ด ์ฃผ๋ฅผ ์ด๋ฃจ์์ผ๋ฉฐ, ์ด๊ณผ ์ฌ์ง๋ฅผ ์ด์ฉํ ๊ท ํ ์ฆ๊ฐ ์ฐ๊ตฌ๋ ์ ์ ๊ณ ์ ์ด๋ ํน์ํ๋ ๊ผฌ๋ฆฌ/๋ค๋ฆฌ ๊ฐ์ ์ ํ๋ ํํ์ ๊ตญํ๋์ด ์์๋ค.
- Gap: ์ผ๋ฐ ๋ชฉ์ ์ ์ธํ๋ก๋ด ํ์ ๋์์ ์กฐ์ ์์
๊ณผ ๋์ ๊ท ํ ๋ณด์กฐ์ ์ฌ์ฉํ๋ฉด์ ๋ฌด๊ฑฐ์ด ์ด๊ณผ ์ฌ์ง์ ์ฐ์์ ์ด๊ณ ์์ธก ๋ถ๊ฐ๋ฅํ ๋์ ๊ต๋์ ๋์ํ๋ ํตํฉ ์ ์ด ํ๋ ์์ํฌ๊ฐ ๋ถ์ฌํ๋ค.
- Why: ์ธํ๋ก๋ด์ ์ด๊ณผ ์ฌ์ง๋ฅผ ํตํฉํ ๋ ๋์ ๊ต๋์ผ๋ก ์ธํ ์์ ์ฑ ์ ํ๋ ๋ก๋ด์ ๋ค์ค ๊ธฐ๋ฅ์ฑ์ ์ ํํ๋ ํต์ฌ ๋ฌธ์ ์ด๋ฉฐ, ์ด๋ฅผ ํด๊ฒฐํ๋ฉด ์กฐ์ ๋ฅ๋ ฅ๊ณผ ์ด๋์ฑ์ ๋์์ ๊ฐ์ถ ๋ค๋ชฉ์ ๋ก๋ด ํ๋ซํผ ๊ฐ๋ฐ์ด ๊ฐ๋ฅํด์ง๋ค.
- Approach: DRL ๊ธฐ๋ฐ imitation learning๊ณผ curriculum learning์ ํตํด Unitree H1 ์ธํ๋ก๋ด์ ์์ ์ ์ธ ๋ณดํ ์ ์ฑ
์ ํ์ตํ๊ณ , CoM๊ณผ CoS ํผ๋๋ฐฑ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋์ ๊ท ํ ์ ์ด๊ธฐ๋ฅผ ์ค๊ณํ์ฌ ์ ์์ค๊ณผ ๊ณ ์์ค ์ ์ด๊ธฐ๋ฅผ ๊ณ์ธต์ ์ผ๋ก ๋ถ๋ฆฌ ๊ฒฐํฉํ๋ค.
Achievement
Figure 3.1: Training performance of the PPO agent over 500 million environment steps. (a)
- CoM ๊ถค์ ์์ ์ฑ ๊ฐ์ : ์ ์ ํ์ด๋ก๋ ๋๋น ๋์ ๊ท ํ ์ ์ด๊ธฐ ์ ์ฉ ์ Dynamic Time Warping (DTW) ๊ฑฐ๋ฆฌ๋ฅผ 47% ๊ฐ์
- ๋ณดํ ํจํด ์ ๊ทํ: ๊ท ํ ์ ์ด ์ ๋ต์ด ๊ธฐ์ค ๋ณดํ์ ๋ ๊ฐ๊นํ ๋ณดํ ํจํด์ ์์ฑ
- ๋ณดํ ์ฃผ๊ธฐ ๋ด ์ฌ์์ ํ: ๋์ ๊ท ํ ์ ์ด๊ธฐ๊ฐ ๋ณดํ ์ฃผ๊ธฐ ๋ด ์ฌ์์ ํ ์ฑ๋ฅ ๊ฐ์
- ์กฐ์์ GRF ํจํด: Ground Reaction Forces์ ๋์ฑ ์กฐ์์ ์ธ anti-phase ํจํด ๋ฌ์ฑ
How
Figure 2.1: The composite robot model used in the simulation, illustrating (a) the Unitree H1
- PPO ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ ์ ์ฑ
ํ์ต (500๋ฐฑ๋ง ํ๊ฒฝ ์คํ
)
- DeepMimic ๋ฐฉ์์ imitation learning์ผ๋ก ์์ฐ์ค๋ฌ์ด ๋ณดํ ์์ฑ
- Curriculum learning์ผ๋ก SL์ ์ง๋๊ณผ ๋์ ํฌ์ฆ๋ฅผ ์ ์ง์ ์ผ๋ก ๋์
- Model-based ๋์ ๊ท ํ ์ ์ด๊ธฐ๋ก ์ค์๊ฐ CoM/CoS ํผ๋๋ฐฑ ๊ธฐ๋ฐ SL ์์ธ ์ ์ด
- ๊ณ์ธต์ ์ ์ด ์ตํฉ์ผ๋ก ์ ์์ค๊ณผ ๊ณ ์์ค ์ ์ด๊ธฐ ํตํฉ
Originality
- ์ผ๋ฐ ๋ชฉ์ ์ ์ธํ๋ก๋ด ํ์ ๋์ ๊ท ํ ๋ณด์กฐ์ ํ์ฉํ๋ ์ฒซ ์ฒด๊ณ์ ์ ๊ทผ
- DRL ๊ธฐ๋ฐ ๋ณดํ๊ณผ model-based ๊ท ํ ์ ์ด๋ฅผ ๊ณ์ธต์ ์ผ๋ก ๋ถ๋ฆฌํ ํ๋ ์์ํฌ ์ค๊ณ
- ์ด๊ณผ ์ฌ์ง์ ์์ธก ๋ถ๊ฐ๋ฅํ ๋์ ๊ต๋์ ๋ช
์์ ์ผ๋ก ๊ณ ๋ คํ ์ ์ด ๊ตฌ์กฐ ๊ฐ๋ฐ
Limitation & Further Study
- ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์๋ง ํ๊ฐ๋์์ผ๋ฉฐ, ์ค์ ๋ก๋ด ํ๋์จ์ด ๊ฒ์ฆ์ด ๋ถ์ฌ
- ์ถ๊ฐ ์ฌ์ง์ ๋ฌด๊ฒ ์ ํ(30kg ์ต๋)๊ณผ ํน์ ๋ก๋ด ํ๋ซํผ(Unitree H1)์ ๋ํ ๊ฒฝํ์ ๊ฒฐ๊ณผ
- ์ ์ด ์ตํฉ ๋ฉ์ปค๋์ฆ์ ์์ธํ ์์ ์ฑ ๋ถ์ ๋ถ์กฑ
- ๋ถ๊ท์นํ ์งํ์ด๋ ์ธ๋ถ ๊ต๋์ ๋ํ ์ฑ๋ฅ ํ๊ฐ ๋ฏธํก
ํ์ ์ฐ๊ตฌ: ์ค์ ๋ก๋ด ํ๋์จ์ด์์์ ๊ฒ์ฆ, ๋ณด๋ค ๋ฌด๊ฑฐ์ด ์ด๊ณผ ์ฌ์ง ์์ฉ, ๋น์ ํ ํ๊ฒฝ์์์ ๊ฒฌ๊ณ ์ฑ ํ๊ฐ, ๋ค์ํ ๋ณดํ ์๋์ ๋ณตํฉ ์กฐ์ ์์
๋์ ์ํ ๋ฅ๋ ฅ ํ๋
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๊ณ์ธต์ ์ ์ด ํ๋ ์์ํฌ๋ฅผ ํตํด ์ด๊ณผ ์ฌ์ง ์ฅ์ฐฉ ์ธํ๋ก๋ด์ ์์ ์ ๋ณดํ ๋ฌธ์ ๋ฅผ ์ฐฝ์์ ์ผ๋ก ํด๊ฒฐํ๋ค. DRL ๊ธฐ๋ฐ ๋ณดํ ์ ์ฑ
๊ณผ model-based ๊ท ํ ์ ์ด์ ๊ฒฐํฉ์ ๊ธฐ์ ์ ์ผ๋ก ํ๋นํ๋ฉฐ 47% DTW ๊ฐ์ ์ด๋ผ๋ ์ ๋์ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ๋ค. ๋ค๋ง ์๋ฎฌ๋ ์ด์
ํ์ ํ๊ฐ์ ์ค์ ํ๋์จ์ด ๊ฒ์ฆ ๋ถ์ฌ๊ฐ ์ค์ฉ์ ๊ธฐ์ฌ๋๋ฅผ ์ ํํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
ํ์ ์ฐ๊ตฌ
๋ณธ ๋
ผ๋ฌธ๊ณผ ์ ์ฌํ ๊ณ์ธต์ ํ๋ ์์ํฌ๋ฅผ ๋ค๋ฃจ๋, Contact Dynamics and Optimization ์ธก๋ฉด์์ ๋์ผ ๊ตฌ์กฐ๋ฅผ ๋ค์ํ ํ๊ฒฝ์ ํ์ฅํ ์ฐ๊ตฌ์ด๋ฏ๋ก ์ ์ฉ ๋งฅ๋ฝ์ ๋น๊ตํ ์ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์