SKATER: Synthesized Kinematics for Advanced Traversing Efficiency on a Humanoid Robot via Roller Skate Swizzles
์ ์: Junchi Gu, Feiyang Yuan, Weize Shi, Tianchen Huang, Haopeng Zhang, Xiaohu Zhang, Yu Wang, Wei Gao, Shiwu Zhang | ๋ ์ง: 2026-01-08 | URL: https://arxiv.org/abs/2601.04948 📄 PDF
Essence
Fig. 1: The SKATER system: a humanoid robot equipped
ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ฐ์ 4๊ฐ์ ์๋ ๋ฐํด๋ฅผ ์ฅ์ฐฉํ๊ณ Deep Reinforcement Learning์ ํตํด ๋กค๋ฌ์ค์ผ์ดํ
์ค์์ฆ ๋ณดํ์ ํ์ต์์ผ ์ ํต์ ์ธ ๋ณดํ ๋๋น ์ถฉ๊ฒฉ๋ ฅ 75.86%, ์๋์ง ์๋น 63.34% ๊ฐ์๋ฅผ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ์ต๊ทผ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ณดํ ๋ฐ ์ฃผํ ๊ธฐ์ ์ด ๋ฐ์ ํ์ผ๋ ๋ฐ์ด ์ง๋ฉด์ ๋ฟ์ ๋๋ง๋ค ๋์ ์ถฉ๊ฒฉ๋ ฅ์ด ๋ฐ์ํ์ฌ ๊ด์ ์์๊ณผ ์๋์ง ๋นํจ์จ์ด ๋ฌธ์ ์ด๋ค. ๋กค๋ฌ์ค์ผ์ดํ
์ ๋ฎ์ ์ถฉ๊ฒฉ๋ ฅ์ ํน์ง์ผ๋ก ํ๋ ์์ฒด์ญํ์ ์ผ๋ก ๊ฐ์น์๋ ์ด๋์ด๋ค.
- Gap: ๊ธฐ์กด ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋กค๋ฌ์ค์ผ์ดํ
์ฐ๊ตฌ๋ ๊ทนํ ๋๋ฌผ๋ฉฐ, ๋๋ถ๋ถ์ ์ ํ ์ฐ๊ตฌ๋ ์ฌ์กฑ ๋ก๋ด์ด๋ ๊ถค์ ๊ณํ ๊ธฐ๋ฐ์ ๋ฎ์ ์๋ ๋ฐฉ๋ฒ์ ๊ตญํ๋์ด ์๋ค. ์ด์กฑ ํด๋จธ๋
ธ์ด๋์์ nonholonomic ์ ์ฝ์ ๊ณ ๋ คํ DRL ๊ธฐ๋ฐ ์ ๊ทผ์ ๋ฏธ๊ฐ์ฒ ์์ญ์ด๋ค.
- Why: ๋กค๋ฌ์ค์ผ์ดํ
์ ๋ฐ ์ ์ด ์ถฉ๊ฒฉ์ ์ต์ํํ์ฌ ๊ด์ ์๋ช
์ฐ์ฅ๊ณผ ์๋์ง ํจ์จ ํฅ์์ ๋์์ ๋ฌ์ฑํ ์ ์์ผ๋ฉฐ, ์ด๋ ์ฅ์๊ฐ ์ด์์ด ํ์ํ ๋ก๋ด ์์คํ
์์ ๋งค์ฐ ์ค์ํ ํน์ฑ์ด๋ค.
- Approach: implicit gait reward function๊ณผ multi-stage curriculum learning์ ์ ์ฉํ DRL ํ๋ ์์ํฌ๋ฅผ ๊ฐ๋ฐํ๊ณ , domain randomization์ ํตํด sim-to-real transfer๋ฅผ ์คํํ์ฌ SKATER ๋ก๋ด์์ ์ค์์ฆ ์ค์ผ์ดํ
์ ํ์ตํ๋ค.
Achievement
Fig. 4: Comparison of foot contact force profiles: (a) roller skating locomotion with continuous ground contact and stab
- SKATER ๋ก๋ด ๊ฐ๋ฐ: 33 DoF ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ 4๊ฐ์ ์๋ ์ธ๋ผ์ธ ๋ฐํด ์ฅ์ฐฉ์ผ๋ก ๋กค๋ฌ์ค์ผ์ดํ
๊ฐ๋ฅ ํ๋ซํผ ๊ตฌํ
- DRL ์ ์ด ํ๋ ์์ํฌ: implicit gait reward function๊ณผ multi-stage curriculum learning์ ํตํฉํ ์ค์์ฆ ์ค์ผ์ดํ
ํ์ต ์์คํ
๊ตฌ์ถ
- ์ฑ๋ฅ ํฅ์: ์ ํต์ ๋ณดํ ๋๋น Impact Intensity 75.86% ๊ฐ์, Cost of Transport 63.34% ๊ฐ์
- sim-to-real ์ ์ด: ์๋ฎฌ๋ ์ด์
์์ ํ์ตํ ์ ์ฑ
์ ๋ฌผ๋ฆฌ ๋ก๋ด์ ์ฑ๊ณต์ ์ผ๋ก ๋ฐฐํฌ
- ๋ถ๋๋ฌ์ด ์ด๋: ๋กค๋ฌ์ค์ผ์ดํ
์ ์ฐ์์ ์ธ ์ฌ๋ผ์ด๋ฉ ํน์ฑ์ผ๋ก ๊ด์ ์ด๋ ๋งค๋๋ฌ์ ์ฆ๊ฐ
How
Fig. 2: Deep reinforcement learning control framework for SKATER. The policy network processes proprioceptive and
- SKATER ํ๋์จ์ด: 25 DoF ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๊ฐ ๋ฐ ๋ฐ์ 4๊ฐ์ ์๋ ํ ํ์ฌ
- DRL ํ๋ ์์ํฌ: policy network๊ฐ ์์ฒด๊ฐ๊ฐ ๋ฐ ์ธ์ ๊ฐ๊ฐ ์ผ์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ โ ๊ด์ ์์ค ๋ช
๋ น ์์ฑ
- Reward function ์ค๊ณ: ๋กค๋ฌ์ค์ผ์ดํ
์ ๋ด์ฌ์ ํน์ฑ(๋์นญ์ฑ, ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ, ๊ธฐํํ์ ์ ์ฝ)์ ๊ธฐ๋ฐ์ผ๋ก ํ implicit guidance
- Multi-stage curriculum learning: ํ๋ จ ์ค ๊ณผ์ ๋ณต์ก๋๋ฅผ ์ ์ง์ ์ผ๋ก ์ฆ๊ฐ
- Domain randomization: ํ๊ฒฝ ํ๋ผ๋ฏธํฐ ๋ณํ๋ฅผ ์๋ฎฌ๋ ์ด์
์์ ์ ์ฉํ์ฌ robust ์ ์ฑ
ํ๋
- Sim-to-real transfer: ์๋ฎฌ๋ ์ด์
์ ์ฑ
์ ๋ฌผ๋ฆฌ ๋ก๋ด์ ๋ฐฐํฌ ๋ฐ ๊ฒ์ฆ
Originality
- ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋กค๋ฌ์ค์ผ์ดํ
์ฐ๊ตฌ์์ ์์ DRL ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์ ์ ์ (๊ธฐ์กด์ model-based ๊ถค์ ๊ณํ ์์ฃผ)
- Nonholonomic ์ ์ฝ์ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋งํ์ง ์๊ณ implicit reward function์ผ๋ก ์๋ ํ์ต
- Swizzle ์ค์ผ์ดํ
์ด๋ผ๋ ํนํ๋ ๋ณดํ ํจํด์ DRL๋ก ์ต๋ํ๋ ์ฒซ ์ฌ๋ก
- Multi-stage curriculum learning๊ณผ domain randomization์ ์กฐํฉ์ผ๋ก sim-to-real ์ฑ๊ณต ๋ฌ์ฑ
- ๊ธฐ์กด ZMP/MPC ๊ธฐ๋ฐ ์ ๊ทผ์ ์ ์ฝ์ ๋ฒ์ด๋ ์๋ก์ด ํจ๋ฌ๋ค์ ์ ์
Limitation & Further Study
- ์ค์ ํ๊ฒฝ์์์ ์ง๋ฉด ๋ง์ฐฐ ํน์ฑ ๋ณํ(์ผ์, ์ตํ ํ๋ฉด ๋ฑ)์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ ๋ฏธ๊ฒ์ฆ
- Swizzle ์ค์ผ์ดํ
์ ๊ตญํ๋ ํ์ต์ผ๋ก ๋ค๋ฅธ ์ค์ผ์ดํ
ํจํด(cross-over, backward ๋ฑ) ์ ์ฉ ๋ฏธํ์ธ
- ๋ก๋ด์ ์๋ ๋ฒ์๊ฐ ์ ํ์ ์ผ ์ ์์ผ๋ฉฐ ๊ณ ์ ์ค์ผ์ดํ
์์์ ์์ ์ฑ ๋ฏธ๊ธฐ์
- ํ์ต ์ ์ฑ
์ ํด์๊ฐ๋ฅ์ฑ ๋ฐ generalization bound์ ๋ํ ์ด๋ก ์ ๋ถ์ ๋ถ์กฑ
- ํ์์ฐ๊ตฌ: (1) ๋ค์ํ ํ๊ฒฝ ์กฐ๊ฑด์์์ ์ ์ํ ์ ์ด, (2) ๋ณต์ ์ค์ผ์ดํ
ํจํด ํ์ต, (3) ๊ฒฝ์ฌ์ง ์งํ ๋ฐ ์ฅ์ ๋ฌผ ํํผ ๋ฅ๋ ฅ ์ถ๊ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์๋์ง ํจ์จ๊ณผ ๊ด์ ์๋ช
ํฅ์์ ์ํด ๋กค๋ฌ์ค์ผ์ดํ
์ด๋ผ๋ ์ฐฝ์์ ์ธ ์๋ฃจ์
์ ์ ์ํ๊ณ , DRL ๊ธฐ๋ฐ ์ ์ด ํ๋ ์์ํฌ๋ฅผ ํตํด ํ์ค์ ์ธ ๊ตฌํ์ ๋ฌ์ฑํ ํ์ ์ ์ฐ๊ตฌ์ด๋ค. 85~76% ์์ค์ ๋์ ์ฑ๋ฅ ๊ฐ์ ๊ณผ sim-to-real ์ ์ด์ ์ฑ๊ณต์ ๋ก๋ด ์ด๋ ์ ์ด ๋ถ์ผ์ ์ค์ง์ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์