Toward Reliable Sim-to-Real Predictability for MoE-based Robust Quadrupedal Locomotion
์ ์: Tianyang Wu, Hanwei Guo, Yuhang Wang, Junshu Yang, Xinyang Sui, Jiayi Xie, Xingyu Chen, Zeyang Liu, Xuguang Lan | ๋ ์ง: 2026-01-31 | URL: https://arxiv.org/abs/2602.00678 📄 PDF
Essence
Fig. 1:
๋ณธ ๋
ผ๋ฌธ์ Mixture-of-Experts (MoE) ๊ธฐ๋ฐ ์ฌ์กฑ ๋ก๋ด ์ด๋ ์ ์ฑ
๊ณผ sim-to-real ์ ์ด ๊ฐ๋ฅ์ฑ์ ์ ๋ํํ๋ RoboGauge ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํตํฉํ์ฌ ์ ๋ขฐํ ์ ์๋ ์๋ฎฌ๋ ์ด์
-์ค์ ๊ฐ ๊ฐญ์ ํด์ํ๋ ํตํฉ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Motivation
- Known: ๊ฐํํ์ต์ ํตํ ์ฌ์กฑ ๋ก๋ด ์ด๋ ์ ์ด๋ ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ํ๋ จ์ผ๋ก ์ ๋ง์ฑ์ ๋ณด์์ผ๋, sim-to-real ๊ฐญ๊ณผ ๋ณด์ ๊ณผ์ ํฉ์ผ๋ก ์ธํด ์ ์ฑ
์ ์ด ์คํจ์ ๋ฌผ๋ฆฌ ๊ฒ์ฆ์ ์ํ์ฑ์ด ์๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ ๋์ ์๋ฎฌ๋ ์ด์
๋ณด์์ด ์ค์ ๋ก๋ด ์์ ์ฑ์ ๋ณด์ฅํ์ง ๋ชปํ๋ฉฐ, ์ ๋ขฐํ ์ ์๋ ์ ๋์ ์งํ์ ๋ถ์ฌ๋ก ์ธํด ์ง์ ๋ฌผ๋ฆฌ ๊ฒ์ฆ์ ์์กดํด์ผ ํ๋ ๋ฌธ์ ๊ฐ ์๋ค.
- Why: ์ ๋ขฐํ ์ ์๋ sim-to-real ์ ์ด ์์ธก์ ๋ก๋ด ํ๋์จ์ด ์์ ์ํ์ ์ค์ด๊ณ ๋ค์ํ ๊ทนํ ์งํ์์์ ๊ฒฌ๊ณ ํ ์ด๋์ฑ ๋ฌ์ฑ์ ์ํด ์ค์ํ๋ค.
- Approach: MoE ์ํคํ
์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ๊ณ ์ ๋ ์ ๋ฌธ๊ฐ ๋คํธ์ํฌ์ ๊ฒ์ดํ
์ ํตํด ์งํ๊ณผ ๋ช
๋ น์ ๋ถํดํ๊ณ , ๋ณ๋ ฌํ๋ sim-to-sim ํ
์คํธ๋ฅผ ํตํด ๋ค์ฐจ์ ๊ณ ์ ๊ฐ๊ฐ ๊ธฐ๋ฐ ๋ฉํธ๋ฆญ์ผ๋ก sim-to-real ์ ์ด์ฑ์ ์ ๋ํํ๋ RoboGauge ํ๊ฐ ์ค์ํธ๋ฅผ ์ ์ํ๋ค.
Achievement
Fig. 2: Comparative analysis against one-stage proprioceptive
- RoboGauge ํ๊ฐ ํ๋ ์์ํฌ: 7๊ฐ ์งํ, 10๊ฐ ๋์ด๋ ์์ค, 4๊ฐ ๋๋ฉ์ธ ๋ฌด์์ํ๋ฅผ ํฌํจํ ๋ณ๋ ฌํ๋ sim-to-sim ๋ฐฉ๋ฒ๋ก ์ผ๋ก ์ค์ ๋ฐฐํฌ ์ ํ๋์จ์ด ์์ ์ํ์ ์ํ
- MoE ์ ์ฑ
์ฐ์์ฑ: ๋ชจ๋ ์งํ ๋ฒ์ฃผ์์ CTS, HIM, DreamWaQ ๋ฑ ๊ธฐ์กด ๋จ๊ณ์ ๊ณ ์ ๊ฐ๊ฐ ๋ฐฉ๋ฒ์ ๋ฅ๊ฐํ๋ ๋ค์ค ์งํ ํํ ๋ฅ๋ ฅ
- ๊ณ ์ ์ด๋ ๋ฌ์ฑ: Unitree Go2 ๋ก๋ด์ด ํํ์ง์์ 4 m/s ์๋ ๋ฌ์ฑ ๋ฐ ๊ณ ์ ์์ ์ฑ ํฅ์๊ณผ ๊ด๋ จ๋ ์ ๊ท ์ข์ ํญ์ ๋ณดํ ์ถํ
- ๋์ ์ ์งํ ํก๋จ: ๋, ๋ชจ๋, ๊ณ๋จ, ๊ฒฝ์ฌ๋ฉด, 30cm ์ฅ์ ๋ฌผ ๋ฑ ๋ฏธ์ง์ ๊น๋ค๋ก์ด ์งํ์์ ๊ฒฌ๊ณ ํ ์ด๋ ์ฑ๋ฅ ์
์ฆ
How
Fig. 1:
- POMDP๋ก ๋ชจ๋ธ๋ง๋ ์ฌ์กฑ ๋ก๋ด ์ด๋ ์ ์ด ๋ฌธ์ ์์ IMU์ ์กฐ์ธํธ ์ธ์ฝ๋๋ง ์ฌ์ฉํ๋ ๊ณ ์ ๊ฐ๊ฐ ๊ธฐ๋ฐ ๊ด์ฐฐ
- K๊ฐ์ ๋ณ๋ ฌ ์ ๋ฌธ๊ฐ ์๋ธ๋คํธ์ํฌ {Ek}์ ๋์ ๊ฐ์ค์น ํ ๋น์ ์ํ ๊ฒ์ดํ
๋คํธ์ํฌ g๋ก ๊ตฌ์ฑ๋ MoE ๊ตฌ์กฐ
- Concurrent Teacher-Student (CTS) ํ๋ ์์ํฌ ๋ด์์ MoE๋ฅผ ํ์ ์ธ์ฝ๋๋ก ํตํฉํ์ฌ ํ์ ๋ชจ๋ธ์ ํํ ๋ฅ๋ ฅ ์ฆ๊ฐ
- 6๊ฐ ๋ฉํธ๋ฆญ, 7๊ฐ ์งํ, 10๊ฐ ๋์ด๋ ์์ค, 3๊ฐ ๋ชฉํ, 4๊ฐ ๋๋ฉ์ธ ๋ฌด์์ํ๋ฅผ ํฌํจํ ๋ณ๋ ฌํ๋ RoboGauge ํ๊ฐ
- PD ์ปจํธ๋กค๋ฌ๋ฅผ ํตํ ํ ํฌ ๊ณ์ฐ์ผ๋ก ๋ชฉํ ์กฐ์ธํธ ์์น ๋ฌ์ฑ
- ํน๊ถ ๊ด์ฐฐ(privileged observation)์ ํ๋ จ ์ค ์ฌ์ฉํ๋ ๋ฐฐํฌ ์์๋ ๊ด์ฐฐ๋ง ์ฌ์ฉํ๋ ๊ต์ฌ-ํ์ ๋ถ๋ฆฌ
Originality
- sim-to-real ์ ์ด ๊ฐ๋ฅ์ฑ์ ์ ๋ํํ๋ ์ ๋ฌธ์ ์ด๊ณ ์ข
ํฉ์ ์ธ RoboGauge ํ๊ฐ ํ๋ ์์ํฌ์ ๊ฐ๋ฐ์ด ์ ๊ท์
- CTS ํ๋ ์์ํฌ์ MoE ๊ตฌ์กฐ๋ฅผ ํตํฉํ์ฌ ํ์ ๋ชจ๋ธ์ ํํ ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ์ ๊ทผ๋ฒ์ด ๊ธฐ์กด ๊ต์ฌ-ํ์ ๋ฐฉ๋ฒ๊ณผ ์ฐจ๋ณํ
- ๊ณ ์ ๊ฐ๊ฐ๋ง์ ์ฌ์ฉํ๋ฉฐ ์นด๋ฉ๋ผ, LiDAR, ๋ฐ ์ ์ด ์ผ์ ๋ฑ ์ธ์์ฉ ์ผ์๋ฅผ ํผํ๋ ์ค๊ณ๋ ๊ทนํ ํ๊ฒฝ์์์ ๊ฒฌ๊ณ ์ฑ ํ๋ณด์ ์ ๊ท์
- 4 m/s์ ๋์ ์๋์์ ์ถํํ๋ ์ข์ ํญ์ ๋ณดํ ํน์ฑ์ ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ์ ์ฑ
์ต์ ํ์ ์ ๊ทํ ๋ฐ๊ฒฌ
Limitation & Further Study
- RoboGauge์ sim-to-sim ๋ฉํธ๋ฆญ์ด ์ค์ sim-to-real ์ ์ด๋ฅผ ์์ ํ ํฌ๊ดํ์ง ๋ชปํ ๊ฐ๋ฅ์ฑ์ด ์์ผ๋ฉฐ, ๋ฉํธ๋ฆญ๊ณผ ์ค์ ์ฑ๋ฅ ๊ฐ์ ์ ํํ ๋์ ๊ด๊ณ ๋ถ์ ํ์
- ๋จ์ผ ๋ก๋ด ํ๋ซํผ(Unitree Go2)์์๋ง ๊ฒ์ฆ๋์์ผ๋ฏ๋ก ๋ค์ํ ์ฌ์กฑ ๋ก๋ด ์ค๊ณ์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธํ์ธ
- ์งํ ๋ฌด์์ํ์ ๋๋ฉ์ธ ๋ฌด์์ํ์ ๋ฒ์ ๋ฐ ํ์ค์ฑ์ ๋ํ ์์ธํ ๋ถ์์ด ๋ถ์กฑํ๋ฉฐ, ๋ ๊ทนํ์ ์ธ ํ๊ฒฝ ์กฐ๊ฑด์์์ ์ฑ๋ฅ ํ๊ฐ ํ์
- MoE์ ์ ๋ฌธ๊ฐ ์ K ์ ํ ๊ธฐ์ค๊ณผ ๊ฒ์ดํ
๋คํธ์ํฌ์ ์ค๊ณ์ ๋ํ ์ด๋ก ์ ๊ทผ๊ฑฐ์ ๋ฏผ๊ฐ๋ ๋ถ์์ด ์ ์๋์ง ์์
- ํ์ ์ฐ๊ตฌ๋ RoboGauge ๋ฉํธ๋ฆญ์ ํ๋น์ฑ ๊ฒ์ฆ, ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ํ์ฅ, ๋ ๊ทนํ ํ๊ฒฝ์์์ ์ค์ ๋ฐฐํฌ ์ํ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ MoE ๊ธฐ๋ฐ ์ ์ฑ
๊ณผ RoboGauge ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํตํฉํ์ฌ sim-to-real ๊ฐญ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๊ณ , ๊ทนํ ์งํ์์ 4 m/s์ ๊ฒฌ๊ณ ํ ์ด๋ ์ฑ๋ฅ์ ์
์ฆํจ์ผ๋ก์จ ์ฌ์กฑ ๋ก๋ด ์ด๋ ์ ์ด ๋ถ์ผ์ ์ ์๋ฏธํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์