Whole-Body Model-Predictive Control of Legged Robots with MuJoCo
๐ง Audio Overview ์์ฑ
์ ์ : John Z. Zhang, Taylor A. Howell, Zeji Yi, Chaoyi Pan, Guanya Shi, Guannan Qu, Tom Erez, Yuval Tassa, Zachary Manchester | ๋ ์ง : 2025-03-06 | URL : https://arxiv.org/abs/2503.04613 📄 PDF
Essence
Fig. 1.
MuJoCo ๋ฌผ๋ฆฌ์์ง๊ณผ iterative LQR (iLQR) ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฐํฉํ์ฌ ์ฌ์กฑ ๋ฐ ์ธํ๋ก๋ด์ ์ ์ ๋ชจ๋ธ์์ธก์ ์ด(MPC)๋ฅผ ์ค์๊ฐ์ผ๋ก ์ํํ๊ณ , ๊ฐ๋จํ ๋ฐฉ๋ฒ์ผ๋ก๋ ํ์ค ์ธ๊ณ์ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉ ๊ฐ๋ฅํจ์ ์
์ฆํ๋ ์ฐ๊ตฌ์ด๋ค.
Motivation
Known : MPC๋ ๊ฐ๋ ฅํ ์ ์ด ํจ๋ฌ๋ค์์ด์ง๋ง ์ค์๊ฐ ์ฑ๋ฅ์ด ์๊ตฌ๋๋ ๊ณ ์์ ๋ ๋ค๋ฆฌ๋ก๋ด ์ ์ด์๋ ๋ณต์กํ ์ปค์คํ
๊ตฌํ์ด ํ์ํ๋ค. ์ต๊ทผ ์๋ฎฌ๋ ์ด์
๊ธฐ์ ๊ณผ RL์ ๋ฐ์ ์ผ๋ก sim-to-real ์ฑ๋ฅ์ด ๊ฐ์ ๋์์ผ๋, ๋ชจ๋ธ๊ธฐ๋ฐ ์ ์ด๋ ์ฌ์ ํ ์ฌํ์ฑ์ด ๋ฎ๊ณ ์ปค๋ฎค๋ํฐ ์ฑํ์ด ๋๋ ธ๋ค.
Gap : ๊ธฐ์กด ์ ์ MPC ๋ฐฉ๋ฒ๋ค์ ์ ์ด ์ญํ์ ๋น๋งค๋๋ฌ์ด ํน์ฑ ์ฒ๋ฆฌ, ํด์์ ๋ฏธ๋ถ ๊ณ์ฐ, ์ปค์คํ
์ต์ ํ ์๋ฒ ๊ฐ๋ฐ์ ๋ณต์ก์ฑ์ผ๋ก ์ธํด ์ฌํ์ฑ์ด ๋ฎ๊ณ ์ฐ๊ตฌ ์ง์
์ฅ๋ฒฝ์ด ๋์๋ค. ํ์ค ์๋ฎฌ๋ ์ดํฐ์ ๊ฐ๋จํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก๋ ์ค์ ๋ก๋ด ์ ์ด๊ฐ ๊ฐ๋ฅํ์ง ์ฆ๋ช
๋์ง ์์๋ค.
Why : ๋ชจ๋ธ๊ธฐ๋ฐ ์ ์ด์ ์ง์
์ฅ๋ฒฝ์ ๋ฎ์ถ๊ณ ์ฌํ ๊ฐ๋ฅํ ์คํ์์ค baseline์ ์ ๊ณตํจ์ผ๋ก์จ ์ปค๋ฎค๋ํฐ ์ฐ๊ตฌ ์๋๋ฅผ ๊ฐ์ํํ ์ ์์ผ๋ฉฐ, ๋ณต์กํ ๋ค๋ฆฌ๋ก๋ด ์ ์ด ํ์คํฌ์ ์ค์๊ฐ ์ํ ๊ฐ๋ฅ์ฑ์ ์
์ฆํ๋ ๊ฒ์ด ์ค์ํ๋ค.
Approach : MuJoCo ๋ฌผ๋ฆฌ์์ง์ soft contact ๋ชจ๋ธ๊ณผ ์ ํ์ฐจ๋ถ ๋ฏธ๋ถ ๊ทผ์ฌ๋ฅผ ํ์ฉํ์ฌ iLQR ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌํํ๊ณ , time-varying LQR ํผ๋๋ฐฑ ์ ์ฑ
์ผ๋ก 300-500 Hz ์ค์๊ฐ ์ ์ด๋ฅผ ๋ฌ์ฑํ๋ค. interactive GUI๋ฅผ ํตํด ์ค์๊ฐ ํ๋ผ๋ฏธํฐ ํ๋์ ๊ฐ๋ฅํ๊ฒ ํ์๋ค.
Achievement
Fig. 1.
๊ฐ๋จํ baseline ์๊ณ ๋ฆฌ์ฆ ์ ์ : MuJoCo iLQR์ ์ฌ์ฉํ ๋จ์ํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ์ ์ MPC ๋ฐฉ๋ฒ์ผ๋ก, ๋ณต์กํ ์ปค์คํ
๊ตฌํ ์์ด๋ real-time ์ ์ด ๋ฌ์ฑ
๋ค์ํ ํ๋์จ์ด ์ค์ฆ : ์ฌ์กฑ ๋์ ๋ณดํ, ์ฌ์กฑ ์ด์กฑ๋ณดํ(handstand), ์ ์ ์ธํ๋ก๋ด ์ด์กฑ๋ณดํ ๋ฑ ์ฌ๋ฌ ๊ณผ์ ์์ ์ฑ๊ณต์ ์ ์ฉ ์
์ฆ
์คํ์์ค ๊ตฌํ ๋ฐ ๋๊ตฌ ์ ๊ณต : ์ฝ๋, ์คํ ์์, interactive GUI ๊ณต๊ฐ๋ก ์ฌํ์ฑ ๊ทน๋ํ ๋ฐ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ ์ ๊ทผ์ฑ ํฅ์
sim-to-real ์ ํจ์ฑ ์ฆ๋ช
: ๋ชจ๋ธ ๋ถ์ผ์น(soft contact ๋ชจ๋ธ vs. ์ค์ ๋ก๋ด)๊ฐ ์์์๋ ๋ถ๊ตฌํ๊ณ ํจ๊ณผ์ ์ธ ํ์ค ์ธ๊ณ ์ ์ฉ ๊ฐ๋ฅ์ฑ ์
์ฆ
How
Fig. 2.
iLQR ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋น์ ํ ๊ถค์ ์ต์ ํ ๋ฌธ์ ๋ฐ๋ณต ํด๊ฒฐ (์ 1)
MuJoCo์ ํจ์จ์ ์ธ C ๊ตฌํ์ ํ์ฉํ forward dynamics ๋ฐ ์ ํ์ฐจ๋ถ ๋ฏธ๋ถ ๊ณ์ฐ
soft contact ๋ชจ๋ธ๋ก ๋น๋งค๋๋ฌ์ด ์ ์ด ์ญํ ์ฒ๋ฆฌ
time-varying LQR ํผ๋๋ฐฑ ์ ์ฑ
: u_t = ลซ_t + K_t(x_t - xฬ_t) ํํ๋ก 50 Hz ๊ณํ, 300 Hz ํผ๋๋ฐฑ ์
๋ฐ์ดํธ
motion capture์ ๊ด์ฑ์ธก์ ์ฅ์น(IMU), ์์ฝ๋ ์ตํฉ์ ํตํ ์ํ ์ถ์
joint-level PD ์ปจํธ๋กค๋ฌ์์ ๊ณ์ธต์ ์ ์ด ๊ตฌ์กฐ
Interactive GUI๋ฅผ ํตํ ์ค์๊ฐ cost weight, goal location, hyperparameter ์กฐ์
Originality
์ ํ์ฐจ๋ถ ๋ฏธ๋ถ ๊ทผ์ฌ์ ํ์ค ๋ฌผ๋ฆฌ์์ง(MuJoCo)๋ง์ผ๋ก ์ ์ ๋ค๋ฆฌ๋ก๋ด MPC๋ฅผ ์ค์๊ฐ ์ํํ๋ ๋จ์์ฑ๊ณผ ํจ๊ณผ์ฑ์ ์กฐํ
์ ์ด ๋ชจ๋๋ฅผ ๋ช
์์ ์ผ๋ก ์ง์ ํ์ง ์์ผ๋ฉด์๋ soft contact ๋ชจ๋ธ๋ก ๋ณต์กํ ์ ์ด ์ญํ ์ฒ๋ฆฌ
interactive GUI๋ฅผ ํตํ ์ค์๊ฐ ํ๋ผ๋ฏธํฐ ํ๋์ผ๋ก ์ฌ์ฉ์ ์นํ์ ์ ์ด ์์คํ
๊ตฌํ
์ด์กฑ๋ณดํ์ฒ๋ผ ๋ณธ์ง์ ์ผ๋ก open-loop unstableํ ํ์คํฌ์ derivative-based MPC(iLQR) ์ ์ฉ ์ฑ๊ณต
Limitation & Further Study
Soft contact ๋ชจ๋ธ๊ณผ ์ค์ ๋ก๋ด ์ ์ด์ model mismatch๊ฐ ์กด์ฌํ๋ ๊ฒฝํ์ ์ผ๋ก ์๋ (๊ทผ๋ณธ์ ์์ธ ๋ถ์ ๋ถ์กฑ)
์ ํ์ฐจ๋ถ ๋ฏธ๋ถ ๊ทผ์ฌ์ ์์น ์์ ์ฑ ๋ฐ ์ ํ๋ ํ๊ณ์ ๋ํ ์์ธ ๋ถ์ ๋ถ์ฌ
MPC ๊ณ์ฐ ๋ณต์ก๋๋ก ์ธํ ๊ณํ ์งํ(planning horizon) ์ ์ฝ ๋ฐ long-horizon ํ์คํฌ ์ ์ฉ ํ๊ณ
ํ์ฌ ๊ตฌํ์ด ํน์ ๋ก๋ด ํ๋ซํผ(Unitree)์ ์ต์ ํ๋์ด ์์ด ๋ค๋ฅธ ํ๋ซํผ์ผ๋ก์ ์ผ๋ฐํ ์ฉ์ด์ฑ ๋ถ๋ช
ํ
ํ์ ์ฐ๊ตฌ : contact mode ์๋ ์ ํ ๋ฉ์ปค๋์ฆ, ๋ ์ ๊ตํ ๋ฏธ๋ถ ๊ทผ์ฌ ๋ฐฉ๋ฒ ํ์, ๋์ ๋ชจ๋ธ ๋ถ์ผ์น ๋์ ๊ฐํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : ์ด ๋
ผ๋ฌธ์ ๋ณต์กํ ์ต์ ํ ์ด๋ก ๋์ ํ์ค ๋๊ตฌ๋ค์ ์กฐํฉ์ผ๋ก ํ์ค ์ธ๊ณ ๋ค๋ฆฌ๋ก๋ด ์ ์ด๋ฅผ ์ฑ๊ณต์ํจ ์ฐ์ํ ์ค์ฆ ์ฐ๊ตฌ์ด๋ฉฐ, ๊ณต๊ฐ๋ ์ฝ๋์ ์์ธํ ๊ตฌํ ์ ๋ณด๋ก ์ปค๋ฎค๋ํฐ ์ฐ๊ตฌ ๊ฐ์ํ์ ํฐ ๊ธฐ์ฌํ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com