An Real-Sim-Real (RSR) Loop Framework for Generalizable Robotic Policy Transfer with Differentiable Simulation
์ ์: Lu Shi, Yuxuan Xu, Shiyu Wang, Jinhao Huang, Wenhao Zhao, Yufei Jia, Zike Yan, Weibin Gu, Guyue Zhou | ๋ ์ง: 2025-03-13 | URL: https://arxiv.org/abs/2503.10118 📄 PDF
Essence
Fig. 1.
๋ณธ ๋
ผ๋ฌธ์ Real-Sim-Real (RSR) ๋ฃจํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ differentiable simulation์ ํ์ฉํด ์๋ฎฌ๋ ์ด์
ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ ํ๊ณ ์ค์ ์ธ๊ณ ์กฐ๊ฑด๊ณผ ์ ๋ ฌ์ํด์ผ๋ก์จ sim-to-real ๊ฐญ์ ํด์ํ๋ค. ์ ๋ณด ์ด๋ก ๊ธฐ๋ฐ์ ๋น์ฉ ํจ์๋ฅผ ํตํด ๋ค์ํ๊ณ ๋ํ์ ์ธ ์ค์ธ๊ณ ๋ฐ์ดํฐ ์์ง์ ์ ๋ํ์ฌ ์๋ฎฌ๋ ์ด์
์ ์ ์ ํจ์จ์ฑ์ ๊ทน๋ํํ๋ค.
Motivation
- Known: Domain Randomization (DR)๊ณผ domain adaptation์ sim-to-real ๊ฐญ ํด์์ ์ฃผ์ ๊ธฐ๋ฒ์ด๋, DR์ ์๋ ์ ํ์ด ํ์ํ๊ณ ํ์ํ ๋ฃจํ ์ ๊ทผ์ผ๋ก ์ค์ธ๊ณ ๋ฐ์ดํฐ ํผ๋๋ฐฑ์ ํ์ฉํ์ง ๋ชปํ๋ค. Differentiable simulator๋ฅผ ์ด์ฉํ ํ๋ผ๋ฏธํฐ ํ๋๋ ์ ์๋์์ผ๋ ์ค์ธ๊ณ ๋ฐ์ดํฐ ํธํฅ๊ณผ ์ผ๋ฐํ ๋ฌธ์ ๊ฐ ๋จ์์๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ค์ธ๊ณ ๋ฐ์ดํฐ ์์ง ๊ณผ์ ์ ํธํฅ์ ๊ฐ๊ณผํ๋ฉฐ, ์๊ฐ ์ ๋ณด๋ง์ ์์กดํ๊ฑฐ๋ ํน์ ๋ก๋ด ์ ํ์ ์ ํ๋๋ค. ์ ์ฑ
์ด ์ค์ํ ์์ญ์ ๊ท ํ์๊ฒ ํ์ํ๋๋ก ์ ๋ํ๋ฉด์ ์๋ฎฌ๋ ์ด์
ํ๋์ ์ํ ์ ๋ณด์ฑ ๋์ ๋ฐ์ดํฐ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์์งํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: ๋ก๋ด ์ ์ฑ
์ ์ค์ ๋ฐฐํฌ์ ์์ด sim-to-real ๊ฐญ ๊ฐ์๋ ์์ ์ฑ๊ณผ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค. ์ ๋ณด ์ด๋ก ๊ธฐ๋ฐ ๋น์ฉ ํจ์๋ก ๋ฐ์ดํฐ ์์ง ๊ณผ์ ์ ์ต์ ํํ๋ฉด ์ ํ๋ ์ค์ธ๊ณ ์ํธ์์ฉ์ผ๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๋ค.
- Approach: RSR ๋ฃจํ๋ ์ค์ธ๊ณ์์ ์์งํ ๋ฐ์ดํฐ๋ก ์๋ฎฌ๋ ์ด์
์ ํ๋ํ๊ณ , ๊ฐ์ ๋ ์๋ฎฌ๋ ์ด์
์์ ์ ์ฑ
์ ํ์ตํ๋ฉฐ, ์ด๋ฅผ ๋ค์ ์ค์ธ๊ณ์ ๋ฐฐํฌํ๋ ๋ฐ๋ณต ๊ณผ์ ์ ์ํํ๋ค. Information theory ๊ธฐ๋ฐ์ informative cost function์ ์ค๊ณํ์ฌ PPO, SAC ๋ฑ ๊ธฐ์กด RL ์๊ณ ๋ฆฌ์ฆ๊ณผ ํตํฉ ๊ฐ๋ฅํ๊ฒ ํ๊ณ , MuJoCo MJX ํ๋ซํผ ์์ ๊ตฌํํ์ฌ ๋ค์ํ ๋ก๋ด ์์คํ
๊ณผ์ ํธํ์ฑ์ ๋ณด์ฅํ๋ค.
Achievement
- Informative Cost Function: ์ ๋ณด ์ด๋ก ์ ๊ธฐ๋ฐํ ๋น์ฉ ํจ์๊ฐ ์ค์ธ๊ณ ๋ฐ์ดํฐ ์์ง์ ํธํฅ์ ์ต์ํํ๊ณ ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ์ ์๋ฎฌ๋ ์ด์
์ ์ ์ ๋ํ ๊ธฐ์ฌ๋๋ฅผ ์ต๋ํํจ
- ์๊ณ ๋ฆฌ์ฆ ํตํฉ์ฑ: ์ ์๋ ๋น์ฉ ํจ์๊ฐ PPO, SAC ๋ฑ ๊ธฐ์กด RL ์๊ณ ๋ฆฌ์ฆ๊ณผ seamlessly ํตํฉ๋์ด ์ถ๊ฐ์ ์ธ ๊ตฌํ ์์ ์ด ์ต์ํ๋จ
- ์ผ๋ฐํ ์ฑ๋ฅ: ๋ก๋ด ์กฐ์ ํ์คํฌ์์ ๋ช
์์ ยท์์์ ํ๊ฒฝ ๋ถํ์ค์ฑ ๋ชจ๋์ ๋ํด ๋์ ์์
์ฑ๋ฅ๊ณผ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฌ์ฑ
- ํ๋ซํผ ํธํ์ฑ: MuJoCo MJX ํ๋ซํผ ๊ธฐ๋ฐ ๊ตฌํ์ผ๋ก ๋ค์ํ ๋ก๋ด ์์คํ
์ ์ ์ฉ ๊ฐ๋ฅํ ํ์ฅ์ฑ ํ๋ณด
How
Fig. 1.
- Kernel Density Estimation (KDE)์ ํตํด ์ค์ธ๊ณ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ์ถ์ ํ๊ณ ๋ฏธํ์ ์์ญ ์๋ณ
- ์ ๋ณด ์ด๋ก ๋ฉํธ๋ฆญ(์: entropy reduction, mutual information)์ ๊ธฐ๋ฐ์ผ๋ก ์๋ฎฌ๋ ์ด์
ํ๋์ ์ต์ ํ๋ ๋ฐ์ดํฐ ํฌ์ธํธ์ ์ ๋ณด์ฑ ์ ๋ํ
- ๋น์ฉ ํจ์์ ๋ฌผ๋ฆฌ์ ์ํ์ ์๊ฐ์ ์ ๋ณด๋ฅผ ๋ชจ๋ ํฌํจํ์ฌ dynamic variables(์๋, ๊ฐ์๋, ์ค๋ฌ์คํธ ๋ฑ) ํฌ์ฐฉ
- Differentiable simulator์ gradient ๊ณ์ฐ์ผ๋ก ์ค์ธ๊ณ ๋ฐ์ดํฐ์ ์๋ฎฌ๋ ์ด์
๊ฐ ์์ค ํจ์ ์ต์ํ
- ๊ฐ์ ๋ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ RL ์ ์ฑ
ํ์ต ํ ์ค์ธ๊ณ ๋ฐฐํฌ, ๊ทธ๋ฆฌ๊ณ ๋ค์ ์ค์ธ๊ณ ๋ฐ์ดํฐ ์์ง์ผ๋ก RSR ๋ฃจํ ๋ฐ๋ณต
Originality
- Information theory ๊ธฐ๋ฐ์ informative cost function์ RL ์๊ณ ๋ฆฌ์ฆ๊ณผ ๊ฒฐํฉํ์ฌ ๋ฅ๋์ ๋ฐ์ดํฐ ์์ง ์ ๋ต์ ์ ์ํ ์ ์ด ๊ธฐ์กด ์๋ parameter randomization๊ณผ ์ฐจ๋ณํ๋จ
- ๋ฌผ๋ฆฌ์ ์ํ์ ์๊ฐ์ ์ ๋ณด๋ฅผ ๋์์ ๊ณ ๋ คํ๋ ๋ค์ค ๋ชจ๋ ๋น์ฉ ํจ์ ์ค๊ณ๋ก robustํ ์๋ฎฌ๋ ์ด์
ํ๋ ๊ฐ๋ฅ
- RSR ๋ฃจํ๋ฅผ ํตํ ํ์ํ ํผ๋๋ฐฑ ๊ตฌ์กฐ๋ก ์ค์ธ๊ณ ๋ฐ์ดํฐ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํ์ฉํ๋ ๋ฐ๋ณต ๊ฐ์ ํ๋ ์์ํฌ
Limitation & Further Study
- ์๊ฐ์ ์์ค ํจ์ ์ถ๊ฐ์ ๋ฐ๋ฅธ ๊ณ์ฐ ๋น์ฉ ์ฆ๊ฐ์ ์ฑ๋ฅ ํฅ์ ๊ฐ์ ํธ๋ ์ด๋์คํ์ ๋ํ ๋ถ์์ด ์ถฉ๋ถํ์ง ์์
- ๋ค์ํ ๋ก๋ด ํ๋ซํผ(ํ, ์ด์กฑ๋ณดํ๋ก๋ด, ๋๋ก ๋ฑ)์์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ์ด ์ ํ์ ์ผ๋ก ์ ์๋จ
- ์ค์ธ๊ณ ์คํ ๊ท๋ชจ๊ฐ ์ ํ์ ์ด์ด์ ๋๊ท๋ชจ ์ฐ์
์์ฉ์ ํ์ค์ฑ ํ๊ฐ ํ์
- ํ์ ์ฐ๊ตฌ: ๋ ๋ณต์กํ ๋์ญํ ๋ฐ ๋ค์ค ์์ด์ ํธ ์๋๋ฆฌ์ค๋ก์ ํ์ฅ, ๊ณ์ฐ ํจ์จ์ฑ ์ต์ ํ, ๋ค์ํ ์ผ์ ๋ชจ๋ฌ๋ฆฌํฐ ํตํฉ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ information theory ๊ธฐ๋ฐ์ informative cost function์ ํตํด sim-to-real ์ ์ด ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๋ ์๋ก์ด RSR ๋ฃจํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, differentiable simulation๊ณผ ๊ธฐ์กด RL ์๊ณ ๋ฆฌ์ฆ์ ํตํฉ์ผ๋ก ์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ๋ค๋ง ์ค์ธ๊ณ ์คํ์ ๋ฒ์ ํ๋์ ๊ณ์ฐ ๋น์ฉ ๋ถ์์ด ์ถํ ๊ณผ์ ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์