PolySim: Bridging the Sim-to-Real Gap for Humanoid Control via Multi-Simulator Dynamics Randomization
์ ์: Zixing Lei, Zibo Zhou, Sheng Yin, Yueru Chen, Qingyao Xu, Weixin Li, Yunhong Wang, Bowei Tang, Wei Jing, Siheng Chen | ๋ ์ง: 2025-10-02 | URL: https://arxiv.org/abs/2510.01708 📄 PDF
Essence
Fig. 2: Visual illustration of PolySim. The pink star denotes
PolySim์ ์ฌ๋ฌ ์ด์ง์ ์ธ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ๋ณ๋ ฌ๋ก ํ์ฉํ์ฌ ํ๋ จํ๋ ํ๋ซํผ์ผ๋ก, ๋จ์ผ ์๋ฎฌ๋ ์ดํฐ์ ๊ท๋ฉ์ ํธํฅ์ ์ํํ๊ณ ํ์ค ์ธ๊ณ๋ก์ ์ ์ด ๊ฐญ์ ์ค์ธ๋ค.
Motivation
- Known: ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ์ธ๊ฐํ ๋ก๋ด ์ ์ด๋ RL๊ณผ ๊ณ ์ถฉ์ค๋ ์๋ฎฌ๋ ์ดํฐ ๋ฐ์ ์ผ๋ก ์ง์ ๋์์ผ๋, ๋จ์ผ ์๋ฎฌ๋ ์ดํฐ ํ๋ จ์ ๊ทธ ์๋ฎฌ๋ ์ดํฐ์ ๋ชจ๋ธ๋ง ๊ฐ์ ์ ์์๋ฐ์ ํ์ค ์ธ๊ณ์์ ๊ฐญ์ด ๋ฐ์ํ๋ค.
- Gap: ๊ธฐ์กด domain randomization ๋ฐฉ๋ฒ์ ๋งค๊ฐ๋ณ์ ์์ค์์๋ง ๋ฌด์์ํ๋ฅผ ์ํํ๋ฏ๋ก ์๋ฎฌ๋ ์ดํฐ์ ๊ธฐ๋ณธ transition model์ ๋ฒ์ด๋์ง ๋ชปํ๋ฉฐ, ๋จ์ผ ์๋ฎฌ๋ ์ดํฐ์ ๊ตฌ์กฐ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ์ง ๋ชปํ๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ ๊ณ ์ฐจ์์ด๊ณ ์ ์ด์ด ๋ง์ ํ์ค ๋ฐ์ดํฐ ์์ง์ด ๋น์ฉ์ด ํฌ๋ฏ๋ก, ์ฌ๋ฌ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํ์ฉํ ํจ๊ณผ์ ์ธ ํ์ค ์ ์ด๋ ์ค์ ๋ฐฐํฌ์ ํ์์ ์ด๋ค.
- Approach: PolySim์ ๋ค์ค ์๋ฎฌ๋ ์ดํฐ๋ก๋ถํฐ ๋ณ๋ ฌ ํ๊ฒฝ์ ๋์์ ์คํํ์ฌ dynamics ์์ค์ domain randomization์ ๊ตฌํํ๊ณ , ํ๋ จ-์๋ฎฌ๋ ์ด์
๋ถ๋ฆฌ ์ํคํ
์ฒ์ unified simulator router๋ฅผ ํตํด ์ด์ง์ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํตํฉํ๋ค.
Achievement
Fig. 4: Success rate on seen and unseen simulators under
- ์ด๋ก ์ ๋ถ์: PolySim์ด ๋งค๊ฐ๋ณ์ ์์ค ๋ฌด์์ํ๋ณด๋ค ์๋ฎฌ๋ ์ดํฐ ๊ท๋ฉ์ ํธํฅ์ ๋ํด ๋ ํ์ดํธํ ์ํ์ ์ ๊ณตํจ์ ์ฆ๋ช
- Sim-to-sim ์ฑ๋ฅ: MuJoCo ํ๊ฐ์์ IsaacSim ๋ฒ ์ด์ค๋ผ์ธ ๋๋น 52.8% ์คํ ์ฑ๊ณต๋ฅ ๊ฐ์
- Zero-shot ํ์ค ๋ฐฐํฌ: ์ถ๊ฐ fine-tuning ์์ด ์ค์ Unitree G1 humanoid์ ์ฑ๊ณต์ ์ผ๋ก ๋ฐฐํฌ
How
Fig. 3: System overview of the proposed parallel multi-simulator RL framework (Mode III). Left (Training Framework):
- Training-Simulation Isolation: TrainClient์ SimServer๋ฅผ ๋ถ๋ฆฌํ์ฌ ์๋ฎฌ๋ ์ดํฐ์ RL ํ์ต์๋ฅผ ๋
๋ฆฝ์ ์ผ๋ก ์คํํ๊ณ GPU ๋ฆฌ์์ค ๊ฒฝ์์ ์ํ
- Simulator Router: ์ด์ง์ ์๋ฎฌ๋ ์ดํฐ์ ์ฅ๋ฉด ๋งค๊ฐ๋ณ์, API, ์์น ๊ท๋ฒ์ ํต์ผํ์ฌ invariant semantics ์ ๊ณต
- GPU Pass-through Communication: NCCL์ ํตํ ์๊ฒฉ ํ๋ก์์ ํธ์ถ๋ก ๋ฐ์ดํฐ๋ฅผ GPU์ ์ ์งํ์ฌ ๊ณ ์ฒ๋ฆฌ๋ ๋ณ๋ ฌ ํ๋ จ ์คํ
- Physics Harmonization: ๊ฐ ์๋ฎฌ๋ ์ดํฐ์์ ์ต๋ํ ์ ๋ ฌ๋ ์ฅ๋ฉด ๊ตฌ์ฑ
- API Translation: ๊ณตํต ์ธํฐํ์ด์ค ๋
ธ์ถ ๋ฐ ์ผ๊ด๋ ๊ด์ฐฐ-ํ๋-๋ณด์ ์ ํธ ์ ๋ฌ
- Numerical Normalization: ์ ๊ฒฝ๋ง ํ๋์ด ๊ฐ ์์ง์ ์ฌ๋ฐ๋ฅด๊ฒ ํด์๋๋๋ก ๋ณด์ฅ
Originality
- ๊ธฐ์กด cross-simulator ํ๋ ์์ํฌ(HumanoidVerse, MetaSim)์ ๋ฌ๋ฆฌ ๋จ์ผ ํ๋ จ ๋ฃจํ ๋ด์์ ์ค์๊ฐ ๋ณ๋ ฌ cross-simulator RL ์ต์ ํ ๊ตฌํ
- Dynamics ์์ค์ domain randomization ๊ฐ๋
๋์
์ผ๋ก ๊ธฐ์กด ๋งค๊ฐ๋ณ์ ์์ค ๋ฌด์์ํ์ ํ๊ณ ๊ทน๋ณต
- ํด๋ผ์ด์ธํธ-์๋ฒ ์ํคํ
์ฒ ๋ฐ GPU pass-through RPC๋ฅผ ํตํด ์ด์ง์ ์๋ฎฌ๋ ์ดํฐ์ ํจ์จ์ ๋ณ๋ ฌ ์คํ ์คํ
Limitation & Further Study
- ์ฌ๋ฌ ์๋ฎฌ๋ ์ดํฐ ํตํฉ์ ๊ณ์ฐ ๋น์ฉ ์ฆ๊ฐ ๋ฐ ๋ฆฌ์์ค ์๊ตฌ์ฌํญ์ ๋ํ ์์ธ ๋ถ์ ๋ถ์กฑ
- ํ์ค ๋ฐฐํฌ๋ ๋จ์ผ ๋ก๋ด(Unitree G1)์์๋ง ๊ฒ์ฆ๋์ด ๋ค์ํ ํ๋ซํผ์์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธํ์ธ
- Simulator router์ physics harmonization์ด ๋ชจ๋ ์ด์ง์ ์๋ฎฌ๋ ์ดํฐ ์์์ ๋๋ฑํ ํจ๊ณผ๋ฅผ ๋ณด์ด๋์ง ๋ถ๋ช
ํ
- ํ์ ์ฐ๊ตฌ: ๋ ๋ง์ ์ค์ ๋ก๋ด ํ๋ซํผ์์์ ๋ฐฐํฌ ๊ฒ์ฆ, ์๋ฎฌ๋ ์ดํฐ ์ ์ฆ๊ฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ํฌํ ๋ถ์, online system identification๊ณผ์ ๊ฒฐํฉ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: PolySim์ ๋ค์ค ์๋ฎฌ๋ ์ดํฐ ๋ณ๋ ฌ ํ๋ จ์ ํตํด simulator inductive bias๋ฅผ ๊ทผ๋ณธ์ ์ผ๋ก ์ํํ๋ ํ์ ์ ์ ๊ทผ๋ฒ์ด๋ฉฐ, ๊ฒฌ๊ณ ํ ์ด๋ก ์ ๊ทผ๊ฑฐ์ ์ค์ ๋ฐฐํฌ ์ฑ๊ณต์ผ๋ก humanoid control์ ํ์ค ์ ์ด ๋ฌธ์ ํด๊ฒฐ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์