MOSAIC: Bridging the Sim-to-Real Gap in Generalist Humanoid Motion Tracking and Teleoperation with Rapid Residual Adaptation
์ ์: Zhenguo Sun, Bo-Sheng Huang, Yibo Peng, Xukun Li, Jingyu Ma, Yu Sun, Zhe Li, Haojun Jiang, Biao Gao, Zhenshan Bing, Xinlong Wang, Alois Knoll | ๋ ์ง: 2026-02-11 | DOI: 10.48550/arXiv.2602.08594 📄 PDF
Essence
Fig. 2: MOSAIC System Overview. MOSAIC consists of a unified trainingโdeployment pipeline for humanoid motion tracking
MOSAIC๋ ๊ฐํํ์ต์ ํตํด ํ์ตํ ๋ฒ์ฉ humanoid ๋์ ์ถ์ ๊ธฐ์ ๋น ๋ฅธ residual ์ ์ ๋ฉ์ปค๋์ฆ์ ๊ฒฐํฉํ์ฌ ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ๊ฐ์ gap์ ์ค์ด๊ณ ์ฅ์๊ฐ์ ํ
๋ ์คํผ๋ ์ด์
์ ์์ ์ ์ผ๋ก ์ง์ํ๋ ์์คํ
์ด๋ค.
Motivation
- Known: RL ๊ธฐ๋ฐ motion imitation์ DeepMimic ์ดํ ๋ฐ์ ํ์ฌ GMT, Any2Track, UniTracker ๋ฑ์ ๋ฒ์ฉ motion tracker๊ฐ ๋ฑ์ฅํ์ผ๋ฉฐ, TWIST, SONIC ๋ฑ์ ํ
๋ ์คํผ๋ ์ด์
์์คํ
๋ ๊ฐ๋ฐ๋์๋ค. ํ์ง๋ง ์๋ฎฌ๋ ์ด์
์์์ ์ฑ๋ฅ์ด ์ค์ ๋ก๋ด์์๋ ๋ณด์ฅ๋์ง ์๋๋ค.
- Gap: ๋ฒ์ฉ motion tracker๊ฐ ์๋ฎฌ๋ ์ด์
์์ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋๋ผ๋ ์ค์ ๋ก๋ด์์์ ์ฅ์๊ฐ ํ
๋ ์คํผ๋ ์ด์
์ค์๋ interface ์ค๋ฅ์ dynamics ์ค๋ฅ๋ก ์ธํด ๋ถ์์ ํด์ง๋ค. ๋ํ heterogeneous ๋ฐ์ดํฐ์ ๋ค์ํ ํ
๋ ์คํผ๋ ์ด์
interface์ ํน์ฑ ์ฐจ์ด๋ฅผ ๋์์ ์ฒ๋ฆฌํ๊ธฐ ์ด๋ ต๋ค.
- Why: ๋ฒ์ฉ humanoid ๋ก๋ด์ ํ
๋ ์คํผ๋ ์ด์
์ ์๊ฒฉ ์กฐ์๊ณผ ๋๊ท๋ชจ ์์ฐ ์์ง์ ๊ธฐ์ด์ด๋ฉฐ, ์ด๋ฅผ ์ํด์๋ ๋ค์ํ ๋์์ ์ผ๋ฐํํ๋ฉด์๋ ์ค์ ํ๊ฒฝ์ interface-induced error์ ๊ฐ๊ฑดํ ์์คํ
์ด ํ์์ ์ด๋ค.
- Approach: ๋จผ์ multi-source motion bank์ adaptive resampling, world-frame motion consistency๋ฅผ ๊ฐ์กฐํ๋ ๋ณด์ ์ค๊ณ๋ฅผ ํตํด RL๋ก ๋ฒ์ฉ motion tracker๋ฅผ ํ์ตํ๊ณ , ์ดํ ์๋์ interface-specific ๋ฐ์ดํฐ๋ก ํ์ตํ ์ ์ ์ ์ฑ
์ residual ๋ชจ๋๋ก ๋ฒ์ฉ tracker์ distillํ์ฌ ๋น ๋ฅธ interface ์ ์์ ๋ฌ์ฑํ๋ค.
Achievement
Fig. 3: Quantitative Comparison and Ablation Studies
- MOSAIC ์์คํ
: ์คํ๋ผ์ธ motion replay์ ์จ๋ผ์ธ ๋ค์ค interface ํ
๋ ์คํผ๋ ์ด์
์ ์ง์ํ๋ ํตํฉ humanoid motion tracking ์์คํ
์ผ๋ก, ์ค์ ๋ก๋ด์์ ๋ถ๋น ๋จ์์ robustํ tracking ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
- Residual adaptation ๋ฉ์ปค๋์ฆ: ์ผ๋ฐ tracker์ ์๋์ interface-specific ๋ฐ์ดํฐ(์ฝ 30๋ถ)๋ง์ผ๋ก ์๋ก์ด interface์ ๋น ๋ฅด๊ฒ ์ ์ํ๋ฉฐ, naive fine-tuning์ด๋ continual learning๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ์ ๊ณตํ๋ค.
- RobotBridge ๋ฐฐํฌ ํ๋ ์์ํฌ: motion reference, policy execution, simulator/robot backend, low-level controller ๊ฐ์ interface๋ฅผ ํ์คํํ์ฌ ์ฌ๋ฌ humanoid ํ๋ซํผ ๊ฐ ํฌํ
์ฑ์ ํฅ์์์ผฐ๋ค.
- ๊ณต๊ฐ ๋ฆฌ์์ค ๋ฐ ์ค์ฆ: ํ์ต ๋ฐ ๋ฐฐํฌ ํ์ดํ๋ผ์ธ, ๊ณ ํ์ง motion dataset, trained checkpoint์ ํจ๊ป ๊ด๋ฒ์ํ ablation study์ ์ค์ ๋ก๋ด ์คํ ๊ฒฐ๊ณผ๋ฅผ ๊ณต๊ฐํ๋ค.
How
Fig. 2: MOSAIC System Overview. MOSAIC consists of a unified trainingโdeployment pipeline for humanoid motion tracking
- Multi-source motion bank์์ ๋์์ ์์งํ๊ณ two-level adaptive resampling์ ์ ์ฉํ์ฌ dataset ๋ถ๊ท ํ์ ์ํ
- RL ๋ณด์ ํจ์๋ฅผ ์ค๊ณํ์ฌ ์ ์ฒด ์ ์ฒด pose tracking๊ณผ ํจ๊ป world-frame motion consistency(body position, global motion ์ถ์ )๋ฅผ ๋ช
์์ ์ผ๋ก ๊ฐ์กฐ
- Interface-specific policy๋ฅผ ์๋์ ๋ฐ์ดํฐ๋ก ํ์ตํ ํ, ์ด๋ฅผ additive residual module๋ก ๋ฒ์ฉ tracker์ distillํ์ฌ interface ์ ์
- RobotBridge๋ฅผ ํตํด motion reference, policy executor, simulator/robot backend, low-level controller๋ฅผ ๋ชจ๋ํํ์ฌ ์ผ๊ด๋ ํ๊ฐ ๋ฐ ํฌํ
์ง์
- Offline motion replay(๋ค์ํ ๋์ ์ฌํ)์ online teleoperation(์ค์๊ฐ human motion stream ๋ฐ์)์ ๋์ผํ ์ ์ฑ
์ผ๋ก ํตํฉ ์ง์
Originality
- ํ
๋ ์คํผ๋ ์ด์
ํ๊ฒฝ์ requirements๋ฅผ ๋ช
์์ ์ผ๋ก ๋ฐ์ํ RL ๋ณด์ ์ค๊ณ(world-frame motion consistency ๊ฐ์กฐ)๋ก ๋จ์ pose tracking์ ๋์ด deployment-ready ์ฑ๋ฅ ๋ฌ์ฑ
- Residual distillation์ ํตํ interface ์ ์ ๋ฐฉ์์ ๊ธฐ์กด residual learning์ ๊ด๋ก๋ฅผ ๋ฐ๋ฅด๋, ๋ฒ์ฉ์ฑ ๋ณด์กด๊ณผ interface-specific correction์ balance๋ฅผ new system ๊ด์ ์์ ์ค์ฆ์ ์ผ๋ก ๊ฒ์ฆ
- Multi-source heterogeneous dataset ์ฒ๋ฆฌ๋ฅผ ์ํ two-level adaptive resampling๊ณผ stage-wise training ์ ๋ต์ผ๋ก ๊ธฐ์กด motion scaling ๋ฐฉ์์ ํ๊ณ ๊ทน๋ณต
- RobotBridge๋ผ๋ modular ๋ฐฐํฌ ํ๋ ์์ํฌ๋ฅผ ํตํด ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ๊ฐ์ ์ฌํ์ฑ ๋ฐ ๊ณต์ ํ ๋น๊ต๋ฅผ ํฅ์
Limitation & Further Study
- Residual adaptation์ด interface-specific ํน์ฑ์๋ง ์ง์คํ๋ฏ๋ก, ๋ก๋ด์ dynamics ๋ณํ(์: embodiment ๋ณ๊ฒฝ)์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ช
ํํ์ง ์์
- ์ฝ 30๋ถ์ interface-specific ๋ฐ์ดํฐ ์์ง์ด ์ฌ์ ํ ํ์ํ๋ฏ๋ก, ์์ ํ zero-shot adaptation์ ๋ฌ์ฑํ์ง ๋ชปํจ
- ํ์ฌ ๋ฐฉ๋ฒ๋ก ์ด ํน์ humanoid ํ๋ซํผ(BAAI H-1 ๋ฑ) ์ค์ฌ์ผ๋ก ํ๊ฐ๋์์ผ๋ฏ๋ก, ๋ค์ํ ํํ์ humanoid์ ๋ํ ์ผ๋ฐํ ๊ฒ์ฆ์ด ํ์
- World-frame motion consistency ๋ณด์์ด ์ค์ํ๋ค๋ ๋ฐ๊ฒฌ์ ์ค์ฆ์ ์ด์ง๋ง, ์ด๋ฅผ ์ ๋์ ์ผ๋ก ์ค๊ณํ๋ ์ผ๋ฐ ์์น ์ ์ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ: (1) ๋ค์ํ embodiment dynamics ๋ณํ์ ๋ํ domain randomization ๋๋ meta-learning ๊ธฐ๋ฒ ํตํฉ, (2) ์ ์ ๋ฐ์ดํฐ ์๊ตฌ๋ ์ต์ํ๋ฅผ ์ํ few-shot learning ๊ธฐ๋ฒ ์ ์ฉ, (3) ๋ค์ํ humanoid ํ๋ซํผ์์์ cross-embodiment ์ ์ด ํ์ต ๊ฒ์ฆ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: MOSAIC๋ ์๋ฎฌ๋ ์ด์
-์ค์ ๋ก๋ด ๊ฐ ๊ฒฉ์ฐจ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๊ธฐ ์ํด ํ
๋ ์คํผ๋ ์ด์
์งํฅ์ RL ์ค๊ณ์ residual adaptation์ ๊ฒฐํฉํ ์ค์ฉ์ ์ด๊ณ ์ ์ค๊ณ๋ ์์คํ
์ผ๋ก, RobotBridge ํ๋ ์์ํฌ์ ํจ๊ป ๊ณต๊ฐ๋์ด ์ฌํ์ฑ๊ณผ ํ์ฅ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค. ๋ค๋ง ์์ ํ zero-shot adaptation๊ณผ ๋ค์ํ embodiment์ ๋ํ ๋์ฑ ๊ฐ๋ ฅํ ์ผ๋ฐํ๊ฐ ํฅํ ๊ณผ์ ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์