OmniClone: Engineering a Robust, All-Rounder Whole-Body Humanoid Teleoperation System
์ ์: Yixuan Li, Le Ma, Yutang Lin, Yushi Du, Mengya Liu, Kaizhe Hu, Jieming Cui, Yixin Zhu, Wei Liang, Baoxiong Jia, Siyuan Huang | ๋ ์ง: 2026-03-15 | URL: https://arxiv.org/abs/2603.14327 📄 PDF
Essence
Fig. 1: OmniClone achieves well-balanced, high-fidelity whole-body tracking across all MPJPE dimensions on OmniBench whi
OmniClone์ ๋จ์ผ ์๋น์ GPU์์ ์ ์ ํด๋จธ๋
ธ์ด๋ ํ
๋ ์คํผ๋ ์ด์
์ ์คํํ๋ ์์คํ
์ผ๋ก, OmniBench ์ง๋จ ๋ฒค์น๋งํฌ๋ฅผ ํตํด ๊ธฐ์กด ์์คํ
์ ๋์๋ณ ์ฑ๋ฅ ๊ฒฉ์ฐจ๋ฅผ ๋
ธ์ถํ๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ต์ ํ๋ ์ ์ฑ
๊ณผ ์์คํ
๊ธฐ์ ์ ํตํฉํ์ฌ MPJPE๋ฅผ 66% ์ด์ ๊ฐ์์์ผฐ๋ค.
Motivation
- Known: ์ต๊ทผ ํด๋จธ๋
ธ์ด๋ ํ
๋ ์คํผ๋ ์ด์
์ฐ๊ตฌ๋ ๊ณ ๋ํ๋์์ผ๋, ๊ธฐ์กด ํ๊ฐ ๋ฐฉ์์ ์ง๊ณ ์งํ๋ง ๋ณด๊ณ ํ์ฌ ๋์ ์ด๋๊ณผ ์ ๋ฐ ์กฐ์ ๋ฑ ์์ดํ ์ด๋ ๋ชจ์ ๊ฐ์ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ชจํธํ๊ฒ ํ๋ค. ๋ํ ์์คํ
๊ตฌ์ฑ์ด ํน์ ๋ฐฉ๋ฒ์ ๋ฐ์ ํ๊ฒ ๊ฒฐํฉ๋์ด ์์ด ์ฌํ์ฑ๊ณผ ํ์ฅ์ฑ์ด ์ ํ์ ์ด๋ค.
- Gap: ๊ธฐ์กด ์์คํ
๋ค์ ๊ณ ๋๋ก ์ด์ง์ ์ด๊ณ ๊ฒฌ๊ณ ํ ์ค์๊ฐ ์ฌํ๊ฒํ
๋ฉ์ปค๋์ฆ๊ณผ ๋คํธ์ํฌ ๋ถ์์ ์ฑ ์ฒ๋ฆฌ ๊ธฐ์ ์ด ๋ถ์กฑํ๋ฉฐ, ํตํฉ๋ ์ง๋จ ํ๊ฐ ๊ธฐ์ค์ด ์์ด์ ์ด๋ ๋์ ๋ฒ์ฃผ์์ ์คํจํ๋์ง ํ์
ํ๊ธฐ ์ด๋ ต๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ค์ฉ์ ๋ฐฐํฌ๋ฅผ ์ํด์๋ ๋์ ๋ฏผ์ฒฉ์ฑ๊ณผ ์์ ์ ์กฐ์์ ๋ชจ๋ ์ฒ๋ฆฌํ ์ ์๋ ๊ฒฌ๊ณ ํ ์์คํ
์ด ํ์์ ์ด๋ฉฐ, ์ง๋จ์ ํ๊ฐ๋ฅผ ํตํ ์ฒด๊ณ์ ๊ฐ์ ์ด ํ์ํ๋ค. ๋ํ ๋ค์ํ ์ ์ฒด ์ฒดํ์ ์คํผ๋ ์ดํฐ์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ์์จ ํ์ต์ฉ ๋ฐ์ดํฐ ์์ง ์์ง์ผ๋ก์์ ํ์ฉ์ด ์ค์ํ๋ค.
- Approach: OmniBench๋ผ๋ ์ง๋จ ๋ฒค์น๋งํฌ๋ฅผ ๊ฐ๋ฐํ์ฌ 18๊ฐ์ ๊ณ์ธตํ๋ ๋์ ๋ฒ์ฃผ๋ณ๋ก ์ฑ๋ฅ์ ํ๊ฐํ๊ณ , ์ด๋ฌํ ์ง๋จ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ๋ฐ์ดํฐ ๊ท ํ ์ต์ ํ์ ์ ์ด์ ๋ฌด๊ด(control-source-agnostic) ๋จ์ผ ํตํฉ ์ ์ฑ
์ ์ค๊ณํ๋ฉฐ, subject-agnostic retargeting๊ณผ robust communication์ ํตํด ์ค์ธ๊ณ ๋ฐฐํฌ์ ๋ถํ์ค์ฑ์ ์ฒ๋ฆฌํ๋ค.
Achievement
Fig. 1: OmniClone achieves well-balanced, high-fidelity whole-body tracking across all MPJPE dimensions on OmniBench whi
- OmniBench ์ง๋จ ๋ฒค์น๋งํฌ: ๋์ ๋ฒ์ฃผ์ ๋์ด๋๋ณ๋ก ๊ณ์ธตํ๋ ์ฒซ ํฌ๊ด์ ํ๊ฐ ์ค์ํธ๋ฅผ ์ ์ํ์ฌ ๊ธฐ์กด ์์คํ
์ ์ข์ ์ ๋ฌธ์ฑ์ ๋
ธ์ถํ๊ณ ์ค์ง์ ๊ฐ์ ๋ฐฉํฅ์ ์ ์
- ๋์ ์ฑ๋ฅ ๊ฐ์ : ๊ธฐ์กด SOTA ๊ธฐ์ค(GMT, Twist2)๊ณผ ๋น๊ตํ์ฌ ๋ชจ๋ MPJPE ์ฐจ์์์ 66% ์ด์์ ์ค์ฐจ ๊ฐ์๋ฅผ ๋ฌ์ฑ
- ์ ๋ ดํ ๊ณ์ฐ ๋น์ฉ: 30์๊ฐ์ ๋ชจ์
๋ฐ์ดํฐ์ ๋จ์ผ ์๋น์ GPU๋ง์ผ๋ก ํ์ต ๊ฐ๋ฅํ๋ฉฐ, ๊ธฐํ ๋ฐฉ๋ฒ ๋๋น ์ ๋ฐฐ ์ ์ ๊ณ์ฐ ์์ ํ์
- ์ ์ด์ ๋ฌด๊ด ํตํฉ ์ ์ฑ
: ์ค์๊ฐ ํ
๋ ์คํผ๋ ์ด์
, ์์ฑ๋ ๋ชจ์
์ฌ์, Vision-Language-Action ๋ชจ๋ธ์ ๋จ์ผ ์ ์ฑ
์ผ๋ก ์ง์
- ์ ์ฒด ๋น๋ก ์ผ๋ฐํ: 1.47m์์ 1.94m๊น์ง์ ๋ค์ํ ์ ์ฒด ์ฒดํ์ ๊ฐ์ง ์คํผ๋ ์ดํฐ์ ์ผ๋ฐํ
- ์์จ ํ์ต ๊ฒ์ฆ: OmniClone ์์ง ๋ฐ์ดํฐ๋ก ํ์ตํ VLA ์ ์ฑ
์ด Pick-and-Place 85.71%, Squat to Pick-and-Place 80.00%์ ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
How
Fig. 3: Overview of the OmniClone framework, comprising model training (top) and system infrastructure (bottom). Top: a
- OmniBench ์ค๊ณ: 18๊ฐ ๊ณ์ธตํ ๋ฒ์ฃผ(Loco High/Med/Low, Manip High/Med/Low, Squat/Walk/Run/Jump ๊ฐ 3๋จ๊ณ)๋ก ๋ฏธํ์ต ๋ชจ์
์ ๋ํด ํ๊ฐ
- ๋ฐ์ดํฐ ๋ ์ํผ ์ต์ ํ: ์ง๋จ ๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ๋์ ๋์๊ณผ ์์ ์ ์กฐ์ ๊ฐ์ ๋ฐ์ดํฐ ๊ท ํ์ ์กฐ์ ํ์ฌ ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ฑ ๊ฐ์
- Subject-agnostic Retargeting: ๋ชจ์
์บก์ฒ ์์คํ
๊ณผ ์คํผ๋ ์ดํฐ ์ ์ฒด ํน์ฑ์ ๋ณ๋์ฑ์ ์ฒ๋ฆฌํ๊ธฐ ์ํ ์ฌํ๊ฒํ
๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ
- Robust Communication: ๋คํธ์ํฌ ์ง์ฐ๊ณผ ๋ณ๋์ฑ์ ์ํํ๊ธฐ ์ํ ํต์ ๋ ์ด์ด ์ค๊ณ
- Transformer ๊ธฐ๋ฐ ์ ์ฑ
: ๊ณ ์ฉ๋์ transformer ์ํคํ
์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ ์ถ์ ์ ์ฑ
ํ์ต
- ๋ค์ค ์ ์ด์ ํธํ์ฑ: ์๊ฒฉ ์ ์ด, ๋ชจ์
์ฌ์, VLA ๋ชจ๋ธ์ ์ถ๋ ฅ์ ๋จ์ผ ์ ์ฑ
์์ ์ฒ๋ฆฌ ๊ฐ๋ฅํ๋๋ก ์ค๊ณ
Originality
- ์ง๋จ์ ๋ฒค์น๋งํน ์ ๊ทผ: ๊ธฐ์กด ํ
๋ ์คํผ๋ ์ด์
์ฐ๊ตฌ๋ ์ง๊ณ ์งํ๋ฅผ ์ฌ์ฉํ์ผ๋, OmniBench๋ ์ฒ์์ผ๋ก ๋์ ๋ฒ์ฃผ์ ๋์ด๋๋ณ ๊ณ์ธตํ ํ๊ฐ๋ฅผ ๋์
ํ์ฌ ์์คํ
์ ๊ตฌ์ฒด์ ์ฝ์ ์ ๋
ธ์ถ
- ์์คํ
๊ณตํ์ ๊ด์ : ๋จ์ํ ๋ชจ๋ธ ๊ฐ์ ์ด ์๋๋ผ ๋ฐ์ดํฐ ๋ ์ํผ, ์ฌํ๊ฒํ
, ํต์ ์ธํ๋ผ ๋ฑ ์ ์ฒด ํ์ดํ๋ผ์ธ์ ํตํฉ์ ์ผ๋ก ์ต์ ํ
- ์ ์ด์ ๋ฌด๊ด ์ค๊ณ: ๊ธฐ์กด ํ
๋ ์คํผ๋ ์ด์
์์คํ
์ ํน์ ์
๋ ฅ ์์ค(MoCap, VR ๋ฑ)์ ์ต์ ํ๋์์ผ๋, OmniClone์ ์ฌ๋ฌ ์ ์ด์์ ๋จ์ผ ์ ์ฑ
์ผ๋ก ์ฒ๋ฆฌํ๋ ์ ์ฐ์ฑ ์ ์
- ์ค์ฉ์ ์ฌํ์ฑ: 30์๊ฐ ๋ฐ์ดํฐ์ ์๋น์ GPU๋ก SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ ๊ธฐ์กด์ ๋ณต์กํ๊ณ ๋น์ผ ์์คํ
๊ณผ ๊ตฌ๋ณ๋๋ ์ ๊ทผ์ฑ ์ ๊ณต
Limitation & Further Study
- ํ๊ฐ ๋ฒ์ ํ์ : OmniBench๋ ์ ์๋ ๋ฒค์น๋งํฌ์ด์ง๋ง, ์ค์ ์๊ธ ์ํฉ์ด๋ ๊ทนํ ํ๊ฒฝ(๋งค์ฐ ์ข์ ๊ณต๊ฐ, ๋์ ์ธ๋ ๋ฑ)์์์ ์ฑ๋ฅ์ ๋ช
ํํ์ง ์์
- ๋คํธ์ํฌ ์กฐ๊ฑด ๋ค์์ฑ ๋ถ์กฑ: robust communication์ด ๊ตฌํ๋์์ผ๋, ๊ทน๋๋ก ๋ถ์์ ํ ๋คํธ์ํฌ ํ๊ฒฝ(๋์ ์ง์ฐ, ์ฌ๊ฐํ ํจํท ์์ค)์ ๋ํ ํ๊ฐ ๋ถ์ฌ
- ํ๋์จ์ด ์์กด์ฑ: ๋จ์ผ ์๋น์ GPU์์์ ๋์์ ๊ฐ์กฐํ๋, ๋ค์ํ GPU ๋ชจ๋ธ์ ๋ํ ํธํ์ฑ๊ณผ ์ฑ๋ฅ ๋ณ๋์ฑ์ด ์์ธํ ๋
ผ์๋์ง ์์
- ๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ๊ณ: 30์๊ฐ์ ํ์ต ๋ฐ์ดํฐ๋ ์ ์ง๋ง, ๋งค์ฐ ํน์ดํ ๋์์ด๋ ๊ธด๊ธ ์ํฉ์ ๋ํ ๋ฐ์ดํฐ ๋ถ์กฑ ์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- ํ์ ์ฐ๊ตฌ: (1) ๋งค์ฐ ๋์ ์ง์ฐ๊ณผ ๋ถ์์ ํ ๋คํธ์ํฌ ํ๊ฒฝ์์์ ์ ์ํ ์ ์ด ์ ๋ต ๊ฐ๋ฐ, (2) ์ค์ ์๊ธ ์ํฉ ๋๋ ์ธ๋์ด ์๋ ํ๊ฒฝ์์์ ๊ฒฌ๊ณ ์ฑ ๊ฒ์ฆ, (3) ๋ ๋ค์ํ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ์ด์ (transfer) ์ฑ๋ฅ ํ๊ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: OmniClone์ ์ง๋จ์ ๋ฒค์น๋งํน๊ณผ ์์คํ
๊ณตํ์ ๊ฒฐํฉํ์ฌ ์ค์ฉ์ ์ด๋ฉด์๋ ๊ฐ๋ ฅํ ํด๋จธ๋
ธ์ด๋ ํ
๋ ์คํผ๋ ์ด์
์์คํ
์ ์ ์ํ๋ค. OmniBench๋ ๊ธฐ์กด ํ๊ฐ ๋ฐฉ์์ ๊ทผ๋ณธ์ ํ๊ณ๋ฅผ ์ง์ ํ๊ณ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์ฒด๊ณ์ ๊ฐ์ ์ด ๋ค๋ฐ๋ฅด๋ ์ , ๊ทธ๋ฆฌ๊ณ ์๋น์ GPU๋ก SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉด์๋ ๋์ ์ ๊ทผ์ฑ์ ์ ๊ณตํ๋ ์ ์์ ํ์ ์ , ์ค์ฉ์ ๊ฐ์น๊ฐ ๋ชจ๋ ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์