OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control
์ ์: Yunshen Wang, Shaohang Zhu, Peiyuan Zhi, Yuhan Li, Jiaxin Li, Yong-Lu Li, Yuchen Xiao, Xingxing Wang, Baoxiong Jia, Siyuan Huang | ๋ ์ง: 2026-02-27 | DOI: 10.48550/arXiv.2602.23843 📄 PDF
Essence
Fig. 1: Extreme whole-body humanoid control from our unified policy OMNIXTREME. (a) A quantitative comparison shows
OmniXtreme๋ flow-matching ๊ธฐ๋ฐ์ ์์ฑํ ์ ์ฑ
๊ณผ actuation-aware residual RL์ ๊ฒฐํฉํ์ฌ ๊ณ ๋์ญ ์ธ๊ฐํ ๋ก๋ด์ ๋ค์ํ ๊ทน๋จ์ ๋์์ ๊ณ ์ถฉ์ค๋๋ก ์ถ์ ํ ์ ์๋ ํ์ฅ ๊ฐ๋ฅํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Motivation
- Known: ๊ธฐ์กด ํ์ต ๊ธฐ๋ฐ ๋ชจ์
์ถ์ ์ ๋จ์ผ ๋์์์๋ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ง๋ง, ๋์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๊ท๋ชจ์ ๋ค์์ฑ์ด ์ฆ๊ฐํ ์๋ก ์ถ์ ์ถฉ์ค๋๊ฐ ๊ธ๊ฒฉํ ์ ํ๋๋ fidelity-scalability trade-off ๋ฌธ์ ๊ฐ ์กด์ฌํ๋ค.
- Gap: ๊ธฐ์กด ์ ๊ทผ๋ฒ๋ค์ (1) MLP ๊ฐ์ ๋จ์ํ ์ ์ฑ
ํํ๊ณผ multi-motion RL์ gradient interference๋ก ์ธํ ํ์ต ๋ณ๋ชฉ, (2) ์ค์ ๋ก๋ด ๋ฐฐํฌ ์ ๋ชจ๋ธ๋ง๋์ง ์์ ๊ตฌ๋๊ธฐ ๋น์ ํ์ฑ(ํ ํฌ-์๋ ํน์ฑ, ์ฌ์ ์ ๋ ฅ ํ์ ๋ฑ)์ ์ถฉ๋ถํ ๊ณ ๋ คํ์ง ๋ชปํ๊ณ ์๋ค.
- Why: ๊ณ ๋์ญ ์ธ๊ฐํ ๋ก๋ด์ด ์ผ์์ ์์
๊ณผ ๋ณต์กํ ์ํธ์์ฉ์ ์ํํ๋ ค๋ฉด ๋ค์ํ ๋์์ ๋์ ์ถฉ์ค๋๋ก ์ถ์ ํ ์ ์๋ ๋ฒ์ฉ์ ์ ์ด ์ ์ฑ
์ด ํ์์ ์ด๋ฉฐ, ์ด๋ ํ์ ๋ก์ฝ-๋งค๋ํฐ๋ ์ด์
๋ฐ ํํ์ ์ํธ์์ฉ์ ๊ธฐ๋ฐ์ด ๋๋ค.
- Approach: OmniXtreme์ (1) specialist ์ ์ฑ
๋ค๋ก๋ถํฐ flow-matching์ ํตํ behavior cloning์ผ๋ก ํํ ํ์ต์ ์ํํ๊ณ , (2) ์ค์ ๊ตฌ๋ ์ ์ฝ์ ๊ณ ๋ คํ residual RL ๊ธฐ๋ฐ์ actuation-aware ํ์ฒ๋ฆฌ ๋จ๊ณ๋ฅผ ์ถ๊ฐํ์ฌ ๋ ๋ณ๋ชฉ์ ๋ช
์์ ์ผ๋ก ํด๊ฒฐํ๋ค.
Achievement
Fig. 1: Extreme whole-body humanoid control from our unified policy OMNIXTREME. (a) A quantitative comparison shows
- ํ์ฅ ๊ฐ๋ฅํ ์์ฑํ ์ ์ฑ
: Flow-matching๊ณผ ๊ณ ์ฉ๋ ์ํคํ
์ฒ๋ฅผ ํตํด multi-motion RL์ gradient interference ์์ด ํํ ์ฉ๋์ ํ์ฅ
- Actuation-aware ์คํ ๋ณด์ฅ: ํ ํฌ-์๋ ํน์ฑ, ์๋ ์์กด ์์ค, ์ฌ์ ์ ๋ ฅ ํ์ ๋ฑ์ ๋ชจ๋ธ๋งํ residual RL๋ก ์ค์ ๋ก๋ด์์์ ๋ฌผ๋ฆฌ์ ์คํ ๊ฐ๋ฅ์ฑ ํ๋ณด
- ๊ทน๋จ์ ๋์ ์ถ์ : ๋์ ์๋(์ต๋ 15 rad/s), ๋น๋ฒํ ์ ์ด ์ ํ, ๊ณต์ค ๋์์ ํฌํจํ ๋ค์ํ ๊ทน๋จ์ ํ๋์ Unitree G1์์ ์ฑ๊ณต์ ์ผ๋ก ์คํ
- Fidelity-scalability trade-off ํด๊ฒฐ: ๋์ ๋ค์์ฑ ์ฆ๊ฐ์๋ ๋ถ๊ตฌํ๊ณ ๋์ ์ถ์ ์ถฉ์ค๋ ์ ์ง
How
Fig. 2: Overview of the OMNIXTREME. (a) Pretraining phase:
- Specialist ์ ์ฑ
ํ์ต: ๊ฐ ๋์ ๋๋ ๋์ ๊ทธ๋ฃน์ ๋ํด ๋
๋ฆฝ์ ์ธ RL ๊ธฐ๋ฐ specialist ์ ์ฑ
ํ๋ จ
- Flow-matching์ ์ด์ฉํ ํตํฉ ์ ์ฑ
์ฌ์ ํ์ต: Specialist ์ ์ฑ
๋ค์ ํ๋ ๋ฐ์ดํฐ๋ก๋ถํฐ flow-matching ๊ธฐ๋ฐ ์์ฑํ ์ ์ฑ
์ behavior cloning์ผ๋ก ํ์ต
- Actuation-aware ๋๋ฉ์ธ ๋๋๋ง์ด์ ์ด์
: ์ค์ ๊ตฌ๋๊ธฐ์ ํ ํฌ-์๋ ํน์ฑ, ์๋ ์์กด ์์ค, ์ ๋ ฅ ์ ์ฝ์ ์๋ฎฌ๋ ์ด์
์ ํตํฉ
- Residual RL ํ์ฒ๋ฆฌ: ์ฌ์ ํ์ต๋ ์ ์ฑ
์ ๊ธฐ๋ฐ์ผ๋ก ํ์ค์ ๊ตฌ๋ ์ ์ฝ ํ์์ ์ ์ฑ
์ ๋ฏธ์ธ์กฐ์ ํ๋ ๋ณด์ ํจ์ ์ค๊ณ
- ๊ทน๋จ์ ๋์ ๋ฐ์ดํฐ์
: ๋์ ๊ฐ์๋, ๊ณต์ค ์ ์ด ์ ํ, ๊ณ ์ ํ์ ์ ํฌํจํ๋ curated ๊ทน๋จ์ ๋์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ตฌ์ฑ
Originality
- Specialist-to-unified ์์ฑํ ํ๋ ์์ํฌ: ๊ธฐ์กด์ end-to-end multi-motion RL ๋์ , ์ด๋ฏธ ํ์ต๋ specialist ์ ์ฑ
๋ค๋ก๋ถํฐ flow-matching์ ํตํด ํตํฉ ์ ์ฑ
์ ๋์ถํ๋ ์๋ก์ด ์ ๊ทผ๋ฒ
- Actuation-aware ์คํ ๊ฐ์ : ๋จ์ effort bound๊ฐ ์๋ ํ ํฌ-์๋ ๊ณก์ , ์ฌ์ ์ ๋ ฅ ๋ฑ ์ค์ ๊ตฌ๋ ๋ฌผ๋ฆฌ๋ฅผ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ residial RL ๋จ๊ณ์ ๋์
- ๊ทน๋จ์ ๋์ ๋ฒค์น๋งํฌ: ๊ธฐ์กด multi-motion ๋ฒค์น๋งํฌ๋ณด๋ค ํจ์ฌ ๋์ ์ ์ธ ๊ทน๋จ์ ๋์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ตฌ์ฑ ๋ฐ ํ๊ฐ
Limitation & Further Study
- ๊ทน๋จ์ ๋์ ๋ฐ์ดํฐ์
์ ๊ท๋ชจ์ ๋ค์์ฑ์ด ํน์ ๋ก๋ด ํ๋ซํผ(Unitree G1)์ ํธํฅ๋ ์ ์์ผ๋ฉฐ, ๋ค๋ฅธ ํํ์ ์ธ๊ฐํ ๋ก๋ด์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ด ๋ช
ํํ์ง ์์
- Flow-matching ์ฌ์ ํ์ต ๋จ๊ณ์์ specialist ์ ์ฑ
๋ค์ ํ์ต ํ์ง์ด ์ต์ข
ํตํฉ ์ ์ฑ
์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ์์ธํ ๋ถ์ ๋ถ์กฑ
- Actuation-aware residual RL์ ์๋ ด ์๋ ๋ฐ ์ํ ํจ์จ์ฑ์ ๋ํ ์์ธํ ๋น๊ต ๋ถ์์ด ์ ํ์
- ํ์ ์ฐ๊ตฌ๋ (1) ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ์ผ๋ฐํ, (2) Online learning์ ํตํ ์ค์๊ฐ ์ ์, (3) ๋ ๋ณต์กํ ๊ตฌ๋ ์ ์ฝ(์ ์ ์ก์ถ์์ดํฐ ๋ฑ)์ ํตํฉ์ ์ด์ ์ ๋ง์ถฐ์ผ ํจ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: OmniXtreme์ humanoid ๋์ ์ ์ด์ long-standing fidelity-scalability trade-off๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์์ฑํ ๋ชจ๋ธ๊ณผ actuation-aware ์ ์ ๋ผ๋ ๋ ๊ฐ์ง ๋ณด์์ ๊ธฐ๋ฒ์ ์ฐฝ์์ ์ผ๋ก ๊ฒฐํฉํ ๊ฐ๋ ฅํ ํ๋ ์์ํฌ์ด๋ฉฐ, ์ค์ ๋ก๋ด์์ ๊ทน๋จ์ ๋์์ ์ฑ๊ณต์ ์คํ์ผ๋ก ๊ทธ ์ ํจ์ฑ์ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์