Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization
์ ์: Hao Luo, Ye Wang, Wanpeng Zhang, Sipeng Zheng, Ziheng Xi, Chaoyi Xu, Haiweng Xu, Haoqi Yuan, Chi Zhang, Yiqing Wang, Yicheng Feng, Zongqing Lu | ๋ ์ง: 2026-01-19 | URL: https://arxiv.org/abs/2601.12993 📄 PDF
Essence
Figure 1: Being-H0.5 at a Glance. We scale human-centric robot learning with Being-H0.5 toward
Being-H0.5๋ ์ธ๊ฐ ์ค์ฌ ํ์ต ํจ๋ฌ๋ค์๊ณผ ํตํฉ ์ก์
๊ณต๊ฐ์ ํ์ฉํ์ฌ ๋ค์ํ ๋ก๋ด ํ๋ซํผ ๊ฐ ์ผ๋ฐํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ๊ธฐ์ด Vision-Language-Action ๋ชจ๋ธ์ด๋ค. 35,000์๊ฐ ์ด์์ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ๋ก ๊ตฌ์ฑ๋ UniHand-2.0์ ํตํด 30๊ฐ์ ๋ก๋ด ํ๋ซํผ์์ ๊ฐ๋ ฅํ cross-embodiment ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: Vision-Language-Action (VLA) ๋ชจ๋ธ์ ๋ก๋ด ์กฐ์์ ์ ๋งํ์ง๋ง, ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ํํํ์ ์ด์ง์ฑ(morphological heterogeneity)๊ณผ ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ์ธํด ๋จ์ผ ํ๋ซํผ์ ํนํ๋์ด ๋ค๋ฅธ ๋ก๋ด์ผ๋ก์ ์ ์ด ์ฑ๋ฅ์ด ์ ํ๋๋ค.
- Gap: ํ์กดํ๋ VLA๋ ๋ก๋ด ๊ฐ ๋ชจํฐ ๊ณต๊ฐ์ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ์ง ๋ชปํ๋ฉฐ, ๋ณต์กํ ์ํฐํฐ(์: dexterous hands)๋ก์ ๋ถํฌ ์ด๋(distribution shift)์์ ๊ถค์ ๋๋ฆฌํํธ(trajectory drift)๋ฅผ ๊ฒฝํํ๋ค. ๋ํ ๋๊ท๋ชจ cross-embodiment ๋ฐ์ดํฐ์
๊ณผ ์ฒด๊ณ์ ๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ๋ก ์ด ๋ถ์กฑํ๋ค.
- Why: ๋ก๋ด ์ง๋ฅ์ ํ์ฅ์ฑ์ ์๋ก์ด ํ๋ซํผ์ ์ ํ๋ ๋ฐ์ดํฐ๋ก๋ ๋น ๋ฅด๊ฒ ์ ์ํ ์ ์๋ ๋ฅ๋ ฅ์ ๋ฌ๋ ค์์ผ๋ฉฐ, ์ด๋ ๋ค์ค์ธ์ด NLP์์ ๋ฌ์ฑํ ์์ค์ ์ผ๋ฐํ๋ฅผ ๋ก๋ด๊ณตํ์์๋ ์คํํ๊ธฐ ์ํด ์ค์ํ๋ค.
- Approach: ์ธ๊ฐ ์ํธ์์ฉ ๋ฐ์ดํฐ๋ฅผ ๋ฌผ๋ฆฌ ์ธ๊ณ์ '๋ชจ๊ตญ์ด'๋ก ์ทจ๊ธํ๋ ์ธ๊ฐ ์ค์ฌ ํ์ต ํจ๋ฌ๋ค์์ ์ ์ํ๊ณ , ์ด์ง์ ๋ก๋ด ์ ์ด๋ฅผ ์๋ฏธ๋ก ์ ์ผ๋ก ์ ๋ ฌ๋ ์ฌ๋กฏ์ผ๋ก ๋งคํํ๋ Unified Action Space๋ฅผ ๋์
ํ๋ค. Mixture-of-Flow (MoF) ์ํคํ
์ฒ๋ก ๊ณต์ motor primitives์ ์ฒดํ ํนํ ์ ๋ฌธ๊ฐ๋ฅผ ๋ถ๋ฆฌํ๋ค.
Achievement
Figure 1: Being-H0.5 at a Glance. We scale human-centric robot learning with Being-H0.5 toward
- ๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ ๊ตฌ์ถ: UniHand-2.0 (35,000+ ์๊ฐ, 120์ต tokens, 400๋ฐฑ๋ง ์ํ) ๊ตฌ์ฑ์ผ๋ก 30๊ฐ ๋ก๋ด ํ๋ซํผ ์์ฐ๋ฅด๋ ์ต๋ ๊ท๋ชจ ์ฒดํ ์ฌ์ ํ์ต ๋ฐ์ดํฐ์
์ ๊ณต
- ์๋ฎฌ๋ ์ด์
๋ฒค์น๋งํฌ SOTA ๋ฌ์ฑ: LIBERO์์ 98.9%, RoboCasa์์ 53.9% ์ฑ๋ฅ ๋ฌ์ฑ
- Cross-embodiment ๊ฐ์ธ์ฑ: 5๊ฐ ๋ก๋ด ํ๋ซํผ (PND Adam-U, Franka+Inspire, Unitree G1, BeingBeyond D1, LeRobot SO-101)์์ ๋จ์ผ ์ฒดํฌํฌ์ธํธ๋ก ์ค์ธ๊ณ ๋ฐฐํฌ ์ฑ๊ณต
- ํ์ ์ ๊ธฐ์ ๋์
: Manifold-Preserving Gating์ผ๋ก ๊ฐ๊ฐ ๋ณํ์ ๋ํ ๊ฐ์ธ์ฑ ํ๋ณด, Universal Async Chunking์ผ๋ก ์์ดํ ์ง์ฐ ์๊ฐ๊ณผ ์ ์ด ํ๋กํ์ผ ๋ณด์
- ๋ฐ์ดํฐ ์์ง ์์คํ
: UniCraftor ์์คํ
๊ฐ๋ฐ์ผ๋ก ๊น์ด ์ ๋ณด, ํคํ๋ ์ ์ด๋ฒคํธ, ์นด๋ฉ๋ผ ์ธ์ฌ์ฑ ํตํฉํ 200+ ์๊ฐ ๋ฐ์ดํฐ ํ๋ ์ด์
How
Figure 2: Overview of UniHand 2.0. UniHand 2.0 is our large-scale pre-training recipe for human-centric
- UniHand-2.0 ๊ตฌ์ฑ: 16,000์๊ฐ ์์์ค์ฌ(egocentric) ์ธ๊ฐ ๋น๋์ค + 14,000์๊ฐ ๋ก๋ด ์กฐ์ + 5,000์๊ฐ ์๊ฐ-์ธ์ด ์ดํด ๋ฐ์ดํฐ ํตํฉ
- Unified Action Space ์ค๊ณ: ์ด์ง์ ๋ก๋ด ์ ์ด๋ฅผ ๊ณต์ ๋ฌผ๋ฆฌ ์ดํ์ ํ ํฐ์ผ๋ก ํํํ์ฌ ๋ค์ํ ํํ์ ๋ก๋ด์ ํตํฉ ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ์ ๋ ฌ
- Mixture-of-Transformers ์ํคํ
์ฒ: Mixture-of-Flow (MoF) ํ๋ ์์ํฌ๋ก ๊ณต์ attention๊ณผ embodiment-specific FFN ๊ฒฐํฉ
- Human-Centric Pre-training: Unified Sequence Modeling๊ณผ ๋ค์ค ์์
๋ชฉํ๋ฅผ ํตํด ์ธ๊ฐ ์์ฐ๊ณผ ๋ก๋ด ์คํ ๊ฐ ๋ค๋ฆฌ ๊ตฌ์ถ, Hybrid Human Motion Representation ํ์ฉ
- Manifold-Preserving Gating (MPG): sensory shift ํ์์ valid motion manifold ๋ด ๊ถค์ ์ ์ง
- Universal Async Chunking (UAC): ์์ดํ ์ง์ฐ ์๊ฐ๊ณผ ์ ์ด ํ๋กํ์ผ์ ๊ฐ์ง embodiment ๊ฐ ์ฒญํฌ ๋จ์ ์ ์ด ์ผ๋ฐํ
- Dual-Thread Deployment Architecture: ์ค์๊ฐ cross-embodiment ๋ฐฐํฌ๋ฅผ ์ํ ๋ณ๋ ฌ ์ถ๋ก ๊ตฌ์กฐ
Originality
- ์ธ๊ฐ ์ค์ฌ ํจ๋ฌ๋ค์์ ๊ทผ๋ณธ์ ์ฌ์ ์: ์ธ๊ฐ ๋์์ ๋ฌผ๋ฆฌ ์ํธ์์ฉ์ '๋ชจ๊ตญ์ด'๋ก ๊ฐ๋
ํํ์ฌ ๋ก๋ด ๋ค์ค์ธ์ด์ฑ(multilinguality)์ ๋ฌ์ฑํ๋ ํ์ ์ ๊ด์ ", '์ต๋ ๊ท๋ชจ embodied ์ฌ์ ํ์ต ๋ฐ์ดํฐ: 200๋ฐฐ ๊ท๋ชจ ์ฆ๊ฐ (์ด์ ๋๋น)๋ก 30๊ฐ ๋ก๋ด ํ๋ซํผ ํฌํจํ ์
๊ณ ์ต๋ ๋ฐ์ดํฐ์
๊ตฌ์ถ
- Mixture-of-Flow ์ํคํ
์ฒ: ๊ณต์ motor primitives์ ์ฒดํ ํนํ ์ ๋ฌธ๊ฐ๋ฅผ ๋ช
์์ ์ผ๋ก ๋ถ๋ฆฌํ๋ ์๋ก์ด ๋์ฝ๋ฉ ๋ฐฉ์
- Manifold-Preserving Gating ๋ฉ์ปค๋์ฆ: ๋ถํฌ ์ด๋ ํ์์๋ ์ ํจํ ํ๋ ๋ค์์ฒด๋ฅผ ๋ณด์กดํ๋ ์๋ก์ด ์์ ํ ๊ธฐ๋ฒ
- Universal Async Chunking ํ๋กํ ์ฝ: ์ ์ด ์ฃผํ์์ ์ง์ฐ์ด ์์ดํ ๋ก๋ด ๊ฐ ์ฒญํฌ ๊ธฐ๋ฐ ์ ์ด ์ผ๋ฐํ
- UniCraftor ๋ฐ์ดํฐ ์์ง ์์คํ
: ๊น์ด, ํคํ๋ ์, ์นด๋ฉ๋ผ ์ธ์ฌ์ฑ ํตํฉํ ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ง ์ธํ๋ผ
Limitation & Further Study
- ๋ฐ์ดํฐ ํธํฅ ๋ฌธ์ : ์ธ๊ฐ ๋ฐ์ดํฐ ์ค์ฌ ํ์ต์ด ์ธ๊ฐ๊ณผ ๋ก๋ด์ ๋์ญํ ์ฐจ์ด๋ฅผ ์์ ํ ํด๊ฒฐํ์ง ๋ชปํ ์ ์์ผ๋ฉฐ, ํน์ ๋ก๋ด ํนํ ์์
์์ ์์ ์ ์ด ๊ฐ๋ฅ์ฑ
- ์ค์ธ๊ณ ๊ฒ์ฆ์ ์ ํ์ฑ: 5๊ฐ ๋ก๋ด ํ๋ซํผ ์ค๋ฐฐํฌ๊ฐ ์ฃผ์ ์ฑ๊ณผ์ด์ง๋ง ๋ ์ด์ง์ ์ธ ํํ (์: ์์ค ๋ก๋ด, ๋น์ธํ ๊ทธ๋ฆฌํผ)์์์ ์ฑ๋ฅ ๋ฏธ๊ฒ์ฆ
- ๊ณ์ฐ ํจ์จ์ฑ ๋ฏธ๋ถ์: 120์ต tokens ๊ท๋ชจ์ ๊ฑฐ๋ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์ถ๋ก ์ง์ฐ ์๊ฐ๊ณผ ๋ฉ๋ชจ๋ฆฌ ์ค๋ฒํค๋์ ๋ํ ์์ธ ๋ถ์ ๋ถ์กฑ
- Manifold-Preserving Gating์ ์ด๋ก ์ ๊ทผ๊ฑฐ ์ฝํ: MPG๊ฐ motion manifold์ ์ ํํ ๋ณด์กดํ๋์ง์ ๋ํ ์ํ์ ๋ณด์ฅ ๋๋ ์๋ ด์ฑ ์ฆ๋ช
๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ ๊ทน๋จ์ ์ธ morphological variance (์: ๋ฐํด ๋ก๋ด vs. ์ด์กฑ ๋ณดํ)์์์ ์ผ๋ฐํ ๊ฒ์ฆ, (2) ์จ๋ผ์ธ ํ์ต ๋๋ ์ ์ ๋ฉ์ปค๋์ฆ ํตํฉ์ผ๋ก ๋ฐฐํฌ ํ ์ฑ๋ฅ ๊ฐ์ , (3) ์ด๊ฐ ์ ๋ณด ๋ฑ ์ถ๊ฐ ๋ชจ๋ ํตํฉ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Being-H0.5๋ ์ธ๊ฐ ์ค์ฌ ํ์ต ํจ๋ฌ๋ค์๊ณผ ๋๊ท๋ชจ ํตํฉ ๋ฐ์ดํฐ์
์ ํ์ฉํ์ฌ cross-embodiment ๋ก๋ด ์ผ๋ฐํ์ ์ค์ํ ์ง์ ์ ์ด๋ฃฌ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ฉฐ, Mixture-of-Flow, Manifold-Preserving Gating ๋ฑ์ ๊ธฐ์ ํ์ ๊ณผ ์ค์ธ๊ณ ๋ฐฐํฌ ์ฑ๊ณต์ด ๋ก๋ด๊ณตํ์ ํ์ฅ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ๊ธฐ์ฌํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์