HumanX: Toward Agile and Generalizable Humanoid Interaction Skills from Human Videos
์ ์: Yinhuai Wang, Qihan Zhao, Yuen Fui Lau, Runyi Yu, Hok Wai Tsui, Qifeng Chen, Jingbo Wang, Jiangmiao Pang, Ping Tan | ๋ ์ง: 2026-02-02 | DOI: 10.48550/arXiv.2602.02473 📄 PDF
Essence
Fig. 1: HumanX enables diverse interaction skills through two core components. XGen synthesizes and augments humanoid in
HumanX๋ ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ํธ์์ฉ ์คํฌ์ ํ์ตํ๋ ์ ์ฒด ์คํ ํ๋ ์์ํฌ๋ก, XGen ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ๊ณผ XMimic ๋ชจ๋ฐฉ ํ์ต ํ๋ ์์ํฌ์ ๋ ๊ฐ์ง ํต์ฌ ์ปดํฌ๋ํธ๋ฅผ ํตํฉํ์ฌ ๊ณผ์ ๋ณ ๋ณด์ ์ค๊ณ ์์ด ์ผ๋ฐํ ๊ฐ๋ฅํ ํ์ค ์ธ๊ณ ์คํฌ์ ์ต๋ํ๋ค.
Motivation
- Known: ํ๋ ๋ณต์ (BC)๋ ๋๊ท๋ชจ ํ
๋ ์ต ๋ฐ๋ชจ์ ์์กดํ๊ณ , ๊ฐํํ์ต(RL)์ ๊ณผ์ ๋ณ ๋ณด์ ํจ์ ์ค๊ณ๊ฐ ํ์ํ์ฌ ํ์ฅ์ฑ์ด ์ ํ๋๋ค. ์ธ๊ฐ ๋์์ ํด๋จธ๋
ธ์ด๋์ ์ฌํ๊ฒํ
ํ๊ณ ์๋ฎฌ๋ ์ด์
์์ ๋ชจ๋ฐฉ ํ์ต์ ์ ์ฉํ๋ ์ฐ๊ตฌ๋ ์งํ ์ค์ด์ง๋ง, ํ์ค ์ธ๊ณ ๋ฐฐํฌ ์ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ๊ณผ ์ผ๋ฐํ ๋ฌธ์ ๊ฐ ์กด์ฌํ๋ค.
- Gap: ๋จ์ผ ๋น๋์ค๋ก๋ถํฐ ํ์ค ์ธ๊ณ ํด๋จธ๋
ธ์ด๋์ ๋ํ ์ ํํ๊ณ ์์ฐ์ค๋ฌ์ด ์ธ๊ฐ-๋ฌผ์ฒด ์ํธ์์ฉ(HOI) ์คํฌ ๋ฐฐํฌ๋ ์ด๋ ค์ฐ๋ฉฐ, ํนํ ๊ฐ๋ ค์ง(occlusion)๊ณผ ๊น์ด ๋ชจํธ์ฑ์ผ๋ก ์ธํ ๋ฌผ๋ฆฌ์ ๋นํ๋น์ฑ๊ณผ ๊ณผ์ ํฉ์ผ๋ก ์ธํ ๋ฎ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๋ฌธ์ ์ด๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ์ธ๊ฐ ํ๊ฒฝ์์ ๋ค์ํ ์ผ์์ ๋ฌผ์ฒด์ ์ํธ์์ฉํ ์ ์๋ ๋ฅ๋ ฅ์ ๋ก๋ณดํฑ์ค์ ํต์ฌ ๊ณผ์ ์ด๋ฉฐ, ํ์ฅ ๊ฐ๋ฅํ๊ณ ๊ณผ์ -๋ถ๊ฐ์ง๋ก ์ ์ธ ๋ฐฉ์์ผ๋ก ํ์ค ์ธ๊ณ ์ํธ์์ฉ ์คํฌ์ ์ต๋ํ๋ ๊ฒ์ ๋ก๋ด์ ์ค์ฉ์ ์ ์ฉ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: XGen์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
๊ณผ ์ ์ด ๊ธฐ๋ฐ ์ ์ ๋ฅผ ํตํด ๋น๋์ค๋ก๋ถํฐ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ํด๋จธ๋
ธ์ด๋-๋ฌผ์ฒด ์ํธ์์ฉ ๊ถค์ ์ ํฉ์ฑํ๊ณ , ๋ฌผ์ฒด ๊ธฐํํ ์ค์ผ์ผ๋ง ๋ฐ ๊ถค์ ๋ณํ๋ฅผ ํตํ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ง์ํ๋ค. XMimic์ ํตํฉ๋ ๋ณด์ ์คํด, ์ ์ฐํ ์ง๊ฐ ๋ฉ์ปค๋์ฆ, ๊ต๋๋ ์ด๊ธฐํ๋ฅผ ํตํ ์ผ๋ฐํ ์ฐ์ ํ์ต, ๊ทธ๋ฆฌ๊ณ ๊ต์ฌ-ํ์ ์ด๋จ๊ณ ํ๋ ์์ํฌ๋ฅผ ํตํด ์ผ๋ฐํ ๊ฐ๋ฅํ ์ํธ์์ฉ ์คํฌ์ ํ์ตํ๋ค.
Achievement
Fig. 1: HumanX enables diverse interaction skills through two core components. XGen synthesizes and augments humanoid in
- ๋ค์ํ ๋๋ฉ์ธ ์ง์: ๋๊ตฌ, ์ถ๊ตฌ, ๋ฐฐ๋๋ฏผํด, ํ๋ฌผ ํฝ์
, ๋ฐ์ํ ๊ฒฉํฌ ๋ฑ 5๊ฐ ๋๋ฉ์ธ์์ 10๊ฐ์ง ์๋ก ๋ค๋ฅธ ์คํฌ ์ต๋
- ๋์ ์ผ๋ฐํ ์ฑ๊ณต๋ฅ : ์ด์ ๋ฐฉ๋ฒ ๋๋น 8๋ฐฐ ์ด์ ๋์ ์ผ๋ฐํ ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ๋จ์ผ ๋น๋์ค ํ์ต: ๊ฐ ์คํฌ์ ๋จ ํ๋์ ๋น๋์ค ์์ฐ์ผ๋ก๋ถํฐ ํ์ต
- ๋ณต์กํ ๋์ ์ํ: ์ธ๋ถ ์ง๊ฐ ์์ด ํํํ์ดํฌ ํฐ๋ผ์ด๋ ํ์ด๋์ด์จ์ด ์ ํ์ท๊ณผ ๊ฐ์ ๋ณต์กํ ๋์ ์คํ
- ์ฐ์ ์ํธ์์ฉ: 10ํ ์ด์ ์ฐ์์ ์ธ ์ธ๊ฐ-๋ก๋ด ๋๊ตฌ ํจ์ฑ ์ํ์ค ๋ฌ์ฑ
- ์ ์ํ ํ๋: ๋ฌผ์ฒด ์ ๊ฑฐ/์ฌ๋ฐฐ์น ์ ์์จ์ ์ผ๋ก ๊ฑธ์ด๊ฐ ์ฌํ์งํ๊ธฐ, ํํธ์ ์ค์ ๊ณต๊ฒฉ ๊ตฌ๋ถ ๋ฑ ์ ์ํ ๊ฑฐ๋ ์์ฐ
- ํ์ค ์ธ๊ณ ๋ฐฐํฌ: Unitree G1 ํด๋จธ๋
ธ์ด๋์ ์ ๋ก์ท ์ ์ด ์ฑ๊ณต
How
Fig. 2: Overview of XGen. The pipeline begins by estimating SMPL-based human motion from video and retargeting it to the
- XGen ํ์ดํ๋ผ์ธ: (1) ๋ชจ๋
ธํ๋ฌ ๋น๋์ค๋ก๋ถํฐ SMPL ๊ธฐ๋ฐ ์ธ๊ฐ ๋์ ์ถ์ ๋ฐ ๋ก๋ด ๋ชจํด๋ก์ง๋ก ์ฌํ๊ฒํ
, (2) ์ ์ด ๋จ๊ณ์ ๋น์ ์ด ๋จ๊ณ ๋ถํ , (3) ์ ์ด ๋จ๊ณ์์ ์ฌ์ ์ ์๋ ์ต์ปค(์: ๋ ์๋ฐ๋ฅ ์ค์ )๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ฌผ์ฒด ๋ฉ์ ๋ฐ ์๋ ํฌ์ฆ ์ถ์ , (4) ํ-ํํฉ(force-closure) ์ต์ ํ๋ฅผ ํตํ ๋ก๋ด ํฌ์ฆ ์ ์
- ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ํฉ์ฑ: ๋น์ ์ด ๋จ๊ณ์์ ์๋ฎฌ๋ ์ด์
์ ํตํด ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ๋นํ ๋ฌผ์ฒด ๊ถค์ ์์ฑ, ๋จ๊ณ ์ฐ๊ฒฐ ๋ฐ ๋งค๋๋ก์ด ๋ณด๊ฐ์ผ๋ก ์์ ํ ์ํธ์์ฉ ๊ถค์ ํ๋
- ๋ฐ์ดํฐ ์ฆ๊ฐ: ๋ฌผ์ฒด ๋ฉ์ ์ค์ผ์ผ, ๊ธฐํํ, ๊ถค์ ๋ณํ๋ฅผ ํตํด ๋จ์ผ ๋น๋์ค๋ก๋ถํฐ ๋ค์ํ๊ณ ๊ด๋ฒ์ํ ์ํธ์์ฉ ๋ฐ์ดํฐ ์์ฑ
- XMimic ํ์ต: ํตํฉ ๋ณด์ ์คํด์ผ๋ก ๋ค์ํ ๋ณต์กํ ์ํธ์์ฉ ํ๋์ ์ ํํ ๋ชจ๋ฐฉ ์คํ
- ์ ์ฐํ ์ง๊ฐ: ์ธ๋ถ ์ผ์ฑ ์์ ๋๋ MoCap ์์คํ
์ ํตํ ๋ฌผ์ฒด ์ผ์ฑ์ ์ ์ ๊ฐ๋ฅํ ์ง๊ฐ ๋ฉ์ปค๋์ฆ
- ๊ต๋๋ ์ด๊ธฐํ: ๋ก๋ด ์ํ์ ์์ ์ญ๋์ผ๋ก ์์ํ๋ ์ผ๋ฐํ ์ฐ์ ํ์ต
- ์ํธ์์ฉ ์ฐ์ ํ: ์ํธ์์ฉ ํ์ง์ ์ฐ์ ํ๋ ํ์ต ์์ ์ค์
- ๊ต์ฌ-ํ์ ํ๋ ์์ํฌ: ์ด๋จ๊ณ ํ์ต์ผ๋ก ์๋ณธ ์์ฐ์ ์ด๊ณผํ๋ ์ผ๋ฐํ ์ ์ฑ
๋ฌ์ฑ
Originality
- ๋ฌผ๋ฆฌ ์ค์ฌ์ ํจ๋ฌ๋ค์ ์ ํ: ๊ด๋ ๊ธฐ๋ฐ ์ฌ๊ตฌ์ฑ ์ ํ์ฑ๋ณด๋ค ๋ฌผ๋ฆฌ์ ํ๋น์ฑ์ ์ฐ์ ํ๋ ์๋ก์ด ์ ๊ทผ๋ฒ์ผ๋ก, ๋จ์ํ ๋
๋ฆฝ์ ์ถ์ ๊ฒฐํฉ์ ํ๊ณ(๊ฐ๋ ค์ง, ๊น์ด ๋ชจํธ์ฑ) ๊ทน๋ณต
- ํ-ํํฉ ์ต์ ํ ๊ธฐ๋ฐ ์ ์ : ์ ์ด ๋จ๊ณ์์ ๋ก๋ด ํฌ์ฆ๋ฅผ ๋ฌผ๋ฆฌ ์ ์ฝ ํ์์ ์ ์ ํ๋ ๊ธฐ๋ฒ
- ํจ์จ์ ๋ฐ์ดํฐ ์ฆ๊ฐ: ๋ฌผ์ฒด ์ค์ผ์ผ๋ง ๋ฐ ๊ถค์ ๋ณํ๋ก ๋จ์ผ ๋น๋์ค๋ก๋ถํฐ ๋๊ท๋ชจ ๋ค์ํ ํ๋ จ ๋ฐ์ดํฐ ์์ฑ
- ํตํฉ ๋ณด์ ์คํด: HOI์ ๋ณต์ก์ฑ์ ๋จ์ผ ๋ณด์์ผ๋ก ๋ค๋ฃจ๋ฉฐ ๋ค์ํ ์ํธ์์ฉ ํ๋์ ์ ์ฉ ๊ฐ๋ฅ
- ๊ณผ์ -๋ถ๊ฐ์ง๋ก ์ ํ๋ ์์ํฌ: ๊ณผ์ ๋ณ ๋ณด์ ์ค๊ณ ์์ด๋ ๋ค์ํ ๋๋ฉ์ธ์ ํ์ฅ ๊ฐ๋ฅํ ์ผ๋ฐ์ ๋ฐฉ๋ฒ๋ก ์ ์
Limitation & Further Study
- ์ด๊ธฐ ์กฐ๊ฑด ์์กด์ฑ: ํ์ฌ ๋ฐฉ๋ฒ์ ์ ํํ ์ธ๊ฐ ๋์ ์ถ์ ๊ณผ ๋ฌผ์ฒด ๋ฉ์ ์ด๊ธฐํ์ ์์กดํ๋ฉฐ, ์ด๋ฌํ ์
๋ ฅ์ ์ ํ๋๊ฐ ์ต์ข
์ฑ๋ฅ์ ์ํฅ
- ์ผ์ฑ ์๊ตฌ์ฌํญ: ์ฐ์ ์ํธ์์ฉ(์: ํจ์ฑ)์ MoCap ๊ฐ์ ์ธ๋ถ ์ผ์ฑ ์์คํ
ํ์ (์คํ ๋์ผ๋ก ๋ฐฐํฌ ์ ์ฝ)
- ๋จ์ผ ๋น๋์ค ํ์ต์ ํ๊ณ: 1๊ฐ ๋น๋์ค๋ก๋ถํฐ์ ํ์ต์ด ๋ชจ๋ ๋ณ๋์ฑ์ ํฌ๊ดํ๊ธฐ ์ด๋ ค์ธ ์ ์์ผ๋ฉฐ, ๋ณต์กํ ์ํฉ์ ๋ํ ์ถ๊ฐ ๋ฐ์ดํฐ ํ์ ๊ฐ๋ฅ์ฑ
- ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฒฉ์ฐจ: ๋ฌผ์ฒด ๋์ญํ ๋ชจ๋ธ๋ง์ ๊ทผ์ฌ์น๋ก ์ธํ sim-to-real ๊ฒฉ์ฐจ ์ฌ์ ํ ์กด์ฌ ๊ฐ๋ฅ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋น๋์ค๋ก๋ถํฐ์ ์๋ ๋ฌผ์ฒด ๋ฉ์ ๋ฐ ๋์ญํ ์ถ์ ๊ฐ์ , (2) ๋ชจ๋
ธํ๋ฌ ๋น๋์ค๋ง์ผ๋ก ํ๋ฃจํ ์ํธ์์ฉ ๊ฐ๋ฅํ๊ฒ ํ๋ ์จ๋ณด๋ ์ง๊ฐ ์์คํ
๊ฐ๋ฐ, (3) ๋ณต์กํ ๋ค์ค ๋ฌผ์ฒด ์ํธ์์ฉ์ผ๋ก ํ์ฅ, (4) ์ธ๊ฐ-๋ก๋ด ํ๋ ฅ ์์
ํ๋
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: HumanX๋ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ํฉ์ฑ๊ณผ ์ผ๋ฐํ ์ฐ์ ๋ชจ๋ฐฉ ํ์ต์ ๊ฒฐํฉํ์ฌ ๋จ์ผ ๋น๋์ค๋ก๋ถํฐ ํ์ค ์ธ๊ณ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ค์ํ ์ํธ์์ฉ ์คํฌ์ ํจ์จ์ ์ผ๋ก ์ต๋ํ๋ ํ๊ธฐ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ฉฐ, 8๋ฐฐ ์ด์์ ์ผ๋ฐํ ์ฑ๋ฅ ํฅ์๊ณผ ์ ์ํ ํ๋ ์์ฐ์ผ๋ก ๋ก๋ณดํฑ์ค ๋ถ์ผ์ ์๋นํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์