Robust and Generalized Humanoid Motion Tracking
์ ์: Yubiao Ma, Han Yu, Jiayin Xie, Changtai Lv, Qiang Luo, Chi Zhang, Yunpeng Yin, Boyang Xing, Xuemei Ren, Dongdong Zheng | ๋ ์ง: 2026-01-30 | DOI: 10.48550/arXiv.2601.23080 📄 PDF
Essence
Fig. 2: Overview of the proposed whole-body control pipeline. A history encoder extracts a dynamics embedding from
ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ผ๋ฐ์ ์ธ ์ ์ ์ ์ด๋ฅผ ์ํด dynamics-conditioned command aggregation ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์ธ๊ณผ์ temporal encoder์ multi-head cross-attention์ ๊ฒฐํฉํ์ฌ ๋
ธ์ด์ฆ๊ฐ ์๋ ์ฐธ์กฐ ๋์์ ๊ฐ๊ฑดํ๊ฒ ๋์ํ๋ค.
Motivation
- Known: ๊ธฐ์กด humanoid motion tracking ์ฐ๊ตฌ๋ ๋จ์ผ ๋์์ด๋ ์๊ท๋ชจ ๋์ ์งํฉ์ ๋ํด ํ์ต๋์ด ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ ํ๋๋ฉฐ, ๋์ ๋์๊ณผ ์ ์ด ์ ํ ์ ์ถ์ ์ ํ๋์ ํ๋ฃจํ ์์ ์ฑ์ด ์ต์ ์ด ์๋๋ค.
- Gap: ๋๊ท๋ชจ ๋ฐ์ดํฐ(700์๊ฐ ์ด์)์ ๊ณ์ฐ ๋ฆฌ์์ค์ ์์กดํ์ง ์์ผ๋ฉด์๋ ์ผ๋ฐํ๋ ์ ์ ์ ์ด๊ธฐ๋ฅผ ํ์ตํ๊ณ , ๋ํ ํ๋ณต์ ํตํฉํ์ฌ ๋จ์ผ ์ ์ฑ
์ผ๋ก ํ๋ฃจํ ์์ ์ฑ๊ณผ ๊ฒฌ๊ณ ์ฑ์ ๋์์ ๋ฌ์ฑํ๋ ๋ฐฉ๋ฒ์ ๋ถ์ฌ.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ๋ค์ํ ํ๊ฒฝ๊ณผ ์์
์ ์ ์ํ๋ ค๋ฉด ์ฌ๋ฌ ๋์์ ์์ฐ๋ฅด๋ ๊ฐ๊ฑดํ ๋จ์ผ ์ ์ฑ
์ด ํ์์ ์ด๋ฉฐ, ์ด๋ฅผ ํตํด ์ฐ๊ตฌ ์ ๊ทผ์ฑ์ ๋์ด๊ณ ์ค์ ๋ฐฐํฌ ์์ ์ฑ์ ํฅ์์ํฌ ์ ์๋ค.
- Approach: ์ต๊ทผ proprioception ํ์คํ ๋ฆฌ๋ก๋ถํฐ ๋์ญํ ํํ์ ์ถ์ถํ๋ causal temporal encoder์ ํ์ฌ ๋์ญํ์ ๊ธฐ๋ฐํ์ฌ contextual command window๋ฅผ ์ ํ์ ์ผ๋ก ์ง๊ณํ๋ multi-head cross-attention command encoder๋ฅผ ๊ฒฐํฉํ๋ฉฐ, ๋ถ์์ ํ ์ด๊ธฐํ์ annealed assistance force๋ฅผ ํตํ ๋ํ ํ๋ณต ์ปค๋ฆฌํ๋ผ์ ํตํฉํ๋ค.
Achievement
- ํจ์จ์ ์ธ ํ์ต: ์ฝ 3.5์๊ฐ์ ์ปดํฉํธ ๋ชจ์
๋ฐ์ดํฐ์
์ผ๋ก distillation ์๋ ๋จ์ผ ๋จ๊ณ end-to-end ํ์ต ๋ฌ์ฑ
- ๊ฐ๊ฑดํ ์ผ๋ฐํ: mocap, ๋น๋์ค ๊ธฐ๋ฐ ํฌ์ฆ ์ถ์ , ์ค์๊ฐ VR ํ
๋ ์คํผ๋ ์ด์
๋ฑ ๋ค์ํ ์ฐธ์กฐ ์์ค์ ๋ํด ์ผ๋ฐํ
- ์ ๋ก์ท ์ ์ด: ํ์ตํ์ง ์์ ๋์์ ๋ํด ์ ๋ก์ท ์ ์ด ๋ฅ๋ ฅ ์
์ฆ
- ํตํฉ๋ ๊ฒฌ๊ณ ์ฑ: ๋ํ ํ๋ณต์ ๋ฉ์ธ ์ ์ฑ
์ ํตํฉํ์ฌ ๋์ ๋์๊ณผ ์ ์ด์ด ํ๋ถํ ์๋๋ฆฌ์ค์์ ๋ฐ์ด๋ ๊ฒฌ๊ณ ์ฑ๊ณผ ์ธ๋ ๊ฑฐ๋ถ ๋ฅ๋ ฅ ํ๋ณด
- ์ค์ ๋ก๋ด ๋ฐฐํฌ: Unitree G1 ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์์ ์์ ์ ์ธ ์ฅ๊ธฐ๊ฐ ์ถ์ ๋ฐ ๋ค์ด์คํธ๋ฆผ ์ ํ๋ฆฌ์ผ์ด์
(์กฐ์ด์คํฑ ๊ตฌ๋ ๋ก์ฝ๋ชจ์
) ์ฑ๊ณต
How
Fig. 2: Overview of the proposed whole-body control pipeline. A history encoder extracts a dynamics embedding from
- Causal temporal encoder๋ฅผ ์ด์ฉํ์ฌ recent proprioception ([gravity direction, angular velocity, joint positions/velocities, previous action])์์ compact dynamics embedding ์ถ์ถ
- Multi-head cross-attention ๋ฉ์ปค๋์ฆ์ผ๋ก ํ์ฌ dynamics embedding์ query๋ก ํ์ฌ command window์ contextual reference targets์ ๋์ ์ผ๋ก ์ง๊ณ
- Command observation์ผ๋ก reference base velocities, reference gravity direction, reference joint positions ์ ๊ณต
- Asymmetric actor-critic ๊ตฌ์กฐ: actor๋ noisy observation ์
๋ ฅ, critic์ privileged observation (reference height, link poses, base velocity) ์ถ๊ฐ ์
๋ ฅ
- ์์ฐจ ์ ์ด ๊ณต์ํ (residual joint position offset at์ reference joint configuration qref์ ๋ํจ)๋ก PD setpoint ์ค์
- ๋ฐ๋ ์๋ ๋ณด์ ํจ์: keypoint alignment, relative pose consistency, keypoint velocity consistency ์ถ์ + action smoothness, joint limit, non-target contact penalization
- ๋ํ ํ๋ณต ์ปค๋ฆฌํ๋ผ: randomized unstable initialization๊ณผ annealed upward assistance force๋ฅผ ๊ฒฐํฉํ์ฌ ๋ก๋ด์ ๋ ๋์ state distribution์ผ๋ก ๋
ธ์ถ
- Motion dataset quality control: LAFAN1๊ณผ AMASS์ ์ ํ๋ ๋ถ๋ถ์ General Motion Retargeting์ผ๋ก ์ฌํ๊ฒํ
ํ๋, ๋ฎ์ ํ์ง ๋ฐ ๋ถ๊ฐ๋ฅํ ๋์ ์ ๊ฑฐ
Originality
- Dynamics-conditioned command aggregation ์ค๊ณ์ ์ฐฝ์์ฑ: ๋จ์ํ reference๋ฅผ ๊ทธ๋๋ก ๋ฐ๋ฅด๊ธฐ๋ณด๋ค, ํ์ฌ ๋์ญํ ์ํ์ ๊ธฐ๋ฐํ์ฌ ์ฐธ์กฐ ์ ํธ์ ์ ๋ขฐ๋๋ฅผ ์ ์์ ์ผ๋ก ํ๋จํ๊ณ ์ง๊ณ
- Causal temporal encoder์ multi-head cross-attention์ ์กฐํฉ: ๊ธฐ์กด RL ๊ธฐ๋ฐ motion tracking์์ rarely seen๋๋ ์ํคํ
์ฒ๋ก, ๋
ธ์ด์ฆ๊ฐ ์๋ ์ฐธ์กฐ์ ๋ํ ์๋ก์ด ๋์ ๋ฐฉ์
- ํตํฉ๋ ๋fall recovery: ๋ณ๋ ์ ์ฑ
์ด ์๋ ๋จ์ผ ์ ์ฑ
์ ๋ํ ํ๋ณต์ ์ง์ ํฌํจ์์ผ ํ์ต ํจ์จ์ฑ๊ณผ ์ค์ ์์ ์ฑ์ ๋์์ ํฅ์
- ์ปดํฉํธ ๋ฐ์ดํฐ์
์ ํจ์จ์ ํ์ฉ: quality-driven construction๊ณผ dynamics-conditioned aggregation์ ๊ฒฐํฉ์ผ๋ก ๊ธฐ์กด ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์กด์ฑ ๊ทน๋ณต
Limitation & Further Study
- ํ์ฌ ๋ฐฉ๋ฒ์ ์ฝ 3.5์๊ฐ์ ๊ณ ํ์ง motion data ์ ๋ณ์ ์์กดํ๋ฉฐ, ์ด quality control ํ๋ก์ธ์ค์ ์๋ํ ๋ฐฉ์ ๋ถ์ฌ
- Dynamics-conditioned command aggregation์ด ์ด๋ค ์ข
๋ฅ์ ๋
ธ์ด์ฆ ํจํด(periodic vs. transient vs. structural artifacts)์ ํนํ ๊ฐ๊ฑดํ์ง์ ๋ํ ์ธ๋ถ ๋ถ์ ๋ถ์กฑ
- Transfer learning ์ธก๋ฉด์์ ํ humanoid ํ๋ซํผ (์: Boston Dynamics Atlas, Tesla Optimus)์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- Long-horizon task (์: ๋ณตํฉ ์กฐ์, ํ๊ฒฝ ์ํธ์์ฉ)์์์ ์ฑ๋ฅ ํ๊ฐ ๋ถ์ฌ โ ํ์ฌ๋ ์ฃผ๋ก motion tracking๊ณผ locomotion์ ํ์
- Temporal receptive field์ attention window size ์ ํ์ ๋ํ ๋ฏผ๊ฐ๋ ๋ถ์ ๋ฐ ablation study ํ๋ ํ์
- Sim-to-real transfer ์ค domain randomization ๋ฐ identification ์ ๋ต์ ์ธ๋ถ ์ฌํญ ๋ฏธ๊ธฐ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ dynamics-conditioned command aggregation์ด๋ผ๋ ์ฐ์ํ ์ค๊ณ๋ฅผ ํตํด ์ปดํฉํธํ ๋ฐ์ดํฐ์
์ผ๋ก๋ ๊ฐ๊ฑดํ ์ผ๋ฐํ ํด๋จธ๋
ธ์ด๋ ์ ์ ์ ์ด๋ฅผ ๋ฌ์ฑํ๋ฉฐ, ๋ํ ํ๋ณต์ ํตํฉ๊ณผ ์ค์ ๋ก๋ด ๋ฐฐํฌ ๊ฒ์ฆ์ผ๋ก ๋์ ์ค์ฉ์ฑ์ ๋ณด์ฌ์ค๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์