HoRD: Robust Humanoid Control via History-Conditioned Reinforcement Learning and Online Distillation
์ ์: Puyue Wang, Jiawei Hu, Yan Gao, Junyan Wang, Yu Zhang, Gillian Dobbie, Tao Gu, Wafa Johal, Ting Dang, Hong Jia | ๋ ์ง: 2026-02-04 | URL: https://arxiv.org/abs/2602.04412 📄 PDF
Essence
Figure 1. Framework overview. Two-stage teacherโstudent learning pipeline for robust humanoid control under partial obse
HoRD๋ history-conditioned reinforcement learning๊ณผ online distillation์ ๊ฒฐํฉํ ๋ ๋จ๊ณ ํ์ต ํ๋ ์์ํฌ๋ก, ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ๋๋ฉ์ธ ์ํํธ ์ํฉ์์ ๊ฐ๊ฑดํ ์ ์ด๋ฅผ ์ํํ๋๋ก ํ๋ค.
Motivation
- Known: ๊ธฐ์กด ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์ ์ด ์ ์ฑ
์ ๊ณ ์ ๋ dynamics ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋จ์ผ ์๋ฎฌ๋ ์ดํฐ์์ ํ์ต๋๋ฉฐ, ๋๋ฉ์ธ ์ํํธ(๋ฌผ๋ฆฌ ์์ง ๋ณ๊ฒฝ, ๋์ญํ ๋ณํ ๋ฑ)์์ ์ฌ๊ฐํ ์ฑ๋ฅ ์ ํ๋ฅผ ๊ฒช๋๋ค.
- Gap: ํ์ฌ ๋ฐฉ๋ฒ๋ค์ ํฌ์ํ ๋ชจ์
๋ช
๋ น(sparse keypoint trajectories)์ผ๋ก๋ถํฐ ํ ํฌ ๋ ๋ฒจ ์ ์ด๊น์ง์ ํต์ผ๋ ๊ฐ๊ฑดํ ํํ์ ์ ๊ณตํ์ง ๋ชปํ๋ฉฐ, ํ
์คํธ ์๊ฐ์ ๋ฏธ๊ด์ฐฐ ๋์ญํ ๋ณํ์ ์จ๋ผ์ธ์ผ๋ก ์ ์ํ์ง ๋ชปํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ํ์ค ์ธ๊ณ์ ๋ฐฐํฌ๋๋ ค๋ฉด ๋ค์ํ ํ๊ฒฝ๊ณผ ๋์ญํ ๋ณํ์ ๊ฒฌ๋ ์ ์์ด์ผ ํ๋ฉฐ, ์ค์๊ฐ ์จ๋ผ์ธ ์ ์ ๋ฅ๋ ฅ์ด ์ฅ๊ธฐ๊ฐ ์์ ์ ์ธ ์ ์ด๋ฅผ ์ํด ํ์์ ์ด๋ค.
- Approach: HoRD๋ (1) HCDR์ด๋ผ๋ history-๊ธฐ๋ฐ ๋ชจ๋์ ํตํด ์ต๊ทผ state-action ๊ถค์ ์์ ์ ์ฌ ๋์ญํ ๋งฅ๋ฝ์ ์ถ๋ก ํ๋ teacher ์ ์ฑ
์ RL๋ก ํ์ตํ๊ณ , (2) ์ด๋ฅผ sparse keypoint ๋ช
๋ น์ ์ฒ๋ฆฌํ๋ transformer ๊ธฐ๋ฐ student๋ก distillํ๋ค.
Achievement
Figure 2. Results of HoRD on six representative motions, while red markers indicate ground-truth skeleton joints. Qualit
- History-Conditioned Dynamics Representation (HCDR): ์ต๊ทผ ๊ถค์ ์ผ๋ก๋ถํฐ ์จ๋ผ์ธ ๋์ญํ ์ ์์ ๊ฐ๋ฅํ๊ฒ ํ์ฌ ๋ฏธ๊ด์ฐฐ ๋๋ฉ์ธ์ ๋ํ zero-shot ์ ์ด ์ฑ๋ฅ ํฅ์
- Standardized Sparse-Joint Representation (SSJR): ์๋ก ๋ค๋ฅธ skeleton ์ ์์ ์๊ฐ ํด์๋๋ฅผ ๊ฐ์ง ์ด์ง์ ์ธ ๋ชจ์
๋ฐ์ดํฐ ์์ค๋ฅผ ํตํฉํ๋ ํ์คํ๋ ์ธํฐํ์ด์ค
- ๊ฐ๊ฑด์ฑ ๊ฐ์ : ๋๋ฉ์ธ ์ํํธ ์ํฉ์์ ์ต๋ 14.2% ๋์ ์ฑ๊ณต๋ฅ ๋ฌ์ฑ ๋ฐ IsaacLab์์ Genesis๋ก์ cross-physics-engine ์ ์ด์์ ์ ๋ขฐํ ์ ์๋ ์ฑ๋ฅ ์ ์ง
- ๋๊ท๋ชจ ๋ฐ์ดํฐ์
: 100+ ์๊ฐ์ 7,000+ ๋ค์ํ ํด๋จธ๋
ธ์ด๋ ๋ชจ์
๊ถค์ ๋ฐ์ดํฐ์
๊ณต๊ฐ
How
Figure 1. Framework overview. Two-stage teacherโstudent learning pipeline for robust humanoid control under partial obse
- Stage I: ํน๊ถํ๋ full-state ๊ด์ฐฐ๊ณผ dense future motion intent๋ฅผ ํ์ฉํ์ฌ PPO๋ก teacher ์ ์ฑ
ฯ* ํ์ต, ๋๋ฉ์ธ randomization ฯ(e)๋ฅผ ์ ์ฉํ์ฌ ๋ค์ํ ๋์ญํ ์ปค๋ฒ
- Stage II: ํฌ์ํ proprioception๊ณผ sparse motion ๋ช
๋ น๋ง ๋ฐ๋ student ์ ์ฑ
ํ์ต, HCDR ๋ชจ๋์ด teacher์ student ๋ชจ๋์์ interaction history Ht๋ฅผ temporal memory embedding mt์ผ๋ก ์ธ์ฝ๋ฉ
- Teacher-student distillation: teacher์ ๊ฐ๊ฑดํ ์ ์ด ๋ฅ๋ ฅ์ ๋ฐฐํฌ ๊ฐ๋ฅํ ๊ฒฝ๋์ student ์ ์ฑ
์ผ๋ก ์ ์ด
- ์จ๋ผ์ธ ์ ์: HCDR์ ํตํด ๋ฐฐํฌ ์๊ฐ์ latent dynamics์ ๋ํ in-context ์ ์ ์ํ
Originality
- History-based dynamics inference๋ฅผ ํตํ ์จ๋ผ์ธ ์ ์ ๋ฉ์ปค๋์ฆ์ด domain randomization๊ณผ ๋ฌ๋ฆฌ ํ
์คํธ ์๊ฐ์ ๋ฏธ๊ด์ฐฐ ๋์ญํ ๋ณํ์ ์ค์๊ฐ์ผ๋ก ๋์
- Sparse keypoint ๋ช
๋ น ์ฒ๋ฆฌ๋ฅผ ์ํ ํ์คํ๋ ํํ(SSJR)์ผ๋ก ๋ฐ์ดํฐ ๋จํธํ ๋ฌธ์ ํด๊ฒฐ ๋ฐ cross-platform ์ ์ด ๊ฐ๋ฅ
- Two-stage teacher-student ํ์ดํ๋ผ์ธ์์ ๊ณ ์ฑ๋ฅ teacher ํ์ต๊ณผ ๋ฐฐํฌ ๊ฐ๋ฅํ student ์ถ์ถ์ ๊ท ํ ๋ฌ์ฑ
- Physics engine ๊ฐ ์ ์ด(IsaacLab โ Genesis)์ ์ ๋ขฐ์ฑ ์๋ ๋ฌ์ฑ์ผ๋ก ๋ฐฉ๋ฒ์ ์ค์ฉ์ฑ ์
์ฆ
Limitation & Further Study
- HCDR ๋ชจ๋์ history window ํฌ๊ธฐ๊ฐ ๊ณ ์ ๋์ด ์์ด ๊ทน๋จ์ ์ผ๋ก ๋น ๋ฅธ ๋์ญํ ๋ณํ์ ์ ์ํ์ง ๋ชปํ ์ ์์
- Student ์ ์ฑ
์ด sparse keypoint์๋ง ์์กดํ๋ฏ๋ก ๋ณต์กํ ์ ์กฐ์์ด๋ ๋ฏธ์ธํ ๋ชจ์
์ ์ด์ ์ ํ์ด ์์ ์ ์์
- ๋๊ท๋ชจ ๋ฐ์ดํฐ์
๊ธฐ๋ฐ ํ์ต์ผ๋ก ์ธํ ๋์ ๊ณ์ฐ ๋น์ฉ์ด ์ํ ๊ธฐ๊ด์ ์ฌํ์ฑ์ ํด์น ์ ์์
- ์ค์ ๋ก๋ด ํ๋์จ์ด์์์ ๊ฒ์ฆ์ด ๋ถ์ฌํ์ฌ sim-to-real gap์ ์ค์ง์ ์ํฅ ๋ฏธ์
- ํ์ ์ฐ๊ตฌ: (1) adaptive history window ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ, (2) ์ค์ ๋ก๋ด ํ๋ซํผ์์์ ๊ฒ์ฆ, (3) ๋ ๊ณ ์ฐจ์์ ์ธ ๋ชจ์
๋ช
๋ น ์ฒ๋ฆฌ ๋ฅ๋ ฅ ํ์ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: HoRD๋ history-conditioned ๋์ญํ ์ถ๋ก ๊ณผ sparse ๋ช
๋ น ์ฒ๋ฆฌ๋ผ๋ ๋ ๊ฐ์ง ํต์ฌ ํ์ ์ ํตํด ํด๋จธ๋
ธ์ด๋ ์ ์ด์ ๊ฐ๊ฑด์ฑ๊ณผ ์ผ๋ฐํ ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ๊ด๋ฒ์ํ ์คํ ๊ฒ์ฆ๊ณผ ๋ฐ์ดํฐ์
๊ณต๊ฐ๋ก ์ค์ฉ์ ๊ฐ์น๋ฅผ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์