HOVER: Versatile Neural Whole-Body Controller for Humanoid Robots
์ ์: Tairan He, Wenli Xiao, Toru Lin, Zhengyi Luo, Zhenjia Xu, Zhenyu Jiang, Jan Kautz, Changliu Liu, Guanya Shi, Xiaolong Wang, Linxi Fan, Yuke Zhu | ๋ ์ง: 2024-10-28 | URL: https://arxiv.org/abs/2410.21229 📄 PDF
Essence
Fig. 1: HOVER enables versatile humanoid control with a unified
HOVER๋ ํค๋ค๋งคํฑ ์์น ์ถ์ , ์กฐ์ธํธ ๊ฐ๋ ์ถ์ , ๋ฃจํธ ์ถ์ ์ ํฌํจํ 15๊ฐ ์ด์์ ์ ์ด ๋ชจ๋๋ฅผ ์ง์ํ๋ ํตํฉ ์ ๊ฒฝ๋ง ์ ์ด๊ธฐ๋ก, ์ ์ฑ
์ฆ๋ฅ๋ฅผ ํตํด ๋ค์ํ ์ ์ด ๋ชจ๋๋ฅผ ๋จ์ผ ์ ์ฑ
์ผ๋ก ํตํฉํ์ฌ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ค๋ชฉ์ ์ ์ ์ ์ด๋ฅผ ์คํํ๋ค.
Motivation
- Known: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋ค๋น๊ฒ์ด์
, ๋ก์ฝ-์กฐ์, ํ์ ์กฐ์ ๋ฑ ๋ค์ํ ์์
์ ์ํํด์ผ ํ๋ฉฐ, ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ๋ฃจํธ ์๋ ์ถ์ , ์กฐ์ธํธ ๊ฐ๋ ์ถ์ , ํคํฌ์ธํธ ์ถ์ ๋ฑ ์์
๋ณ ํนํ๋ ์ ์ด ๋ชจ๋๋ฅผ ๋ณ๋๋ก ๊ฐ๋ฐํด์๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ์๋ค์ ๊ฐ ์ ์ด ๋ชจ๋๋ง๋ค ๊ฐ๋ณ ์ ์ฑ
์ ํ์ตํ๋ฏ๋ก ๋ชจ๋ ๊ฐ ์ ์ด๊ฐ ์ด๋ ต๊ณ ๊ฐ๋ฐ ํจ์จ์ด ๋ฎ์ผ๋ฉฐ, ์ด๋ฅผ ํด๊ฒฐํ ํตํฉ๋ ๋ค์ค ๋ชจ๋ ์ ์ด๊ธฐ๊ฐ ๋ถ์ฌํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ค์ฉ์ฑ ํฅ์์ ์ํด ์ ์ฑ
์ฌํ์ต ์์ด ๋ชจ๋ ๊ฐ ์ํํ ์ ํ์ด ๊ฐ๋ฅํ ํตํฉ ์ ์ด๊ธฐ๊ฐ ํ์์ ์ด๋ฉฐ, ์ด๋ ํฅํ ํด๋จธ๋
ธ์ด๋ ์์ฉ์ ํจ์จ์ฑ๊ณผ ์ ์ฐ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: ์ ์ ํค๋ค๋งคํฑ ๋ชจ์
๋ชจ๋ฐฉ์ ๋ชจ๋ ์ ์ด ๋ชจ๋์ ๊ณตํต ์ถ์ํ๋ก ์ผ์ MoCap ๋ฐ์ดํฐ๋ก ํ์ตํ Oracle ์ ์ฑ
์์ ์ ์ฑ
์ฆ๋ฅ(policy distillation)๋ฅผ ํตํด ๋ค์ค ๋ชจ๋๋ฅผ ์ง์ํ๋ ํตํฉ ์ ์ฑ
์ ์์ฑํ๋ค.
Achievement
Fig. 3: Comparison between prior work specialists (blue) and our
- ํตํฉ ๋ค์ค ๋ชจ๋ ์ ์ด๊ธฐ: ๋ฃจํธ ์ถ์ , ์กฐ์ธํธ ๊ฐ๋ ์ถ์ , ํค๋ค๋งคํฑ ์์น ์ถ์ ์ ํฌํจํ 15๊ฐ ์ด์์ ์ ์ด ๋ชจ๋๋ฅผ ๋จ์ผ ์ ์ฑ
์ผ๋ก ์ง์
- ์ฑ๋ฅ ํฅ์: ๊ฐ๋ณ ํ์ต๋ ์ ๋ฌธ๊ฐ ์ ์ฑ
๋ค๋ณด๋ค ๋ค์ค ๋ชจ๋ generalist ์ ์ฑ
์ด ๋ชจ๋ ์ ์ด ๋ชจ๋์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑ
- ์ํํ ๋ชจ๋ ์ ํ: ์ ์ด ๋ชจ๋ ๊ฐ ์ค์๊ฐ ์ ํ์ด ๊ฐ๋ฅํ๋ฉฐ ์์ ์ ์ธ ์ ์ด ์ ์ง
- ์๋ฎฌ๋ ์ด์
๋ฐ ์ค์ ๋ก๋ด ๊ฒ์ฆ: ExBody, HumanPlus, H2O, OmniH2O ๋ฑ ๋ค์ํ ๋ก๋ด ํ๋ซํผ์์ ์ ํจ์ฑ ์
์ฆ
How
Fig. 2: Overview of HOVER distillation process. The HOVER policy is distilled from the Oracle policy through propriocept
- Goal-conditioned RL ํ๋ ์์ํฌ๋ก Oracle ์ ์ฑ
์ MoCap ์ธ๊ฐ ๋ชจ์
๋ฐ์ดํฐ์ ๋ํด ํ์ต
- Mode mask์ sparsity mask๋ฅผ ํตํด ์์ฒด์ ํ์ฒด์ ์ ์ด ๋ชฉํ๋ฅผ ๋
๋ฆฝ์ ์ผ๋ก ํ์ฑํ
- DAgger ๊ธฐ๋ฐ ์ ์ฑ
์ฆ๋ฅ๋ก Oracle์ ํ๋์ student ์ ์ฑ
์ ์ ๋ ฌํ์ฌ supervised learning ์ํ
- Proprioception masking์ ํตํด ์ฌ-ํฌ-๋ฆฌ์ผ ๊ฐญ์ ์ต์ํํ๊ณ ์ค์ ๋ก๋ด ์ ๊ฐ ๊ฐ๋ฅ์ฑ ํ๋ณด
- PPO ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋์ ํ ์ธ ๋ณด์์ ์ต๋ํํ๋ ์ ์ฑ
์ต์ ํ
Originality
- ์ ์ ํค๋ค๋งคํฑ ๋ชจ์
๋ชจ๋ฐฉ์ ํตํฉ ์ ์ด ์ถ์ํ๋ก ์ ์ํ ์๋ก์ด ๊ด์
- Mode mask์ sparsity mask์ ์กฐํฉ์ผ๋ก ์ ์ฐํ ๋ค์ค ๋ชจ๋ ์ ์ด ๊ธฐ๋ฒ ๊ฐ๋ฐ
- ์ ์ฑ
์ฆ๋ฅ๋ฅผ ํตํด ๋จ์ผ ์ ์ฑ
์ด ๊ฐ๋ณ ์ ๋ฌธ๊ฐ ์ ์ฑ
๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ counter-intuitive ๊ฒฐ๊ณผ ๋์ถ
- 15๊ฐ ์ด์์ ์ ์ด ๋ชจ๋๋ฅผ ํตํฉํ๋ ํฌ๊ด์ ๋ช
๋ น ๊ณต๊ฐ ์ค๊ณ
Limitation & Further Study
- MoCap ๋ฐ์ดํฐ ์์กด์ฑ: Oracle ์ ์ฑ
์ ์ฑ๋ฅ๊ณผ ๋ค์์ฑ์ด ํ์ต ๋ฐ์ดํฐ์ ํ์ง์ ํฌ๊ฒ ์ํฅ์ ๋ฐ์ ๊ฐ๋ฅ์ฑ
- ์ค์ ๋ก๋ด ํ๊ฒฝ์ ์ ์ฝ: ๋
ผ๋ฌธ์์ ์ ์๋ ์ค์ ๋ก๋ด ์คํ์ ๋ฒ์์ ๋ณต์ก๋๊ฐ ์๋ฎฌ๋ ์ด์
์ ๋นํด ์ ํ์ ์ผ ์ ์์
- ๊ณ์ฐ ๋ณต์ก๋: ๋ค์ค ๋ชจ๋ ์ ์ฑ
์ ์ค์๊ฐ ์ถ๋ก ๋น์ฉ ๋ฐ ํ๋์จ์ด ์๊ตฌ์ฌํญ์ ๋ํ ์์ธ ๋ถ์ ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: ๋ ๋ณต์กํ ์ํธ์์ฉ ๊ธฐ์ (bimanual manipulation, object pushing), ๋ถ์์ ํ ํ๊ฒฝ(soft terrain), ์๋ก์ด ์์
์ ๋ํ few-shot ์ ์ ๋ฅ๋ ฅ ๊ฐ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: HOVER๋ ํด๋จธ๋
ธ์ด๋ ์ ์ ์ ์ด์ ๋ค์ค ๋ชจ๋ ํตํฉ์ด๋ผ๋ ์ค์ง์ ์ด๊ณ ์ค์ํ ๋ฌธ์ ๋ฅผ ์ ์ฑ
์ฆ๋ฅ ๊ธฐ๋ฐ์ ์ฐ์ํ ํด๊ฒฐ์ฑ
์ผ๋ก ์ ์ํ๋ฉฐ, ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด์์ ๋ชจ๋ ๊ฒ์ฆ๋ ๊ฒฌ๊ณ ํ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. ๋ค๋ง ์ค์ ํ๊ฒฝ์ ๋ณต์กํ ์์
์ ๋ํ ์ ์์ฑ๊ณผ ๊ณ์ฐ ํจ์จ์ฑ์ ๋ํ ์ฌํ ๋ถ์์ด ๋ํด์ง๋ฉด ์์ฑ๋๊ฐ ๋์์ง ์ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์