OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learning
์ ์: Tairan He, Zhengyi Luo, Xialin He, Wenli Xiao, Chong Zhang, Weinan Zhang, Kris Kitani, Changliu Liu, Guanya Shi | ๋ ์ง: 2024-06-13 | URL: https://arxiv.org/abs/2406.08858 📄 PDF
Essence
Figure 1: (a) OmniH2O enables teleoperating a full-size humanoid robot (Unitree H1) to complete tasks that
OmniH2O๋ kinematic pose๋ฅผ ๋ณดํธ์ ์ ์ด ์ธํฐํ์ด์ค๋ก ์ฌ์ฉํ์ฌ VR, RGB ์นด๋ฉ๋ผ, ์์ฑ ๋ช
๋ น ๋ฑ ๋ค์ํ ์
๋ ฅ์ ํตํด ์ ์ ์ธํ ๋ก๋ด์ ์กฐ์ํ๊ณ ์์จ ์์
์ ์ํํ ์ ์๋ ํ์ต ๊ธฐ๋ฐ ์์คํ
์ด๋ค.
Motivation
- Known: ๊ธฐ์กด ์ธํ ๋ก๋ด ์ ์ด๋ ์ฃผ๋ก ํ์ฒด ์ด๋ ๋๋ ์์ฒด ์กฐ์์๋ง ์ง์คํ์ผ๋ฉฐ, ์ ์ ์ ์ด๋ฅผ ์ํด์๋ ๋ชจ์
์บก์ฒ๋ ์ธ๊ณจ๊ฒฉ ๊ฐ์ ๊ณ ๋น์ฉ ์ฅ๋น๊ฐ ํ์ํ๋ค. ์ต๊ทผ H2O ๋ฑ์ด RL ๊ธฐ๋ฐ ์ ์ ์กฐ์์ ์๋ํ์ผ๋ RGB ๊ธฐ๋ฐ ํฌ์ฆ ์ถ์ ์ ์ ํ๋ ํ๊ณ์ MoCap ์์กด์ฑ์ผ๋ก ์ธํด ์ ๋ฐ ์กฐ์ ์์
์๋ ๋ถ์ ํฉํ๋ค.
- Gap: ์์ ์ ์ด๊ณ ์ ๋ฐํ ์ ์ ๋ก์ฝ-์กฐ์(locomotion-manipulation)์ ๋์์ ์ง์ํ๋ฉด์๋ ์ ๊ทผ ๊ฐ๋ฅํ ์ธํฐํ์ด์ค๋ก ๋๊ท๋ชจ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ ์ ์๋ ํตํฉ ์์คํ
์ด ๋ถ์ฌํ๋ค. ๋ํ ์ธํ ๋ก๋ด ์ ์ ์ ์ด์ ๋ํ ๊ณต๊ฐ ๋ฐ์ดํฐ์
๋ ์์๋ค.
- Why: ์ธํ ๋ก๋ด์ ์ธ๊ฐ๊ณผ์ ์ ์ฒด ๊ตฌ์กฐ ์ ๋ ฌ๋ก ์ธํด ๋ฒ์ฉ ์ง๋ฅ ๊ตฌํ์ ์ ๋งํ ํ๋ซํผ์ด๋ฉฐ, ๋๊ท๋ชจ ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ๋ฅผ ํตํ ํ์ต์ด ๊ฐ๋ฅํ๋ค. ์ ์ ์ ์ด ๋ฅ๋ ฅ์ ์คํฌ์ธ , ๋ฌผ์ฒด ์กฐ์, ์ธ๊ฐ ์ํธ์์ฉ ๋ฑ ํ์ค์ ์์
์ํ์ ํ์์ ์ด๋ค.
- Approach: teacher-student distillation ํ๋ ์์ํฌ๋ฅผ ํตํด ์๋ฎฌ๋ ์ด์
์ ํน๊ถ์ ์ ๋ณด๋ก ํ์ตํ ๊ต์ฌ ์ ์ฑ
์ด ์ค์ ์ผ์ ์
๋ ฅ๋ง ์ฌ์ฉํ๋ ํ์ ์ ์ฑ
์ ์ง๋ํ๋ค. ๋๊ท๋ชจ ์ธ๊ฐ ๋ชจ์
๋ฐ์ดํฐ์
(AMASS)์ ์ธํ ๋ก๋ด์ ๋ง๊ฒ ์ฌํ๊ฒํ
ํ๊ณ , ๋ฐ์ดํฐ ๋ถํฌ ๊ท ํ, ๋ณด์ ์ค๊ณ, ์ํ ๊ณต๊ฐ ์ค๊ณ๋ฅผ ํตํด ์์ ์ ์ธ ์ ์ ์ ์ด ์ ์ฑ
์ ํ์ตํ๋ค.
Achievement
Figure 3: (a) OmniH2O retargets large-scale human motions and filters out infeasible motions for humanoids.
- ํตํฉ ์ ์ด ์์คํ
: kinematic pose๋ฅผ ์ค๊ฐ ํํ์ผ๋ก ์ฌ์ฉํ์ฌ VR, RGB ์นด๋ฉ๋ผ, GPT-4o ๋ฑ ๋ค์ํ ์
๋ ฅ ์์ค๋ฅผ ์ง์ํ๋ ํธํ ๊ฐ๋ฅํ ์ ์ด ํ๋ ์์ํฌ ๊ฐ๋ฐ
- ์ค์๊ฐ ์ ๋ฐ ์กฐ์: ์คํฌ์ธ (๋ผ์ผ ์ค์), ๋ฌผ์ฒด ์กฐ์(๊ฝ์ ๋ฌผ์ฃผ๊ธฐ, ๋ฐ๊ตฌ๋ ํฝ์
), ์ธ๊ฐ ์ํธ์์ฉ(๋ณต์ฑ) ๋ฑ ๋ค์ํ ํ์ค ์ ์ ์์
์ ์๊ฒฉ ์กฐ์ ๋๋ ์์จ ๋ชจ๋๋ก ์ํ
- Sim-to-Real ํ์ดํ๋ผ์ธ: MoCap ์์ด ์
๋ ฅ ํ์คํ ๋ฆฌ๋ก ์ ์ญ ์ ์๋๋ฅผ ๋์ฒดํ๋ ๋ฐฉ๋ฒ๊ณผ curriculum์ ํ์ฉํ ์ ๊ทํ ๋ณด์ ์ค๊ณ๋ก ์ค๋ก๋ด ๋ฐฐํฌ ์ฑ๊ณต
- ๊ณต๊ฐ ๋ฐ์ดํฐ์
: ์ฒซ ๋ฒ์งธ ์ธํ ๋ก๋ด ์ ์ ๋ก์ฝ-์กฐ์ ๋ฐ์ดํฐ์
OmniH2O-6 ๊ณต๊ฐ (6๊ฐ ์ผ์ ์์
, RGBD ์นด๋ฉ๋ผ, ์ ์ด ์
๋ ฅ, ์ ์ ๋ชจํฐ ์ก์
ํฌํจ)
How
Figure 3: (a) OmniH2O retargets large-scale human motions and filters out infeasible motions for humanoids.
- AMASS ๋ฐ์ดํฐ์
์ ์ธ๊ฐ ๋ชจ์
์ ์ธํ ๋ก๋ด(Unitree H1)์ผ๋ก ์ฌํ๊ฒํ
ํ๋, ์์ ์ ์์๊ธฐ/์ค์ฟผํ
์ ์ํด ๊ณ ์ ๋ ํ์ฒด ๋ชจ์
์ํ์ค๋ฅผ ์ถ๊ฐํ์ฌ ๋ฐ์ดํฐ ๋ถํฌ ํธํฅ
- ๋ชจ์
์ถ์ ์์
์ goal-conditioned RL (MDP ๊ณต์ํ)๋ก ์ ์ํ๊ณ PPO ์๊ณ ๋ฆฌ์ฆ ์ ์ฉ
- ๋ ๋จ๊ณ ํ์ต: (1) ์๋ฎฌ๋ ์ด์
์์ privileged proprioception ์ฌ์ฉ ๊ต์ฌ ์ ์ฑ
RL ํ์ต, (2) ๊ต์ฌ์ privileged motion goal๊ณผ proprioception์ sparse sensor input์ผ๋ก ํ์ตํ๋ ํ์ ์ ์ฑ
supervised learning
- kinematic pose์ ํ์ (ฮธ)๊ณผ ์์น(p) ์ฑ๋ถ์ ์ง์ ์
๋ ฅ์ผ๋ก, ๊ด์ ์๋์ ํ์คํ ๋ฆฌ๋ฅผ ์ํ์ ํฌํจํ์ฌ ์ ์ญ ์ ์๋ ์ถ์ ์ ๊ฑฐ
- ์๊ฒฉ ์กฐ์์ ํตํ ์์ฐ ์์ง ๋ฐ ์ด๋ชจํ
์ด์
๋ฌ๋์ผ๋ก ์์จ ์ ์ฑ
ํ์ต
Originality
- Kinematic pose๋ฅผ ๋ณดํธ์ ์ ์ด ์ธํฐํ์ด์ค๋ก ์ ์ํจ์ผ๋ก์จ ๋ค์ํ ์
๋ ฅ ์์ค(VR, RGB, ์ธ์ด)์ ํธํ์ฑ ๋ฌ์ฑ (๊ธฐ์กด: ํน์ ์
๋ ฅ ๋ฐฉ์์ ์์กด)
- ์
๋ ฅ ํ์คํ ๋ฆฌ๋ฅผ ํ์ฉํ์ฌ MoCap์ ์์กดํ์ง ์๊ณ ์ ์ญ ์ ์๋ ์ถ์ ๋ฌธ์ ํด๊ฒฐ (H2O ๋๋น ๊ฐ์ )
- ๋ฐ์ดํฐ ๋ถํฌ ํธํฅ(standing/squatting), curriculum ๊ธฐ๋ฐ ๋ณด์ ์ค๊ณ, ์ํ ๊ณต๊ฐ ์ค๊ณ์ ๋ช
์์ ํตํฉ์ผ๋ก ์์ ์ ์ ์ ๋ก์ฝ-์กฐ์ ๋ฌ์ฑ
- ์ฒซ ๊ณต๊ฐ ์ธํ ๋ก๋ด ์ ์ ์ ์ด ๋ฐ์ดํฐ์
(OmniH2O-6) ์ ๊ณต ๋ฐ ์ด๋ชจํ
์ด์
๋ฌ๋ ๋ฒค์น๋งํฌ ์ ์
Limitation & Further Study
- ์ ๋ฐ๋ ํ๊ณ: RGB ๊ธฐ๋ฐ ํฌ์ฆ ์ถ์ ์ ๊ณ ์ ์ค์ฐจ๋ฅผ ์์ ํ ์ ๊ฑฐํ์ง ๋ชปํด ์ผ๋ถ ๊ณ ์ ๋ฐ ์์
์์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- ๋ฐ์ดํฐ ๊ท๋ชจ: OmniH2O-6์ด 6๊ฐ ์์
์๋ง ๊ตญํ๋์ด ์์ผ๋ฉฐ, ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ์ํด์๋ ๋ ๊ด๋ฒ์ํ ์์
๋ฐ์ดํฐ ํ์
- sim-to-real gap: ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํ๊ฒฝ์ ๋์ญํ ๋ถ์ผ์น๋ก ์ธํ ์ผ๋ถ ์์
์คํจ ์ฌ๋ก ๊ฐ๋ฅ์ฑ (๋์ ํ๊ฒฝ ๋ฏธ์ธ๊ธ)
- ์ธ๋ถ ์ํธ์์ฉ: ์ธ๊ฐ์ ๊ฐํ ์ถฉ๊ฒฉ(striking) ๋ฑ ์์ธก ๋ถ๊ฐ๋ฅํ ์ธ๋ถ ๊ฐ์ ์ ๋ํ ๊ฐ๊ฑด์ฑ์ด ์ถฉ๋ถํ์ง ํ๊ณ ๋ถ์ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ: ๋ ํฐ ๊ท๋ชจ ์ธํ ๋ก๋ด ์ ์ ๋ฐ์ดํฐ์
๊ตฌ์ถ, ๋ค์ํ ํ๊ฒฝ๊ณผ ์์
์กฐ๊ฑด์์์ ์ผ๋ฐํ ์ฑ๋ฅ ๊ฐ์ , ์ค์๊ฐ ์ ์ ์ ์ด ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: OmniH2O๋ kinematic pose ๊ธฐ๋ฐ์ ๋ณดํธ์ ์ ์ด ์ธํฐํ์ด์ค์ ์ ๊ตํ sim-to-real ํ์ดํ๋ผ์ธ์ ํตํด ์ธํ ๋ก๋ด์ ์ ์ ๋ก์ฝ-์กฐ์์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ ์ฐ๊ตฌ์ด๋ฉฐ, ๊ณต๊ฐ ๋ฐ์ดํฐ์
๊ณผ ๋ค์ํ ์ค์ ์์
์์ฐ์ผ๋ก ๋์ ์ค๋ฌด ๊ฐ์น๋ฅผ ์ ๊ณตํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๋ค๋ฅธ ์ ๊ทผ
OmniH2O ๋
ผ๋ฌธ์ ๋ค์ํ ์
๋ ฅ ์ฅ์น ๊ธฐ๋ฐ์ ๋ณดํธ ์ ์ ์ ์ด๋ฅผ ์งํฅํ๋ ํ์ต ๋ฐฉ์์ผ๋ก, Supernumerary Limb ํตํฉ ๊ณ์ธต์ ์ด์ ๋๋นํด๋ณผ ์ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์