OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction
์ ์: Lujie Yang, Xiaoyu Huang, Zhen Wu, Angjoo Kanazawa, Pieter Abbeel, Carmelo Sferrazza, C. Karen Liu, Rocky Duan, Guanya Shi | ๋ ์ง: 2025-10-08 | DOI: 10.48550/arXiv.2509.26633 📄 PDF
Essence
Fig. 2: OMNIRETARGET overview. Human demonstrations are retargeted to the robot via interaction-meshโbased
OmniRetarget์ interaction mesh ๊ธฐ๋ฐ์ ์ ์ฝ ์ต์ ํ๋ฅผ ํตํด human motion์ humanoid robot์ ์ํ ๊ณ ํ์ง kinematic reference๋ก retargetํ๋ฉฐ, ์ํธ์์ฉ์ ๋ณด์กดํ๋ฉด์ ๋จ์ผ ์์ฐ์ผ๋ก๋ถํฐ ๋ค์ํ ๋ก๋ด ๊ตฌ์ฒดํ, ์งํ, ๋ฌผ์ฒด ์ค์ ์ผ๋ก ํจ์จ์ ์ธ data augmentation์ ์ํํ๋ค.
Motivation
- Known: Deep reinforcement learning์ ํตํ humanoid robot ์ ์ด๋ ๋์ ์ฐจ์์ action space๋ก ์ธํด ์ด๋ ต๊ณ , ๊ธฐ์กด retargeting ๋ฐฉ๋ฒ๋ค(PHC, GMR, VideoMimic)์ keypoint matching์ ์์กดํ์ฌ foot-skating, penetration ๋ฑ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ์ ํํ artifacts๋ฅผ ์์ฑํ๋ค.
- Gap: ๊ธฐ์กด retargeting ๋ฐฉ๋ฒ๋ค์ hard kinematic constraints๋ฅผ ๊ฐ์ ํ์ง ์์ผ๋ฉฐ, robot-object-terrain ์ํธ์์ฉ์ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋งํ์ง ์์ ํ์ง์ด ๋ฎ์ reference๋ฅผ ์์ฑํ๊ณ , ๋ค์ํ ๋ณํ์ ์ํด์๋ ๊ฐ๊ฐ ๋ณ๋์ ์์ฐ์ด ํ์ํ๋ค.
- Why: ๊ณ ํ์ง์ interaction-preserving motion reference๋ RL policy ํ์ต์ ๊ฐ์ํํ๊ณ reward engineering์ ์ต์ํํ๋ฉฐ, ๋จ์ผ ์์ฐ์ผ๋ก๋ถํฐ์ ํจ์จ์ data augmentation์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์์ง์ ๋ณ๋ชฉ์ ํด๊ฒฐํ์ฌ ์ค์ humanoid robot์ผ๋ก์ zero-shot sim-to-real transfer๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: OmniRetarget์ interaction mesh๋ฅผ ์ด์ฉํ์ฌ robot, ์งํ, ๋ฌผ์ฒด ๊ฐ์ ๊ณต๊ฐ์ ยท์ ์ด ๊ด๊ณ๋ฅผ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋งํ๊ณ , Laplacian deformation์ ์ต์ํํ๋ฉด์ collision avoidance, joint limits, foot contact stability ๋ฑ์ hard constraints๋ฅผ enforcingํ๋ constrained optimization์ ์ํํ๋ค.
Achievement
Fig. 1:
- Interaction-preserving retargeting framework: ์ฒ์์ผ๋ก robot-object-terrain ์ํธ์์ฉ์ ์ฒ๋ฆฌํ๋ฉด์ hard physical constraints๋ฅผ enforcingํ๋ humanoid retargeting ๋ฐฉ๋ฒ์ ์ ์
- Systematic data augmentation pipeline: ๋จ์ผ human ์์ฐ์ผ๋ก๋ถํฐ ๋ค์ํ robot embodiment, ์งํ, ๋ฌผ์ฒด ์ค์ ์ ๋ํ ๋๊ท๋ชจ ๊ณ ํ์ง kinematic trajectory ์์ฑ
- ๋๊ท๋ชจ ๊ณต๊ฐ ๋ฐ์ดํฐ์
: OMOMO, LAFAN1, ์์ฒด MoCap ๋ฐ์ดํฐ๋ก๋ถํฐ 8์๊ฐ ์ด์์ retargeted, kinematically-feasible loco-manipulation trajectory ๊ณต๊ฐ
- Zero-shot sim-to-real transfer: 5๊ฐ reward term๊ณผ ๊ฐ๋จํ domain randomization๋ง์ผ๋ก Unitree G1 humanoid์์ 30์ด ๊ธธ์ด์ parkour ๋ฐ loco-manipulation ๊ธฐ์ ์ ์ฑ๊ณต์ ์ผ๋ก ์คํ
How
Fig. 2: OMNIRETARGET overview. Human demonstrations are retargeted to the robot via interaction-meshโbased
- Interaction mesh๋ฅผ ํตํด source human motion๊ณผ target robot ๊ฐ์ spatial/contact ๊ด๊ณ๋ฅผ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋ง
- Tetrahedra mesh matching์ ์ด์ฉํ์ฌ human๊ณผ robot mesh ๊ฐ Laplacian deformation ์ต์ํ
- Collision avoidance, joint limits, velocity limits, foot contact stability ๋ฑ์ hard kinematic constraints๋ฅผ constrained optimization ๋ฌธ์ ์ ํฌํจ
- Terrain height, object shape, robot embodiment, spatial configuration ๋ฑ ๋ค์ํ ์ฐจ์์ systematic augmentation์ ํตํด ๋จ์ผ ์์ฐ์ผ๋ก๋ถํฐ diverse trajectories ์์ฑ
- ์์ฑ๋ kinematic reference๋ฅผ ์ด์ฉํ์ฌ proprioceptive RL policy๋ฅผ minimal reward formulation์ผ๋ก ํ์ต
Originality
- Interaction mesh ๊ธฐ๋ฐ retargeting์ IMMA๋ณด๋ค ํ์ฅํ์ฌ explicit environment/object interaction ๋ณด์กด ๋ฐ ๋ชจ๋ hard kinematic constraints ํตํฉ
- Contact-rich manipulation ๋ถ์ผ์ data augmentation ์์ด๋์ด๋ฅผ humanoid whole-body loco-manipulation์ ์ ์ฉํ ์ต์ด์ ์์คํ
์ ์ ๊ทผ
- Minimal reward engineering๊ณผ proprioceptive-only observation๋ง์ผ๋ก long-horizon complex scene-interaction tasks๋ฅผ ์ํํ๋ unified RL framework ์คํ
Limitation & Further Study
- ํ์ฌ ๋ฐฉ๋ฒ์ reference human motion์ ํ์ง์ ์์กดํ๋ฉฐ, ์๋ชป๋ human ์์ฐ์ ๋ถ์ ํํ augmentation์ ์์ฑํ ์ ์์
- Constrained optimization์ ๊ณ์ฐ ๋น์ฉ์ด ์ค์๊ฐ ๋๋ ๋๊ท๋ชจ batch processing์์ ๋ณ๋ชฉ์ด ๋ ์ ์์
- ํ์ฌ๋ discrete ์งํ ๋ณํ์ ํน์ object ํ์
์ ์ ํ๋์ด ์์ผ๋ฉฐ, continuous environment variation์ ๋ํ ํ์ฅ์ด ํ์
- Zero-shot sim-to-real transfer์ ์ฑ๊ณต์ ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฒฉ์ฐจ(simulation-to-reality gap)์ ์์กดํ๋ฉฐ, ๋ ๋ณต์กํ ํ๊ฒฝ์์์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ฏธ๊ฒ์ฆ
- ํฅํ work: learned models๋ฅผ ์ด์ฉํ optimization ๊ฐ์ํ, ๋ ๋ณต์กํ multi-agent interaction ์๋๋ฆฌ์ค ์ง์, ๋ ๋ค์ํ robot morphology์ ๋ํ scalability ํ๋
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: OmniRetarget์ interaction-preserving motion retargeting๊ณผ ์ฒด๊ณ์ data augmentation์ ํตํด humanoid robot ์ ์ด์ ๋ฐ์ดํฐ ๋ณ๋ชฉ์ ํด๊ฒฐํ๋ ์ค์ง์ ์ด๊ณ ์ํฅ๋ ฅ ์๋ ๊ธฐ์ฌ์ด๋ฉฐ, ์ต์ํ์ reward engineering์ผ๋ก complex whole-body loco-manipulation ๊ธฐ์ ์ zero-shot sim-to-real transfer๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์
์ฆํ์ฌ ๋ก๋ณดํฑ์ค ์ปค๋ฎค๋ํฐ์ ๋งค์ฐ ์ ์ฉํ ๊ณต๊ฐ ๋๊ตฌ ๋ฐ ๋ฐ์ดํฐ์
์ ์ ๊ณตํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์