H2-COMPACT: Human-Humanoid Co-Manipulation via Adaptive Contact Trajectory Policies
์ ์: Geeta Chandra Raju Bethala, Hao Huang, Niraj Pudasaini, Abdullah Mohamed Ali, Shuaihang Yuan, Congcong Wen, Anthony Tzes, Yi Fang | ๋ ์ง: 2025-05-23 | URL: https://arxiv.org/abs/2505.17627 📄 PDF
Essence
Fig. 2: Hยฒ-COMPACTโs pipeline: raw force/torque and RGB inputs are cleaned by SAM2 and WHAM, then passed through
ํ๊ฐ ์ผ์ ๊ธฐ๋ฐ haptic intent inference์ reinforcement learning ๊ธฐ๋ฐ locomotion policy๋ฅผ ๊ณ์ธต์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ์ธ๊ฐ-ํด๋จธ๋
ธ์ด๋ ํ๋ ฅ ๋ฌผ์ฒด ์ด๋ฐ์ ์คํํ๋ค.
Motivation
- Known: ๊ณ ์ ํ ๋งค๋ํจ๋ ์ดํฐ์ ๋ฐํด ๋ก๋ด์์์ ๋ฌผ๋ฆฌ์ ์ธ๊ฐ-๋ก๋ด ํ์์ด ์ฐ๊ตฌ๋์์ผ๋, legged humanoid์ ์ ์ ๋์ ์ ์ด์ haptic intent inference๋ฅผ ํตํฉํ ์ฐ๊ตฌ๋ ๋ฏธํกํ๋ค.
- Gap: humanoid์ ํ์ฒด ํ์์ผ๋ก ์ธํด vision ๊ธฐ๋ฐ ๊ฐ์ง๊ฐ ์ด๋ ค์ด co-manipulation ํ๊ฒฝ์์, force/torque ์ ํธ๋ง์ผ๋ก human intent๋ฅผ ํด์ํ๊ณ ๋์์ payload-adaptive locomotion์ ์ํํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์ฌํ๋ค.
- Why: humanoid๊ฐ ์ธ๊ฐ์ ์์ฐ์ค๋ฌ์ด ํ๋ ฅ ํ๋(๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด ์ด๋ฐ ๋ฑ)์ ์ฐธ์ฌํ ์ ์๋ค๋ฉด ์ค๋ฌด ํ๊ฒฝ์์์ ์ค์ฉ์ฑ์ด ํ๊ธฐ์ ์ผ๋ก ๋์์ง๋ค.
- Approach: Behavior cloning์ผ๋ก force/torqueโwhole-body velocity ๋งคํ์ ํ์ตํ๊ณ , PPO ๊ธฐ๋ฐ ์ ์ฑ
์ผ๋ก velocityโjoint trajectory ์ ์ด๋ฅผ ํ์ตํ์ฌ ๊ณ์ธต์ ๋ถ๋ฆฌ๋ฅผ ํตํด robust co-manipulation์ ๊ตฌํํ๋ค.
Achievement
Fig. 1: Real-world humanโhumanoid co-manipulation. The human leads the humanoid robotโunaware of the route or
- Hierarchical Policy Learning: Force-to-velocity intent inference์ velocity-to-joint locomotion์ ๋ถ๋ฆฌํ์ฌ ์ง๊ด์ responsiveness์ robust control์ ์กฐํฉ ๋ฌ์ฑ
- Haptic Intent Inference Model: Multi-resolution stationary wavelet transform๊ณผ diffusion policy๋ฅผ ํ์ฉํ compact force/torque ์ฒ๋ฆฌ๋ก minimal sensor data๋ง์ผ๋ก human intent ํ์ต
- Vision-only Data Collection: Motion-capture ์์ด RGB video์ F/T sensor๋ง์ผ๋ก SAM2, WHAM์ ํ์ฉํ human pose/velocity ์ถ์ถ
- Sim-to-Real Validation: Isaac Gym์ randomized payloads (0-3 kg) ๋ฐ friction ์กฐ๊ฑด ํ์ต, MuJoCo์ ์ค์ Unitree G1 humanoid์์ ๊ฒ์ฆ
- Human-level Performance: Blindfolded human-follower baseline๊ณผ comparableํ completion time, trajectory deviation, velocity synchrony, follower-force ๋ฌ์ฑ
How
Fig. 2: Hยฒ-COMPACTโs pipeline: raw force/torque and RGB inputs are cleaned by SAM2 and WHAM, then passed through
- Dual ATI Mini-40/45 ์ผ์์์ 6-axis force/torque ์์ง (T=HรS ์ํ)
- Stationary wavelet transform์ผ๋ก multi-resolution force/torque encoding (approximation coefficients ์ถ์ถ)
- Cross-attention Transformer ๊ธฐ๋ฐ conditional diffusion policy๋ก (F,ฯ) โ (vx, vy, ฯz) ๋งคํ
- DDIM sampling์ผ๋ก inference time์ deterministic velocity ์์ฑ
- PPO๋ก high-level velocity commands๋ฅผ humanoid joint angles๋ก ๋ณํํ๋ locomotion policy ํ์ต
- Isaac Gym์์ randomized payloads์ friction์ผ๋ก robust policy ์ฌ์ ํ์ต
- SAM2๋ก ๋ฐฐ๊ฒฝ ์ ๊ฑฐ, WHAM์ผ๋ก 3D human pose/velocity ์ถ์ถํ์ฌ supervision ์์ฑ
- Real Unitree G1 humanoid์์ human-humanoid co-manipulation ์คํ ํ๊ฐ
Originality
- Legged humanoid์ ์ ์ ์ ์ด์ haptic intent inference์ ์ต์ด ํตํฉ (๊ธฐ์กด: fixed-base arm, wheeled platform)
- Motion-capture free ๋ฐ์ดํฐ ์์ง ํ์ดํ๋ผ์ธ (SAM2 + WHAM ํ์ฉ)
- Multi-resolution wavelet transform + diffusion policy ๊ธฐ๋ฐ compact haptic inference model์ ์ค๊ณ
- Randomized payload/friction ์กฐ๊ฑด์์์ load-adaptive locomotion policy ํ์ต
- Human-human baseline๊ณผ์ ์ ๋์ ๋น๊ต๋ฅผ ํตํ co-manipulation ์ฑ๋ฅ ๊ฒ์ฆ
Limitation & Further Study
- Payload range์ด 0-3 kg๋ก ์ ํ์ ์ด๋ฉฐ, ๋ ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด์ ์ด๋ฐ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ํ์ฌ framework๋ planar motion (vx, vy, ฯz)๋ง ์ง์ํ๋ฉฐ, ์์ง ๋ฐฉํฅ ์ ์ด ๋ฏธ์ง์
- Diffusion policy์ inference latency ๋ฐ computational cost์ ๋ํ ์์ธ ๋ถ์ ๋ถ์ฌ
- ๋ค์ํ ํ๊ฒฝ (๊ณ๋จ, ์ข์ ๊ณต๊ฐ ๋ฑ)์์์ generalization ์ฑ๋ฅ ๋ฏธํ๊ฐ
- Human leader์ intent๊ฐ ambiguousํ ์ํฉ์์์ policy ํ๋ ๋ถ์ ํ์
- ๋ค์ค ์ธ๊ฐ-๋ก๋ด ํ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๋ํ ๋
ผ์ ๋ถ์ฌ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Haptic-based intent inference์ force-adaptive legged locomotion์ ๊ณ์ธต์ ๊ฒฐํฉ์ผ๋ก ์ธ๊ฐ-ํด๋จธ๋
ธ์ด๋ ํ๋ ฅ ๋ฌผ์ฒด ์ด๋ฐ์ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๋ฉฐ, motion-capture free ๋ฐ์ดํฐ ์์ง๊ณผ sim-to-real ๊ฒ์ฆ์ ํตํด ์ค์ฉ์ฑ ๋์ ์ฐ๊ตฌ๋ก ํ๊ฐ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์