HAIC: Humanoid Agile Object Interaction Control via Dynamics-Aware World Model
์ ์: Dongting Li, Xingyu Chen, Qianyang Wu, Bo Chen, Sikai Wu, Hanyu Wu, Guoyao Zhang, Liang Li, Mingliang Zhou, Diyun Xiang, Jianzhu Ma, Qiang Zhang, Renjing Xu | ๋ ์ง: 2026-02-12 | DOI: 10.48550/arXiv.2602.11758 📄 PDF
Essence
Fig. 3: Overview of our Dynamics-aware World Model. It predicts object
HAIC๋ humanoid ๋ก๋ด์ด ๋
๋ฆฝ์ ์ธ ๋์ญํ์ ๊ฐ์ง ๋ฏธ์๋(underactuated) ๋ฌผ์ฒด์ ์ํธ์์ฉํ ์ ์๋๋ก dynamics-aware world model์ ํตํด proprioception๋ง์ผ๋ก ๊ณ ์ฐจ ๊ฐ์๋๋ฅผ ์์ธกํ๊ณ ๊ธฐํํ์ projection์ ํตํด ์๊ฐ blind spot์์๋ ๊ฐ๊ฑดํ ์ ์ด๋ฅผ ์คํํ๋ค.
Motivation
- Known: Humanoid ๋ก๋ด์ ์์ ์๋(fully actuated) ๋ฌผ์ฒด ์กฐ์์์ ์ฑ๊ณผ๋ฅผ ๋ณด์์ผ๋ฉฐ, recent research๋ large-scale motion datasets๊ณผ motion imitation์ ํตํด whole-body control์ ํฅ์์์ผฐ๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ก๋ด์ end-effector์ ๊ฒฝ์ง๋๊ฒ ๊ฒฐํฉ๋ ์์ ์๋ ๋ฌผ์ฒด ์ค์ฌ์ด๋ฉฐ, ๋
๋ฆฝ์ ์ธ ๋์ญํ๊ณผ ๋นํ๋ก๋
ธ๋ฏน ์ ์ฝ์ ๊ฐ์ง underactuated ๋ฌผ์ฒด(์ค์ผ์ดํธ๋ณด๋, ์นดํธ ๋ฑ)์ ๋ํ ์ ์ด ๋ฅ๋ ฅ์ด ๋ถ์กฑํ๊ณ ์ธ๋ถ ์ํ ์ถ์ ์ ์์กดํ๋ค.
- Why: Underactuated ๋ฌผ์ฒด์์ ์ํธ์์ฉ์ ์๊ฐ ํ์๊ณผ ๋์ญํ ๊ฒฐํฉ๋ ฅ์ ๋ณต์ก์ฑ์ ์ผ๊ธฐํ๋ฉฐ, proprioception ๊ธฐ๋ฐ์ robust ์ ์ด ๋ฐฉ๋ฒ ๊ฐ๋ฐ์ ํ์ค์ ๋ฏธ๊ตฌ์กฐํ๋ ํ๊ฒฝ์์ humanoid ๋ก๋ด์ ์ค์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: Proprioceptive history๋ก๋ถํฐ ๊ณ ์ฐจ ๊ฐ์๋๋ฅผ ๋ช
์์ ์ผ๋ก ์์ธกํ๊ณ ์ด๋ฅผ static geometric prior์ projectionํ์ฌ dynamic occupancy map์ ๊ตฌ์ฑํ๋ dynamics predictor๋ฅผ ์ ์ํ๋ฉฐ, asymmetric fine-tuning์ ํตํด world model์ด policy ํ์์ ์ง์ ์ ์ํ๋๋ก ์ค๊ณํ๋ค.
Achievement
Fig. 2: HAIC excels at complex interactions, particularly with underactuated
- Dynamics-Aware World Model: High-order acceleration inference์ geometric projection์ ํตํฉํ์ฌ ์ ์ payload์ ๋์ underactuated ๋ฌผ์ฒด์ ๋ํ ํต์ผ๋ ์ํ ์ถ์ ์คํ
- Asymmetric Adaptive Distillation: Privileged geometric/dynamic reasoning์ sensor-limited student policy๋ก ์ ์ดํ๋ robust two-stage training pipeline ๊ฐ๋ฐ
- Real-World Performance: Skateboarding, cart pushing/pulling, multi-terrain box carrying ๋ฑ์ agile underactuated tasks์์ SOTA ์ฑ๋ฅ ๋ฌ์ฑ ๋ฐ external sensing ์์ด 100% ์ฑ๊ณต๋ฅ ์
์ฆ
How
Fig. 3: Overview of our Dynamics-aware World Model. It predicts object
- Proprioceptive history ๋ถ์์ ํตํ ์ ํ/๊ฐ ๊ฐ์๋ ๋ช
์์ ์์ธก์ผ๋ก underactuated ๋ฌผ์ฒด์ ๋
๋ฆฝ์ ์ด๋ ์ถ์ธ ํฌ์ฐฉ
- ์์ธก๋ ๋์ญํ ์ํ๋ฅผ ์ ๊ตฐ(point cloud) ๊ธฐ๋ฐ static geometric prior์ ๋ช
์์ ์ผ๋ก projectํ์ฌ spatially grounded dynamic occupancy ํํ ๊ตฌ์ฑ
- ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํ๊ฒฝ์ ๊ฒฉ์ฐจ ํด์๋ฅผ ์ํ asymmetric fine-tuning ์ ๋ต์ผ๋ก world model์ด student policy ํ์์ ์จ๋ผ์ธ ์ ์
- Multi-object interaction ์ง์์ ์ํ Contact Guidance Strategy ์ค๊ณ
- Inertial perturbation์ ๋ํ ์ฌ์ ์ (proactive) ๋ณด์์ ํตํ agile interaction ์คํ
Originality
- Proprioception-centric dynamics prediction ํจ๋ฌ๋ค์์ผ๋ก vision-based world model๊ณผ ์ฐจ๋ณํ
- High-order acceleration ๋ช
์์ ์์ธก๊ณผ geometric projection์ novel ๊ฒฐํฉ์ผ๋ก blind spot์์์ collision boundary ๋ฐ contact affordance ์ถ๋ก ๊ฐ๋ฅ
- Asymmetric adaptive distillation์ ํตํ distribution shift ๋์์ผ๋ก sim-to-real transfer ๊ฐ๊ฑด์ฑ ํฅ์
- Underactuated ๋ฌผ์ฒด ์ ์ด๋ฅผ humanoid whole-body control์ unified framework ๋ด์ ํฌํจ์ํจ ์ฒซ ์๋
Limitation & Further Study
- ์ธ๋ถ state estimation ์์ด๋ ๊ทน๋์ ๋์ญํ ๋ณํ(์: ๊ธ๊ฒฉํ ํ์ค ๋ณํ)์ ๋ํ ์ ์ ๋ฅ๋ ฅ ๊ฒ์ฆ ํ์
- ์ ์ geometric prior๊ฐ ๋ณํ ๊ฐ๋ฅํ ๋ฌผ์ฒด(deformable objects)์ ๋ํด์๋ ์ ํ์ ์ผ ์ ์์
- Real-world ์คํ์ด ํน์ humanoid ํ๋ซํผ๊ณผ task set์ ์ ํ๋์ด ๋ค๋ฅธ ๋ก๋ด ํํ๋ก์ ์ผ๋ฐํ ๊ฒ์ฆ ๋ถ์กฑ
- Asymmetric fine-tuning์ online adaptation์ด ์ค์๊ฐ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ ๋ฐ ๊ณ์ฐ ๋ณต์ก๋ ๋ถ์ ํ์
- ์ฅ์๊ฐ interaction์์ world model์ ๋์ ์ค๋ฅ(drift)๊ฐ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ๋ถ์ ๋ณด์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ humanoid ๋ก๋ด์ underactuated ๋ฌผ์ฒด ์ํธ์์ฉ์ด๋ผ๋ ํ์ค์ ์ผ๋ก ์ค์ํ ๋ฌธ์ ๋ฅผ proprioception ๊ธฐ๋ฐ์ ์ฐฝ์์ ์ธ dynamics prediction๊ณผ geometric projection์ผ๋ก ์ฐ์ํ๊ฒ ํด๊ฒฐํ๋ฉฐ, ์ค์ ๋ก๋ด์์ SOTA ์ฑ๋ฅ์ ์
์ฆํ ๋งค์ฐ ๊ฐ๋ ฅํ ๊ธฐ์ฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์