HumanoidExo: Scalable Whole-Body Humanoid Manipulation via Wearable Exoskeleton
์ ์: Rui Zhong, Yizhe Sun, Junjie Wen, Jinming Li, Chuang Cheng, Wei Dai, Zhiwen Zeng, Huimin Lu, Yichen Zhu, Yi Xu | ๋ ์ง: 2025-10-03 | DOI: 10.48550/arXiv.2510.03022 📄 PDF
Essence
Figure 1. HumanoidExo, a wearable exoskeleton system that transfers human motion to whole-body humanoid data. HumanoidEx
์จ์ด๋ฌ๋ธ ์ธ๊ณจ๊ฒฉ(exoskeleton)์ ํตํด ์ธ๊ฐ์ ์ ์ ๋์์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ๋ฐ์ดํฐ๋ก ๋ณํํ๋ HumanoidExo ์์คํ
์ ์ ์ํ์ฌ, ํด๋จธ๋
ธ์ด๋ ์ ์ฑ
ํ์ต์ ์ํ ๋๊ท๋ชจ ๋ค์ํ ๋ฐ์ดํฐ์
์์ง์ ๋ณ๋ชฉ์ ํด๊ฒฐํ๋ค.
Motivation
- Known: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ์ ์ฑ
ํ์ต์ teleoperation, sim-to-real ์ ์ด, ์น ๊ท๋ชจ ๋น๋์ค ํ์ต ๋ฑ ์ฌ๋ฌ ๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ์ด ์ฐ๊ตฌ๋์ด ์์ผ๋, ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ๊ฐ์ embodiment gap, ํ
๋ ์ฐ์ฐ์ ๋์ ๋น์ฉ๊ณผ ํ์ฅ์ฑ ๋ถ์กฑ์ด ์ง์์ ์ธ ๋ฌธ์ ์ด๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค(DexCap, AirExo, UMI ๋ฑ)์ ์์ง ์กฐ์์๋ง ์ง์คํ๊ฑฐ๋ ์ผ๋ฐ ๋ก๋ดํ์ ๋์์ผ๋ก ํ๋ฉฐ, ํด๋จธ๋
ธ์ด๋์ ์ ์ ์กฐ์(walking, squatting ํฌํจ)์ ์ํ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง ์์คํ
์ด ๋ถ์ฌํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ๋ณต์กํ ์ ์ ์ ์ด ํ์คํฌ๋ฅผ ์ํํ๋ ค๋ฉด ๋๊ท๋ชจ์ ๋ค์ํ ํ์ต ๋ฐ์ดํฐ๊ฐ ํ์์ ์ด๋ฉฐ, ํจ์จ์ ์ธ ๋ฐ์ดํฐ ์์ง ์์คํ
์ ์ค์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ค์ฉํ์ ๋ฅ๋ ฅ ํฅ์์ ์ง๊ฒฐ๋์ด ์๋ค.
- Approach: ์ธ๊ฐ ๋ชธ์ 7 DoF ํ๊ณผ ์ ๋ ฌ๋ ์ธ๊ณจ๊ฒฉ ์ฅ์น์ ๋ฐฑ๋ง์ดํธ LiDAR์ ํตํด ์ ์ ๋์์ ์บก์ฒํ๊ณ , motion retargeting ํ์ดํ๋ผ์ธ์ผ๋ก embodiment gap์ ์ต์ํํ ํ, HE-VLA(Vision-Language-Action ๋ชจ๋ธ)์ imitation learning๊ณผ reinforcement learning์ ๊ฒฐํฉํ์ฌ ์์ ์ ์ธ ์ ์ฑ
์ ํ์ตํ๋ค.
Achievement
Figure 5. Examples for PlaceToy (Task 1), Walk & PlaceToy (Task 2), and PlaceLaundry (Task 3). We designed three tasks t
- ์ผ๋ฐํ ๋ฅ๋ ฅ: HumanoidExo ๋ฐ์ดํฐ๋ฅผ ํตํฉํ๋ฉด ํ์ต๋ ์ ์ฑ
์ด ์๋ก์ด ์ฅ๋ฉด๊ณผ ํ๊ฒฝ์ผ๋ก์ ์ผ๋ฐํ๊ฐ ํจ๊ณผ์ ์ผ๋ก ์ด๋ฃจ์ด์ง๋ค.
- ๋ฐ์ดํฐ ํจ์จ์ฑ: ๋จ 5๊ฐ์ ์ค์ ๋ก๋ด ์์ฐ๋ง์ผ๋ก๋ ๋ณต์กํ ์ ์ ์ ์ด ํ์คํฌ๋ฅผ ํ์ตํ ์ ์๋ค.
- ์ ๊ท ๊ธฐ๋ฅ ์ต๋: ์ค์ ๋ก๋ด ์์ฐ ์์ด ์ธ๊ณจ๊ฒฉ ๋ฐ์ดํฐ๋ง์ผ๋ก walking๊ณผ ๊ฐ์ ์์ ํ ์๋ก์ด ๊ธฐ๋ฅ์ ์ต๋ํ ์ ์๋ค.
How
Figure 2. Hardware overview for HumaniodExo. We integrated a Mid-360 LiDAR for acquiring exoskeleton motion odometry. Fo
- ์ธ๊ณจ๊ฒฉ ํ๋์จ์ด ์ค๊ณ: ์ธ๊ฐ์ 7๊ฐ ํ ๊ด์ ๊ณผ ์ ๋ ฌ๋ isomorphic ์ธ๊ณจ๊ฒฉ์ ์ค๊ณํ๊ณ ๊ธ๋ ๋
ธํด๋จธ๋ผ ๊ด์ ์ 2๊ฐ ์ถ๊ฐ DoF ์ถ๊ฐ
- ์์ง ํฌ์ฆ ์ ๋ ฌ: Denavit-Hartenberg (DH) ํ๋ผ๋ฏธํฐ์ forward kinematics๋ฅผ ์ด์ฉํ์ฌ ์ธ๊ณจ๊ฒฉ ๊ด์ ์ ๋ก๋ด ๊ด์ ๋ก ๋งคํ
- ํ์ง ๋์ญํ ์ถ์ : ๋ฐฑ๋ง์ดํธ Mid-360 LiDAR์ ํตํด ์ฌ์ฉ์์ ๋ชธํต 6D ํฌ์ฆ๋ฅผ ์ถ์ ํ์ฌ walking, squatting ๋ฑ์ ๊ธฐ์ ์ด๋ ๊ธฐ๋ก
- Motion retargeting: ์ธ๊ณจ๊ฒฉ๊ณผ LiDAR ๋ฐ์ดํฐ๋ฅผ ์ตํฉํ์ฌ kinematically feasibleํ ์ ์ ๊ถค์ ์์ฑ
- HE-VLA ๋ชจ๋ธ: Vision-Language-Action ๊ธฐ๋ฐ ์ ์ฑ
๋ชจ๋ธ์ imitation learning ๊ธฐ์ด ์์ reinforcement learning(actor-critic)์ ํตํด ๊ท ํ ๋ฐ ์์ ์ฑ ํ๋ณด
- ํ์ด๋ธ๋ฆฌ๋ ํ์ต: ์ธ๊ณจ๊ฒฉ ๋ฐ์ดํฐ(๋๊ท๋ชจ)์ ์ค์ ๋ก๋ด ๋ฐ์ดํฐ(์๊ท๋ชจ)๋ฅผ ๊ฒฐํฉํ์ฌ ํจ์จ์ ์ด๊ณ ์์ ์ ์ธ ์ ์ฑ
ํ์ต
Originality
- ์ฒ์์ ์ ์ ํด๋จธ๋
ธ์ด๋ ์์คํ
: ๊ธฐ์กด DexCap, AirExo, UMI ๋ฑ์ ์์ง ๋๋ ํน์ ๋ถ์์๋ง ์ง์คํ ๋ฐ๋ฉด, HumanoidExo๋ ์ต์ด๋ก ์ธ๊ณจ๊ฒฉ์ ํตํ ์ ์ (์์ง+ํ์ง+๊ธฐ์ ์ด๋) ํด๋จธ๋
ธ์ด๋ ๋ฐ์ดํฐ ์์ง ์์คํ
์ ์ ์
- Joint space ์ง์ ๋งคํ: Cartesian ๊ณต๊ฐ ์ ์ด์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์ญ๊ธฐ๊ตฌํ ๋คํด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ธ๊ณจ๊ฒฉ ๊ด์ ์ ๋ก๋ด ๊ด์ ์ ์ง์ ๋งคํํ๋ embodiment gap ์ต์ํ ์ ๋ต
- LiDAR ๊ธฐ๋ฐ ๋ฒ ์ด์ค ์ถ์ : ๋ฐฑ๋ง์ดํธ LiDAR์ ํตํ 6D ํ ๋ฅด์ ํฌ์ฆ ์ถ์ ์ผ๋ก walking, squatting ๋ฑ ๋ณต์กํ ๊ธฐ์ ๋์ ์บก์ฒ
- Hybrid imitation-RL ํ์ต: ์ธ๊ณจ๊ฒฉ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ์ต์ reinforcement learning์ ๊ฒฐํฉํ์ฌ ์ค์ ๋ก๋ด์ ์์ ์ฑ ํ๋ณด
Limitation & Further Study
- ์ธ๊ณจ๊ฒฉ ์ฐฉ์ฉ ์ ์ฝ: ์ธ๊ณจ๊ฒฉ์ ์ฌ์ฉ์์๊ฒ ๋ฌผ๋ฆฌ์ ๋ถ๋ด์ ์ฃผ๋ฉฐ, ์ฅ์๊ฐ ์ฐฉ์ฉ์ ๋ฐ๋ฅธ ํผ๋ก๊ฐ ๋ฐ์ดํฐ ์์ง ํจ์จ์ฑ์ ์ ํํ ์ ์์
- Embodiment gap ์์ ํด๊ฒฐ ๋ฏธํก: ์ธ๊ฐ๊ณผ ํด๋จธ๋
ธ์ด๋ ๊ฐ์ ์ ์ฒด ๋น์จ ๋ฐ ์ด๋ ํน์ฑ ์ฐจ์ด๊ฐ ์์ ํ ํด์๋์ง ์์ retargeting ๊ณผ์ ์์ ์์ค ๊ฐ๋ฅ์ฑ
- LiDAR ๊ธฐ๋ฐ ์ถ์ ์ ํ๊ณ: ๋ณต์กํ ์ค๋ด ํ๊ฒฝ์ด๋ ๋ฐ์ฌ ํ๋ฉด์์ LiDAR ์ ํ๋ ์ ํ ๊ฐ๋ฅ์ฑ, ๋์ ์ฅ์ ๋ฌผ ํ๊ฒฝ์์์ ๊ฒฌ๊ณ ์ฑ ๋ฏธ๊ฒ์ฆ
- ํน์ ๋ก๋ด ํ๋ซํผ ์์กด์ฑ: ์คํ์ด ํน์ ํด๋จธ๋
ธ์ด๋ ํ๋ซํผ์์๋ง ์ํ๋์์ผ๋ฏ๋ก ๋ค๋ฅธ ํํ์ ํด๋จธ๋
ธ์ด๋๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธํ์ธ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: ๋ ๊ฐ๋ฒผ์ด ์ธ๊ณจ๊ฒฉ ์ค๊ณ, ๋ ์ ๊ตํ ์๊ฐ๋ฝ ์ ์ด ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ, ๋ค์ํ ํด๋จธ๋
ธ์ด๋ ํํ์ ๋ํ ์ ์ํ motion retargeting ์๊ณ ๋ฆฌ์ฆ ์ฐ๊ตฌ๊ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: HumanoidExo๋ ์จ์ด๋ฌ๋ธ ์ธ๊ณจ๊ฒฉ์ ํตํ ์ ์ ํด๋จธ๋
ธ์ด๋ ๋ฐ์ดํฐ ์์ง์ ์ฒซ ์ฑ๊ณต์ ์ฌ๋ก๋ก, ๊ธฐ์กด ๋ฐฉ๋ฒ์ ์์ง ์ง์ค ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๊ณ embodiment gap์ ์ต์ํํ ํ์ ์ ์ ๊ทผ์ด๋ค. ์คํ ๊ฒฐ๊ณผ๊ฐ ์ ํ์ ์ด๊ณ ๊ธฐ์ ์ ๊น์ด๊ฐ ๋ค์ ๋ถ์กฑํ์ง๋ง, ํด๋จธ๋
ธ์ด๋ ์ ์ฑ
ํ์ต์ ๋ฐ์ดํฐ ๋ณ๋ชฉ ๋ฌธ์ ํด๊ฒฐ์ด๋ผ๋ ์ค์ง์ ๊ธฐ์ฌ์ ๋์ ์ค์ฉ์ฑ์ผ๋ก ์ธํด ๋ก๋ณดํฑ์ค ๋ถ์ผ์ ์๋ฏธ ์๋ ์ง์ ์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์