Humanoid Manipulation Interface: Humanoid Whole-Body Manipulation from Robot-Free Demonstrations
์ ์: Ruiqian Nai, Boyuan Zheng, Junming Zhao, Haodong Zhu, Sicong Dai, Zunhao Chen, Yihang Hu, Yingdong Hu, Tong Zhang, Chuan Wen, Yang Gao | ๋ ์ง: 2026-02-12 | DOI: 10.48550/arXiv.2602.06643 📄 PDF
Essence
Fig. 1: Humanoid Manipulation Interface (HuMI). Left: Our portable, robot-free data collection facilitates skill transfe
HuMI๋ ๋ก๋ด ์์ด ํด๋์ฉ ํ๋์จ์ด๋ก ์์งํ ์ธ๊ฐ ์ ์ ๋์ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ์ธํํ ๋ก๋ด์๊ฒ ๋ค์ํ ์ ์ ์กฐ์ ๊ธฐ์ ์ ํ์ต์ํค๋ ํ๋ ์์ํฌ์ด๋ค. ๊ณ์ธต์ ํ์ต ํ์ดํ๋ผ์ธ๊ณผ IK ๊ธฐ๋ฐ ์ ์์ ํตํด ์ธ๊ฐ-๋ก๋ด ๊ฐ ์ ์ฒดํ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ๊ณ 70% ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ํ์ฌ ์ธํํ ๋ก๋ด ์ ์ ์กฐ์์ ์ฃผ๋ก ์๊ฒฉ์กฐ์ข
(teleoperation) ๋๋ ์๋ฎฌ๋ ์ด์
-ํฌ-์ค์ RL์ ์์กดํ๋ฉฐ, ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ ํ๋์จ์ด ๋ก์ง์คํฑ๊ณผ ๋ณต์กํ ๋ณด์ ๊ณตํ์ผ๋ก ์ธํด ์ ํ๋ ํ๊ฒฝ์์๋ง ์ ํ๋ ๊ธฐ์ ์ ์์ฐํ๋ค.
- Gap: ๊ธฐ์กด ๋ก๋ด ์๋ ๋ฐ์ดํฐ ์์ง ์์คํ
์ ์๋์ดํํฐ ๊ถค์ ๋ง ๊ธฐ๋กํ์ง๋ง, ์ ์ ์กฐ์์ ๋ชธํต, ๋ค๋ฆฌ, ๋ฐ์ ์์ง์์ด ์ค์ํ๊ณ , ์ธ๊ฐ-๋ก๋ด ์ ์ฒดํ ๋ถ์ผ์น์ ์ถ์ ์ค๋ฅ๋ก ์ธํ ์คํ ๋ถ๊ฐ๋ฅ์ฑ ๋ฌธ์ ๊ฐ ํด๊ฒฐ๋์ง ์์๋ค.
- Why: ์ ์ ์กฐ์ ๊ธฐ์ ์ด ํ์ํ ์ธํํ ๋ก๋ด์ ๋ค์ํ ์์
(์ชผ๊ทธ๋ ค์๊ธฐ, ๋ฌด๋ฆ ๊ฟ๊ธฐ, ์ด๋ ๋ฑ)์ ์์จ์ ์ผ๋ก ์ํํ๋ ค๋ฉด ํจ์จ์ ์ธ ๋ฐ์ดํฐ ์์ง๊ณผ ์ ์ฒดํ ์ฐจ์ด ๊ทน๋ณต์ด ํ์์ ์ด๋ฉฐ, ์ด๋ ๋ก๋ด ์กฐ์์ ์ค์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.
- Approach: HTC Vive Ultimate Tracker๋ฅผ ์ด์ฉํ ๊ณจ๋ฐ, ์, ๋ฐ 5์ง์ ์ ์ ์ ์ถ์ ์ผ๋ก ์ธ๊ฐ ๋์์ ์์งํ๊ณ , ์ค์๊ฐ IK ๋ฏธ๋ฆฌ๋ณด๊ธฐ ์ธํฐํ์ด์ค๋ก ํ๋น์ฑ์ ๊ฒ์ฆํ ํ, Diffusion Policy ๊ธฐ๋ฐ ๊ณ ์์ค ์ ์ฑ
๊ณผ ์กฐ์ ์ค์ฌ์ ์ ์์ค ์ปจํธ๋กค๋ฌ๋ฅผ ๊ณ์ธต์ ์ผ๋ก ํ์ต์ํจ๋ค.
Achievement
Fig. 1: Humanoid Manipulation Interface (HuMI). Left: Our portable, robot-free data collection facilitates skill transfe
- 3๋ฐฐ ํฅ์๋ ๋ฐ์ดํฐ ์์ง ํจ์จ: ์๊ฒฉ์กฐ์ข
๋๋น 3๋ฐฐ ๋์ ๋ฐ์ดํฐ ์์ง ์ฒ๋ฆฌ๋ ๋ฌ์ฑ
- ๋ก๋ด ์๋ ํด๋์ฉ ์์คํ
: ๋ฐฑํฉ ํ๋์ ๋ค์ด๊ฐ๋ ํด๋์ฉ ํ๋์จ์ด๋ก ๋ค์ํ ํ๊ฒฝ์์ ๋ฐ์ดํฐ ์์ง ๊ฐ๋ฅ
- ๋ค์ํ ์ ์ ์์
์ง์: ๋ฌด๋ฆ ๊ฟ๊ธฐ, ์ชผ๊ทธ๋ ค์๊ธฐ, ๋์ง๊ธฐ, ๊ฑท๊ธฐ, ์ํ ์กฐ์ ๋ฑ 5๊ฐ์ง ์์
์ฑ๊ณต
- ๋ฏธ์ง ํ๊ฒฝ์์์ ๊ฐํ ์ผ๋ฐํ: ๋ฏธ์ง ๋ฌผ์ฒด ๋ฐ ํ๊ฒฝ์์ 70% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ์ ์ฒดํ ์ฐจ์ด ๊ทน๋ณต: IK ์ ์๊ณผ ์กฐ์ ์ค์ฌ ์ปจํธ๋กค๋ฌ๋ก ์ธ๊ฐ-๋ก๋ด ๊ฐ ์ ์ฒดํ ๋ถ์ผ์น ํด๊ฒฐ
How
Fig. 2: Overview of the HuMI data collection system. (a) Challenges: Relying solely on gripper poses under-specifies who
- 5์ง์ ์ ์ ์ถ์ (pelvis, hands, feet)์ ํตํด ๊ทธ๋ฆฌํผ ๊ถค์ ๋ง์ผ๋ก๋ ๋ถ์กฑํ ์ ์ ๋์ ์ ๋ณด ์์ง
- HTC Vive Ultimate Tracker ๊ธฐ๋ฐ base-station-free ๋
๋ฆฝํ ์ถ์ ์ผ๋ก ๋ค์ํ ํ๊ฒฝ์์์ ํด๋์ฑ ํ๋ณด
- ์ค์๊ฐ IK ๋ฏธ๋ฆฌ๋ณด๊ธฐ ์ธํฐํ์ด์ค๋ฅผ ํตํ ์ธ๊ฐ-์ธ-๋-๋ฃจํ kinematic adaptation์ผ๋ก ํ๋น์ฑ ๊ฒ์ฆ
- ์ญ๊ธฐ๊ตฌํ(IK)์ ์ด์ฉํด ๊ทธ๋ฆฌํผ, ๊ณจ๋ฐ, ๋ฐ ๊ถค์ ์ ์ ์ฒด ๋ก๋ด ์์ ๋๋ก ์ฆ๊ฐ
- Diffusion Policy๋ฅผ ๊ณ ์์ค ์ ์ฑ
์ผ๋ก ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ๊ด์ธก์์ ๋ชฉํ ํคํฌ์ธํธ ๊ถค์ ์ผ๋ก ๋งคํ
- ์กฐ์ ์ค์ฌ์ ์ ์์ค ์ปจํธ๋กค๋ฌ๋ก ๋ชฉํ ๊ถค์ ์ถ์ ์ ๋์ ์ ๋ฐ๋์ ์์ ์ฑ ์ ์ง
- ๊ณ ์์ค ์ ์ฑ
๊ณผ ์ ์์ค ์ปจํธ๋กค๋ฌ ๊ฐ์ ํตํฉ์ ์ํด action chunking ๊ฒฝ๊ณ์์์ ๋ถ์ฐ์์ฑ ์ํ
Originality
- ์ธํํ ๋ก๋ด ์ ์ ์กฐ์์ ์ํ ์ต์ด์ ๋ก๋ด ์๋ ์์ฐ ์์คํ
์ ์
- ์ ์ ์ถ์ ๊ธฐ๋ฐ ๋ค์ค ์ง์ (pelvis, hands, feet) ๋ฐ์ดํฐ ์์ง์ผ๋ก ๊ธฐ์กด ๋จ์ ๊ทธ๋ฆฌํผ ๊ธฐ๋ฐ ์์คํ
ํ์ฅ
- ์ค์๊ฐ IK ๋ฏธ๋ฆฌ๋ณด๊ธฐ ์ธํฐํ์ด์ค๋ฅผ ํตํ ์๋ก์ด human-in-the-loop kinematic adaptation ๋ฐฉ์
- ์กฐ์ ์ค์ฌ์ ์ ์์ค ์ปจํธ๋กค๋ฌ ์ค๊ณ๋ก action chunking ๊ฒฝ๊ณ์ ๋ถ์ฐ์์ฑ ๋ฌธ์ ํด๊ฒฐ
- ์ธ๊ฐ-๋ก๋ด ์ ์ฒดํ ์ฐจ์ด ๊ทน๋ณต์ ์ํ ์ฒด๊ณ์ ์ ๊ทผ๋ฒ ์ ์(IK ๊ธฐ๋ฐ ์ ์, ๊ณต๊ฐ ์ ๋ ฌ ์ ์ง)
Limitation & Further Study
- HTC Vive Ultimate Tracker์ ์ถ์ ์ง์ฐ์๊ฐ(latency)๊ณผ ๋
ธ์ด์ฆ๊ฐ ์ ๋ฐํ ์กฐ์์ ์ํฅ์ ๋ฏธ์น ์ ์์
- IK ๊ธฐ๋ฐ ์ ์์ด ๋ชจ๋ ์ ์ฒดํ ๋ถ์ผ์น๋ฅผ ํด๊ฒฐํ์ง ๋ชปํ๋ฉฐ, ํนํ ํ ๊ธธ์ด ์ฐจ์ด๊ฐ ํฐ ๊ฒฝ์ฐ ๋๋ฌ ์คํจ ๊ฐ๋ฅ
- 5๊ฐ์ง ์์
๋ง ํ๊ฐํ์ผ๋ฉฐ, ๋ ๋ณต์กํ๊ฑฐ๋ ๋์ ์ธ ์์
์ ๋ํ ํ์ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ๋ฏธ์ง ํ๊ฒฝ์์์ 70% ์ฑ๊ณต๋ฅ ์ ์ฌ์ ํ ์ค์ ๋ฐฐํฌ์๋ ๋ฎ์ ์ ์์
- ์ ์์ค ์ปจํธ๋กค๋ฌ์ 4-6cm ์ถ์ ์ค๋ฅ๊ฐ ๋ฏธ์ธํ ์กฐ์(์ ๋ฐ ๊ทธ๋ฆฌํ ๋ฑ)์ ์ํฅ
- ํ์์ฐ๊ตฌ: ๋ ์ ๋ฐํ ๋
๋ฆฝํ ์ถ์ ์์คํ
๊ฐ๋ฐ, ๋ ๋ค์ํ ์ ์ฒดํ์ ๋ํ ์ ์ ๋ฉ์ปค๋์ฆ ๊ฐํ, ์ค์๊ฐ ํ๊ฒฝ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ์ ์ ํ์ต
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: HuMI๋ ๋ก๋ด ์๋ ํด๋์ฉ ๋ฐ์ดํฐ ์์ง๊ณผ ๊ณ์ธต์ ํ์ต์ ๊ฒฐํฉํ์ฌ ์ธํํ ๋ก๋ด์ ์ ์ ์กฐ์์ ํจ์จ์ ์ผ๋ก ํ์ต์ํค๋ ํ์ ์ ์ธ ํ๋ ์์ํฌ์ด๋ค. 3๋ฐฐ ๋์ ๋ฐ์ดํฐ ์์ง ํจ์จ๊ณผ ๋ฏธ์ง ํ๊ฒฝ์์์ ๊ฐํ ์ผ๋ฐํ๋ ๋ก๋ด ํ์ต์ ์ค์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํค๋ฉฐ, ์ ์ฒดํ ์ฐจ์ด ๊ทน๋ณต์ ์ํ ์ฒด๊ณ์ ์ ๊ทผ๋ฒ์ด ํ๋ฌธ์ ๊ธฐ์ฌ๋ ํฌ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์