Humanoid Policy ~ Human Policy
์ ์: Ri-Zhao Qiu, Shiqi Yang, Xuxin Cheng, Chaitanya Chawla, Jialong Li, Tairan He, Ge Yan, David J. Yoon, Ryan Hoque, Lars Paulsen, Ge Yang, Jian Zhang, Sha Yi, Guanya Shi, Xiaolong Wang | ๋ ์ง: 2025-03-17 | URL: https://arxiv.org/abs/2503.13441 📄 PDF
Essence
Figure 3: Overview of HAT. Human Action Transformer (HAT) learns a robot policy by modeling
์ด ๋
ผ๋ฌธ์ humanoid ๋ก๋ด์ ์กฐ์ ์ ์ฑ
ํ์ต์ ๋๊ท๋ชจ egocentric human demonstration์ ํ์ฉํ๋ cross-embodiment ํ์ต ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. PH2D ๋ฐ์ดํฐ์
๊ณผ Human Action Transformer (HAT)๋ฅผ ํตํด human๊ณผ robot ๊ฐ์ embodiment gap์ ์ํํ๊ณ ๋ฐ์ดํฐ ์์ง ํจ์จ์ ํฌ๊ฒ ๊ฐ์ ํ๋ค.
Motivation
- Known: Robot manipulation ํ์ต์ large-scale robot data๋ฅผ ํตํด ์ธ์์ ์ธ ์ฑ๊ณผ๋ฅผ ์ด๋ฃจ์์ผ๋, ์ค์ ๋ก๋ด ๋ฐ์ดํฐ ์์ง์ ๋งค์ฐ ๋น์ฉ์ด ํฌ๊ณ ํ์ฅ์ด ์ด๋ ต๋ค๋ ๊ฒ์ด ์๋ ค์ ธ ์๋ค. Cross-embodiment ํ์ต๊ณผ affordance ๋๋ object keypoint ๊ฐ์ ์ค๊ฐ ํํ์ ํตํ human video ํ์ฉ์ด ๊ธฐ์กด ์ ๊ทผ๋ฒ์ด์๋ค.
- Gap: ๊ธฐ์กด human data ํ์ฉ ๋ฐฉ์์ affordance๋ object keypoint ๊ฐ์ modular ์ค๊ฐ ํํ์ ์์กดํ๊ฑฐ๋, HumanPlus์ฒ๋ผ ์ฌ์ ํ robot hardware๋ฅผ ์๊ตฌํ์ฌ ๋ฐ์ดํฐ ์์ง ํจ์จ์ด ๋ฎ๋ค. End-to-end ๋ฐฉ์์ผ๋ก ๋๊ท๋ชจ human data๋ฅผ ์ง์ ํ์ฉํ๋ฉด์ robot deployment๊น์ง ๊ฐ๋ฅํ unified framework์ด ๋ถ์ฌํ๋ค.
- Why: Humanoid robot ์กฐ์ ํ์ต์ scalability๋ ์ค์ํ ๋ฌธ์ ์ด๋ค. Consumer-grade VR ์ฅ๋น๋ฅผ ํ์ฉํ์ฌ ๋๊ท๋ชจ task-oriented human data๋ฅผ ์์งํ ์ ์๋ค๋ฉด, ๋ก๋ด ๋ฐ์ดํฐ ์์ง ์์ด๋ ์ ์ฑ
ํ์ต์ด ๊ฐ๋ฅํด์ง๋ค. ์ด๋ robot learning์ ๋ฐ์ดํฐ ๋ณ๋ชฉ์ ์๋นํ ์ํํ ์ ์๋ ์ ์ฌ๋ ฅ์ด ์๋ค.
- Approach: PH2D ๋ฐ์ดํฐ์
์ consumer-grade VR ์ฅ๋น์ hand tracking๊ณผ egocentric ์นด๋ฉ๋ผ๋ฅผ ํ์ฉํ์ฌ task-oriented human demonstration์ ๋๊ท๋ชจ๋ก ์์งํ๋ค. Human Action Transformer (HAT)๋ human๊ณผ humanoid ์์ชฝ embodiment์ ๋ํด unified state-action space๋ฅผ ์ค๊ณํ๊ณ , hand pose ๊ธฐ๋ฐ representation์ differentiably retargetํ์ฌ robot action์ผ๋ก ๋ณํํ๋ค.
Achievement
Figure 1: This paper advocates high-quality human data as a data source for cross-embodiment
- PH2D ๋ฐ์ดํฐ์
: 26,824๊ฐ human demo (์ฝ 3.02M ํ๋ ์)์ 1,552๊ฐ robot demo (์ฝ 668k ํ๋ ์)๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ task-oriented egocentric dataset ์ ์ - HAT ์ ์ฑ
: Human๊ณผ humanoid๋ฅผ ๋ณ๋ supervision ์์ด unified representation์์ ์ง์ ๋ชจ๋ธ๋งํ๋ end-to-end ์ ์ฑ
์ ์ - ์ฑ๋ฅ ๊ฐ์ : Human data co-training์ผ๋ก generalization๊ณผ robustness ํฅ์ ๋ฐ ๋ฐ์ดํฐ ์์ง ํจ์จ ์ฐ์์ฑ ๊ฒ์ฆ
How
Figure 3: Overview of HAT. Human Action Transformer (HAT) learns a robot policy by modeling
- Consumer-grade VR ์ฅ๋น(Meta Quest Pro)๋ก 3D hand-finger pose์ egocentric video ์๋ ์์ง
- Unified state-action space: human hand pose๋ฅผ robot hand reference frame์ผ๋ก ํํํ์ฌ ์ง์ ๋น๊ต ๊ฐ๋ฅํ๊ฒ ์ค๊ณ
- Differentiable retargeting: hand pose์์ inverse kinematics์ hand retargeting์ผ๋ก robot joint action ๋์ถ
- Co-training: ์๊ท๋ชจ robot data์ ๋๊ท๋ชจ human data๋ฅผ ํจ๊ป ํ์ตํ์ฌ embodiment gap ์ํ
Originality
- Unified representation ์ค๊ณ: Human๊ณผ robot์ ๋ณ๋ supervision ์์ด ๋์ผ state-action space์์ ๋ชจ๋ธ๋งํ๋ ์ ๊ทผ์ ๊ธฐ์กด affordance ๋๋ keypoint ๊ธฐ๋ฐ ์ค๊ฐ ํํ๊ณผ ์์ดํจ
- VR ์ฅ๋น ํ์ฉ: Consumer-grade VR๋ฅผ ํตํ ์ ํํ 3D hand pose ์๋ ์์ง์ผ๋ก specialized hardware(glove) ๋ถํ์
- End-to-end deployment: Modular perception pipeline ์์ด robot deployment๊น์ง ๊ฐ๋ฅํ ์ค๊ณ
Limitation & Further Study
- ํ๊ฐ๊ฐ ํน์ manipulation task ๋ฒ์ฃผ(pick-and-place, assembly ๋ฑ)์ ์ ํ๋์ด, ๋ ๋ณต์กํ dexterous task์ ๋ํ ํ์ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- Human demo์ motion diversity๊ฐ ์ค์ humanoid ๋ก๋ด์ ์ ์ด ๋ฅ๋ ฅ์ ์์ ํ ๋ฐ์ํ์ง ๋ชปํ ์ ์์
- Inverse kinematics์ retargeting ๋จ๊ณ์์์ ๊ทผ์ฌ ์ค๋ฅ ๋ถ์ ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ ๋ณต์กํ dexterous task๋ก์ ํ์ฅ, (2) ๋ค์ํ humanoid ํ๋ซํผ(Boston Dynamics Atlas ๋ฑ)์ผ๋ก์ ์ผ๋ฐํ ๊ฒ์ฆ, (3) Real-time performance์ latency ๋ถ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ humanoid robot manipulation ํ์ต์ ์ํด ๋๊ท๋ชจ human data๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ฉํ๋ ์ค์ฉ์ ์ด๊ณ ์ฐฝ์์ ์ธ ๋ฐฉ์์ ์ ์ํ๋ค. PH2D ๋ฐ์ดํฐ์
์ ๊ท๋ชจ์ ํ์ง, HAT์ unified design, ๊ทธ๋ฆฌ๊ณ ์ค๋ก๋ด ๊ฒ์ฆ์ด ๊ธฐ์ฌ๋ ์์ผ๋, ํ๊ฐ ๋ฒ์ ํ์ฅ๊ณผ ๋ค์ํ ํ๋ซํผ์ผ๋ก์ ์ผ๋ฐํ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์