Humanoid Policy ~ Human Policy
์ ์: Ri-Zhao Qiu, Shiqi Yang, Xuxin Cheng, Chaitanya Chawla, Jialong Li, Tairan He, Ge Yan, David J. Yoon, Ryan Hoque, Lars Paulsen, Ge Yang, Jian Zhang, Sha Yi, Guanya Shi, Xiaolong Wang | ๋ ์ง: 2025-03-17 | URL: https://arxiv.org/abs/2503.13441 📄 PDF
Essence
Figure 1: This paper advocates high-quality human data as a data source for cross-embodiment
ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ์กฐ์ ์ ์ฑ
ํ์ต์ ์ํด ๋๊ท๋ชจ ์์์ค์ฌ ์ธ๊ฐ ๋ฐ๋ชจ๋ฅผ cross-embodiment ํ์ต ๋ฐ์ดํฐ๋ก ํ์ฉํ๊ณ , Human Action Transformer (HAT)๋ฅผ ํตํด ์ธ๊ฐ๊ณผ ๋ก๋ด์ ํตํฉ๋ ์ํ-ํ๋ ๊ณต๊ฐ์์ ๋ค์ํ embodiment์ผ๋ก ๋ชจ๋ธ๋งํ๋ค.
Motivation
- Known: ๋ก๋ด ์กฐ์ ์ ์ฑ
ํ์ต์ ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ๋ฐ๋ชจ ํ์ฉ์ผ๋ก ์ง์ ์ด ์์์ผ๋, ๋๊ท๋ชจ ๊ณ ํ์ง ๋ก๋ด ๋ฐ์ดํฐ ์์ง์ ์ฌ์ ํ ๋
ธ๋์ง์ฝ์ ์ด๊ณ ๋น์ฉ์ด ๋๋ค.
- Gap: ๊ธฐ์กด cross-embodiment ํ์ต์ ์ฃผ๋ก ๋ก๋ด ๋ฐ์ดํฐ ๊ฐ ์ ์ด์ ์ค์ ์ ๋์์ผ๋ฉฐ, ๋๊ท๋ชจ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ง์ ๋ก๋ด ์กฐ์ ํ์ต์ ํ์ฉํ ๋ embodiment ๊ฐ๊ทน์ ํจ๊ณผ์ ์ผ๋ก ํด์ํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: ์ธ๊ฐ ๋ฐ๋ชจ๋ ๋ก๋ด๋ณด๋ค ์์ง ๋น์ฉ์ด ๋ฎ๊ณ ํ์ฅ์ฑ์ด ๋์ผ๋ฏ๋ก, ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ฉด ๋ก๋ด ์ ์ฑ
์ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ๊ฐ๊ฑด์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: ์๋น์๊ธ VR ๊ธฐ๊ธฐ๋ฅผ ํ์ฉํ์ฌ task-oriented ์์์ค์ฌ ์ธ๊ฐ ๋ฐ์ดํฐ(PH2D)๋ฅผ ๋๊ท๋ชจ๋ก ์์งํ๊ณ , ํตํฉ๋ ์ธ๊ฐ-ํด๋จธ๋
ธ์ด๋ ์ํ-ํ๋ ๊ณต๊ฐ์ ์ค๊ณํ HAT๋ฅผ ์๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ์ co-trainํ์ฌ embodiment ๊ฐ๊ทน์ ํด์ํ๋ค.
Achievement
Figure 1: This paper advocates high-quality human data as a data source for cross-embodiment
- PH2D ๋ฐ์ดํฐ์
: 27,000๊ฐ์ ์ธ๊ฐ ๋ฐ๋ชจ์ 1,500๊ฐ์ ๋ก๋ด ๋ฐ๋ชจ๋ฅผ ํฌํจํ ๋๊ท๋ชจ task-oriented egocentric ๋ฐ์ดํฐ์
์ผ๋ก, ์ ํํ 3D ์-์๊ฐ๋ฝ ํฌ์ฆ์ ์ธ์ด ์ฃผ์์ ์ ๊ณต
- HAT ๋ชจ๋ธ: ์ธ๊ฐ๊ณผ ํด๋จธ๋
ธ์ด๋๋ฅผ ์๋ก ๋ค๋ฅธ embodiment์ผ๋ก ์ง์ ๋ชจ๋ธ๋งํ๋ unified state-action space ๊ธฐ๋ฐ ํ๋ ์ ์ฑ
์ผ๋ก, ์ถ๊ฐ ๊ฐ๋
์์ด end-to-end ํ์ต ๊ฐ๋ฅ
- ์ฑ๋ฅ ํฅ์: ์ธ๊ฐ ๋ฐ์ดํฐ์์ co-training์ด ๊ณต๊ฐ ๋ถํฌ ๋ณํ ๋ฐ ๋ฐฐ๊ฒฝ ์ญ๋์ ๋ํ ๊ฐ๊ฑด์ฑ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํค๋ฉฐ ๋ฐ์ดํฐ ์์ง ํจ์จ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์
How
- ์๋น์๊ธ VR ๊ธฐ๊ธฐ(Meta Quest)๋ฅผ ์์์ค์ฌ ์นด๋ฉ๋ผ์ ์ ์ถ์ ์ผ์๋ก ํ์ฉํ์ฌ ์ธ๊ฐ ์กฐ์ ๋์ ์บก์ฒ
- ๋์ผํ VR ๊ธฐ๊ธฐ๋ฅผ ํตํด ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ์๊ฒฉ ์กฐ์ข
(teleoperation)์ ์ํํ์ฌ ๋ฐ์ดํฐ ์์ง ํ๊ฒฝ ์ ๋ ฌ
- ์ธ๊ฐ์ ์ ํฌ์ฆ๋ฅผ ์ง์ ์ํ๋ก, ์๊ฐ๋ฝ-์๋ชฉ ๊ถค์ ์ ํ๋์ผ๋ก ์ฌ์ฉํ๋ ํตํฉ ํํ ๊ณต๊ฐ ์ค๊ณ
- Transformer ๊ธฐ๋ฐ ์ํคํ
์ฒ๋ฅผ ํตํด ๋ฏธ๋ ์-์๊ฐ๋ฝ ๊ถค์ ์์ธก
- Inverse kinematics์ hand retargeting์ ์ ์ฉํ์ฌ ํ์ต๋ ์ธ๊ฐ ํ๋์ ๋ก๋ด ํ๋์ผ๋ก differentiably ๋ณํ
- ์ธ๊ฐ ๋ฐ์ดํฐ์ ๋ก๋ด ๋ฐ์ดํฐ๋ฅผ co-trainingํ์ฌ embodiment ๊ฐ ๋๋ฉ์ธ ๊ฐญ ์ต์ํ
Originality
- ๊ธฐ์กด affordance๋ keypoint ๊ฐ์ ์ค๊ฐ ํํ์ ์ฌ์ฉํ์ง ์๊ณ , ์ธ๊ฐ pose๋ฅผ ์ง์ ์ ์ฑ
state๋ก ์ฌ์ฉํ๋ end-to-end ์ ๊ทผ
- ์๋น์๊ธ VR ๊ธฐ๊ธฐ๋ฅผ task-oriented ๋ฐ์ดํฐ ์์ง๊ณผ ๋ก๋ด ์๊ฒฉ ์กฐ์ข
์์ชฝ์ ํ์ฉํ์ฌ hardware alignment ์๋ํ
- ์ธ๊ฐ๊ณผ ๋ก๋ด์ ๋์ผํ unified state-action space์์ ํ์ตํ๋ ๊ฐ๊ฐ์ ๋ค๋ฅธ embodiment์ผ๋ก ๋ชจ๋ธ๋งํ๋ ์๋ก์ด co-training ์ ๋ต
- ๊ธฐ์กด EgoMimic๋ณด๋ค ํจ์ฌ ํฐ ๊ท๋ชจ(27,000 vs 2,150)์ task-oriented ์ธ๊ฐ ๋ฐ์ดํฐ์
๊ตฌ์ถ
Limitation & Further Study
- VR ๊ธฐ๊ธฐ ๊ธฐ๋ฐ hand tracking์ ์ ํ๋๊ฐ ๊ณ ๋น์ฉ ์ ๋ฌธ ์ฅ๋น(glove ๋ฑ)์ ๋นํด ์ ํ์ ์ผ ์ ์์
- ํ์ฌ ํ๊ฐ๊ฐ ํน์ ๋ก๋ด ํ๋ซํผ(Unitree H1)๊ณผ ์ ํ๋ ์์ ์กฐ์ task์๋ง ์ํ๋จ
- ์ธ๊ฐ์ ์ ์ฒด ์น์์ ๋ก๋ด์ ๋ฌผ๋ฆฌ์ ์ ์ฝ ๊ฐ ์ฐจ์ด๋ฅผ ์์ ํ ํด์ํ์ง ๋ชปํ ์ ์์ผ๋ฉฐ, ์๊ฐ๋ฝ ๊ฐ์ ์ฐจ์ด ๋ฑ ๊ตฌ์กฐ์ ์ฐจ์ด์ ๋ํ ์ฒด๊ณ์ ๋ถ์ ๋ถ์กฑ
- ํ์ต๋ ์ ์ฑ
์ด ์ธ๊ฐ ๋ฐ์ดํฐ์์ ๊ด์ฐฐ๋์ง ์์ ์๋ก์ด ํ๊ฒฝ์ผ๋ก์ generalization ํ๊ณ
- ํ์ ์ฐ๊ตฌ๋ก๋ ๋ค์ํ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ cross-platform transfer ๊ฒ์ฆ, ๋ ๋ณต์กํ ์กฐ์ task๋ก์ ํ๋, reinforcement learning์ ํตํ ์ ์ฑ
๊ฐ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ก๋ด ์กฐ์ ํ์ต์์ ๋๊ท๋ชจ ์ธ๊ฐ ๋ฐ์ดํฐ ํ์ฉ์ ์ค์ง์ ๊ฐ์น๋ฅผ ์
์ฆํ ์๋ฏธ ์๋ ์ฐ๊ตฌ๋ก, ํตํฉ๋ state-action space์ ์ฒด๊ณ์ ์ธ co-training ์ ๋ต์ ํตํด embodiment ๊ฐ๊ทน์ ํจ๊ณผ์ ์ผ๋ก ํด์ํ์ผ๋ฉฐ, PH2D ๋ฐ์ดํฐ์
๊ณผ HAT ๋ชจ๋ธ์ ๊ณต๊ฐ๋ฅผ ํตํด cross-embodiment ํ์ต ์ปค๋ฎค๋ํฐ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์