Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation
์ ์: Yifan Xie, YuAn Wang, Guangyu Chen, Jinkun Liu, Yu Sun, Wenbo Ding | ๋ ์ง: 2026-04-27 | URL: https://arxiv.org/abs/2604.24681 📄 PDF
Essence
Figure 1: Overview of the HA-2.2M curation pipeline. Large-scale unlabeled human demonstration
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ๊ฐ ์์ฐ ์์์ผ๋ก๋ถํฐ ๋ก๋ด ์กฐ์์ ์ํ ์ธ๊ฐ-์๋ ์ฌ์ ์ ํ์ตํ๋ MoT-HRA ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. 220๋ง ์ํผ์๋์ HA-2.2M ๋ฐ์ดํฐ์
์ ๊ตฌ์ฑํ๊ณ , 3D ๊ถค์ ์์ธก, MANO ์คํ์ผ ์ ๋ชจ์
๋ชจ๋ธ๋ง, ๋ก๋ด ํ๋ ๋ณํ์ 3๋จ๊ณ ๊ณ์ธต์ ๊ตฌ์กฐ๋ก ์ธ๊ฐ ์์ฐ์ ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ๋ถ๋ถ์ ๋ณด์กดํ๋ฉด์ ๋ก๋ด ํนํ ์ ์ด๋ฅผ ํ์ตํ๋ค.
Motivation
- Known: Vision-language-action (VLA) ๋ชจ๋ธ์ ์ฌ์ ํ์ต๋ ๋ฉํฐ๋ชจ๋ฌ ํํ์ ๋ก๋ด ์ ์ด๋ก ํ์ฅํ๋ ค ๋
ธ๋ ฅํด์์ผ๋, ๋ก๋ด ์์ฐ์ ์์ง ๋น์ฉ๊ณผ ํฌ์์ฑ์ผ๋ก ํ์ฅ์ด ์ ํ๋์ด ์๋ค. ์ธ๊ฐ ์์์ผ๋ก๋ถํฐ representation bridge๋ฅผ ์ถ์ถํ๋ ๋ฐฉ๋ฒ๋ค์ด ์ ์๋์์ผ๋, ์ฅ๋ฉด ์ดํด, ์ธ๊ฐ ๋ชจ์
, ๋ก๋ด ๊ตฌ์ฒด์ฑ(embodiment)์ ๊ตฌ๋ถํ๋ ํต์ฌ ๋ฌธ์ ๊ฐ ๋จ์์๋ค.
- Gap: ๊ธฐ์กด ์ธ๊ฐ ์์ฐ ํ์ต ๋ฐฉ๋ฒ๋ค์ ์ธ๊ฐ ์์๊ณผ ๋ก๋ด ํ๋์ ๋จ์ผ ํํ์ผ๋ก ํตํฉํ๋ ค ํจ์ผ๋ก์จ ์ธ๊ฐ ๋ชจ์
์ฌ์ ์ ๋ฎ์ด์ฐ๊ฑฐ๋ ์๊ฐ์ ยท์์ ยท๋ฌผ์ฒดยท๋ก๋ด ๋ณํ์ ์ทจ์ฝํ ์ ์ฑ
์ ํ์ตํ๋ค. ์ธ๊ฐ ์์ฐ์ ๋ก๋ด ํ๋์ "์ก์ ์๋ ๋์ฒด๋ฌผ"์ด ์๋ "๊ตฌ์กฐํ๋ ์กฐ์ ์๋ ์ฆ๊ฑฐ"๋ก ์ทจ๊ธํ๋ฉด์ spatial grounding, ์ธ๊ฐ ์๋ ๋ชจ๋ธ๋ง, ๋ก๋ด ํนํ ์คํ์ ๋ถ๋ฆฌํ๋ ๊ณ์ธต์ ์ ๊ทผ์ด ๋ถ์กฑํ๋ค.
- Why: ์ธ๊ฐ ์์์ ๋ก๋ด ์์ฐ๋ณด๋ค ํจ์ฌ ํ๋ถํ๊ณ ๋ค์ํ ์กฐ์ ์ฌ์ ์ ๋ด๊ณ ์์ง๋ง, ์ฅ๋ฉด ๋ณํ, ์นด๋ฉ๋ผ ๋ชจ์
, ์๋ฒ ๋๋จผํธ ํนํ ์ ์ฝ์ด ์ฝํ ์๋ค. ์ด๋ค์ ๊ตฌ์กฐ์ ์ผ๋ก ๋ถ๋ฆฌํ๋ฉด ์ธ๊ฐ ํ๋์ ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ๋ถ๋ถ(spatial scaffold, hand motion coordination)์ ๋ณด์กดํ๋ฉด์ ๋ก๋ด์ ์ญํ๊ณผ ํ๋ ๊ท์น์ ๋ง์ถ ์ ์ด๋ฅผ ํ์ตํ ์ ์์ด ๋ถํฌ ๋ณํ์ ๊ฐ๊ฑดํ ์ ์ฑ
์ ์คํํ ์ ์๋ค.
- Approach: 1) HA-2.2M ๋ฐ์ดํฐ์
๊ตฌ์ฑ: ์ด์ง์ ์ธ๊ฐ ์์์ผ๋ก๋ถํฐ coarse filtering (Gemini + V-JEPA ๊ธฐ๋ฐ ๋ถ๋ฅ๊ธฐ), spatial reconstruction, fine filtering์ ํตํด 220๋ง ํ๋-์ธ์ด ์ํผ์๋ ์ถ์ถ. 2) MoT-HRA ์ํคํ
์ฒ: vision-language expert (embodiment-agnostic 3D ๊ถค์ ์์ธก), intention expert (MANO ์ ๋ชจ์
์ฌ์ ๋ชจ๋ธ๋ง), fine expert (๋ก๋ด ํ๋ ์ฒญํฌ ๋ณํ)์ 3๋จ๊ณ ๊ณ์ธต ๊ตฌ์กฐ. 3) Knowledge insulation: shared-attention trunk์ read-only key-value transfer๋ก ํ์ spatial/intention ํํ ๋ณดํธ.
Achievement
Figure 2: Overview of MoT-HRA. Given an image, a language instruction, and chunk-sized query
HA-2.2M ๋ฐ์ดํฐ์
: 220๋ง ์ํผ์๋์ ๋๊ท๋ชจ ์ด์ง ์ธ๊ฐ ์์ฐ ๋ฐ์ดํฐ์
์ผ๋ก ์ ์ค์ฌ ํํฐ๋ง, ๊ณต๊ฐ ์ฌ๊ตฌ์ฑ, ์๊ฐ ๋ถํ , ์ธ์ด ์ ๋ ฌ์ ์ ์ฉ. MoT-HRA ํ๋ ์์ํฌ: ๊ณ์ธต์ vision-language-action ๋ชจ๋ธ๋ก ์ธ๊ฐ ์๋ ์ฌ์ ์ ๋ก๋ด ์ ์ด์ ์ ์ด. ์คํ ๊ฒ์ฆ: ์ ๋ชจ์
์์ฑ, SimplerEnv ์๋ฎฌ๋ ์ด์
, ์ค์ ๋ก๋ด ์กฐ์ ๊ณผ์ ์์ MoT-HRA๊ฐ ๋ชจ์
ํ๋น์ฑ, spatial grounding, ๋ถํฌ ๋ณํ ํ ์ ์ด ๊ฒฌ๊ณ ์ฑ์ ํฅ์.
How
Figure 2: Overview of MoT-HRA. Given an image, a language instruction, and chunk-sized query
- ๋ฐ์ดํฐ์
ํ๋ ์ด์
: Gemini์ V-JEPA ๊ธฐ๋ฐ ๋ถ๋ฅ๊ธฐ์ ์ด๋จ๊ณ ํํฐ๋ง์ผ๋ก ์กฐ์ ๊ด๋ จ ์ ์์ ํ๋ณด, ์ด์ง์ ์น/์์์ค์ฌ ์์ ํผํฉ
- ๊ณ์ธต์ ๋ถํด: vision-language, intention, fine 3๋จ๊ณ expert๋ก spatial/์๊ฐ์ ์๋/๋ก๋ด ํนํ ํ๋ ๋ถ๋ฆฌ
- Knowledge insulation: shared-attention trunk๋ก ๋ฉํฐ๋ชจ๋ฌ ๋งฅ๋ฝ ๊ณต๊ธ, read-only key-value transfer๋ก ์์ ํํ ๊ฐ์ญ ์ฐจ๋จ
- 3D ๊ถค์ ๋ชจ๋ธ๋ง: embodiment-agnostic ํํ์ผ๋ก ๋ก๋ด ๊ฐ ์ ์ด ๊ฐ๋ฅ์ฑ ํ๋ณด
- MANO ์ ๋ชจ์
: ์ ์ด ์งํฅ์ ๋ชจํฐ ์ ํธ์ ์๊ฐ ์กฐ์จ์ ๋ช
์์ ์ผ๋ก ๋ชจ๋ธ๋ง
Originality
- ์ธ๊ฐ ์์ฐ์ "๊ตฌ์กฐํ๋ ์๋ ์ฆ๊ฑฐ"๋ก ํ๋ ์ด๋ฐํ์ฌ ๊ธฐ์กด์ ๋จ์ผ ํ๋ ํํ ์ ๊ทผ๊ณผ ์ฐจ๋ณํ
- HA-2.2M์ ์ฒด๊ณ์ ๋ฐ์ดํฐ ํ๋ ์ด์
ํ์ดํ๋ผ์ธ (coarse/fine filtering, spatial reconstruction) ์ ์
- Knowledge insulation ๋ฉ์ปค๋์ฆ์ผ๋ก human prior ํ์ต๊ณผ ๋ก๋ด ์ ์ฑ
ํ์ต ๊ฐ ๊ฐ์ญ ์ต์ํ
- MANO ๊ธฐ๋ฐ ๋ช
์์ ์ ๋ชจ์
๋ชจ๋ธ๋ง์ ์ค๊ฐ ์๋ ๊ณต๊ฐ์ผ๋ก ํ์ฉํ๋ ์ค๊ณ
Limitation & Further Study
- ๋ฐ์ดํฐ์
ํ๊ณ: web video ํํฐ๋ง์ ์ ํ์ฑ์ ์์กดํ๋ฉฐ, ์กฐ์์ด ์๋ ์ ์์์ด๋ ์๋ชป๋ ๋ ์ด๋ธ์ด ์ฌ์ ํ ์กด์ฌ ๊ฐ๋ฅ. - ํ๊ฐ ๋ฒ์: SimplerEnv๋ ์ ํ๋ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ด๊ณ ์ค์ ๋ก๋ด ํ๊ฐ ๊ฒฐ๊ณผ๊ฐ ์ ํ์ ์ผ ๊ฐ๋ฅ์ฑ. - ๊ณ์ฐ ๋น์ฉ: 3๋จ๊ณ expert์ MANO ๋ชจ์
์ฌ๊ตฌ์ฑ์ ์ฐ์ฐ ์ค๋ฒํค๋ ๋ฏธ๋
ผ์. - ์ผ๋ฐํ ํ๊ณ: ํน์ ์-๊ฐ์ฒด ์ํธ์์ฉ ํจํด์ ๊ธฐ๋ฐํ ๋ชจ๋ธ์ด ๊ทน๋จ์ ์ผ๋ก ๋ค๋ฅธ ํ๊ฒฝ์ ์ ์ฉ๋ ๋ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ. ํ์ ์ฐ๊ตฌ: ๋ ๊ฐ๊ฑดํ ์๋ ํํฐ๋ง ๋ฉ์ปค๋์ฆ, ๋ค์ํ ๋ก๋ด ํ๋ซํผ ๊ฒ์ฆ, ๊ณ์ฐ ํจ์จ์ฑ ๊ฐ์ .
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ๊ฐ ์์ฐ์ผ๋ก๋ถํฐ ๋ก๋ด ์กฐ์์ ํ์ตํ๋ ์ค์ง์ ๋์ ์ ๋ํด ์ ์ ์๋ ๊ณ์ธต์ ์ ๊ทผ์ ์ ์ํ๋ค. 220๋ง ์ํผ์๋ HA-2.2M ๋ฐ์ดํฐ์
๊ณผ MoT-HRA์ knowledge insulation ์ค๊ณ๋ ์ธ๊ฐ ํ๋์ ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ๋ฉด์ ๋ก๋ด ํนํ ์ ์ด๋ฅผ ํ์ตํ๋ ์ ์์ ๊ธฐ์ฌ๋๊ฐ ์๋ค. ๋ค๋ง ๋ฐ์ดํฐ์
ํํฐ๋ง ์ ํ์ฑ, ์ค์ ๋ก๋ด ํ๊ฐ์ ํฌ๊ด์ฑ, ๊ณ์ฐ ํจ์จ์ฑ ๋ถ์์ด ๊ฐํ๋ ํ์๊ฐ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์