EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data
์ ์: Ruijie Zheng, Dantong Niu, Yuqi Xie, Jing Wang, Mengda Xu, Yunfan Jiang, Fernando Castaรฑeda, Fengyuan Hu, You Liang Tan, Letian Fu, Trevor Darrell, Furong Huang, Yuke Zhu, Danfei Xu, Linxi Fan | ๋ ์ง: 2026-02-18 | URL: https://arxiv.org/abs/2602.16710 📄 PDF
Essence
Figure 1: EgoScale: Two-stage human-to-robot learning framework. A flow-based Vision-Language-Action
20,854์๊ฐ์ ๋๊ท๋ชจ ์ด๊ณ ์ผํธ๋ฆญ ์ธ๊ฐ ๋น๋์ค ๋ฐ์ดํฐ๋ก VLA ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ ํ ์๋์ ์ ๋ ฌ๋ ์ธ๊ฐ-๋ก๋ด ์ค๊ฐํ์ต ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์ ํ์ฌ 22-DoF ์๊ฐ๋ฝ ์กฐ์ ๋ก๋ด์์ 54% ์ฑ๊ณต๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ์ธ๊ฐ ํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ด ์ ์ฑ
ํ์ต์ ํ์ฉํ ์ ์์ผ๋ฉฐ, ์ด์ ์ฐ๊ตฌ๋ค์ ์ ํ๋ ์ค์ ์์์ ์ธ๊ฐ-๋ก๋ด ์ ์ด๋ฅผ ์
์ฆํ๋ค. ํ์ง๋ง ๋๊ท๋ชจ ์ธ๊ฐ ๋ฐ์ดํฐ๊ฐ ์ ๊ตํ ๊ณ ์์ ๋ ์๊ฐ๋ฝ ์กฐ์์ ์ง์ํ ์ ์๋์ง๋ ๋ถ๋ช
ํํ๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ ์์ญ~์๋ฐฑ ์๊ฐ ๊ท๋ชจ์ ์์ ์ธ๊ฐ ๋ฐ์ดํฐ์
์ ์์กดํ์ผ๋ฉฐ, ๋๋ถ๋ถ ์ ์์ ๋ ์์ด๋ ๊ทธ๋ฆฌํผ์ ์ง์คํ์ฌ ์ธ๋ฐํ ์๊ฐ๋ฝ ๊ด์ ์์ง์์ด ์์๋ค. ๋ฐ๋ผ์ ๋๊ท๋ชจ ์ธ๊ฐ ๋ฐ์ดํฐ๊ฐ ๋ณต์กํ ์๊ฐ๋ฝ ์กฐ์์ ์๋ฏธ ์๊ฒ ์ง์ํ ์ ์๋์ง ํ์ธ์ด ํ์ํ๋ค.
- Why: ์ธ๊ฐ ํ๋์ ๋ก๋ด ํ์ต์ ์ํด ๋งค์ฐ ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ค์ด๋ฉฐ, ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ ์ ์๋ค๋ฉด ๋ก๋ด ๋ฐ์ดํฐ ์์ง์ ๋ถ๋ด์ ํฌ๊ฒ ์ค์ด๊ณ ๋ค์ํ ์กฐ์ ๊ธฐ์ ์ ํ๋ํ ์ ์๋ค.
- Approach: ์ด๊ณ ์ผํธ๋ฆญ ์๋ชฉ ๋ชจ์
๊ณผ ์ฌ์กฐ์ ๋ ์๊ฐ๋ฝ ๊ด์ ๊ฐ๋๋ฅผ ๋ช
์์ ๊ฐ๋
์ ํธ๋ก ์ฌ์ฉํ๋ ๋ ๋จ๊ณ ํ์ต: (1) ๋๊ท๋ชจ ์ธ๊ฐ ๋น๋์ค ์ฌ์ ํ์ต์ผ๋ก ์ ์ฒด ๋ฌผ๋ฆฌํ์ ๊ธฐ๋ฐํ ํํ ํ์ต, (2) ์ ๋ ฌ๋ ์ธ๊ฐ-๋ก๋ด ์ค๊ฐํ์ต์ผ๋ก ๋ก๋ด์ ๊ฐ์ง ๋ฐ ์ ์ด ๊ณต๊ฐ์ ํํ์ ๊ณ ์ฐฉํ.
Achievement
Figure 4: Main Experimental Results. Comparison of Human Pre-train + Mid-Training, Human Pretraining,
- ์ค์ผ์ผ๋ง ๋ฒ์น ๋ฐ๊ฒฌ: 20,854์๊ฐ์ ์ธ๊ฐ ๋ฐ์ดํฐ์์ ์-๋์ ์์ธก ๊ฒ์ฆ ์์ค์ด ๋ฐ์ดํฐ ๊ท๋ชจ์ ๋ํด log-linear ๊ด๊ณ๋ฅผ ๋ณด์ด๋ฉฐ, ์ด ์์ค์ด ์ค์ ๋ก๋ด ์ฑ๋ฅ๊ณผ ๊ฐํ๊ฒ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ง
- ์ฑ๋ฅ ํฅ์: 22-DoF ์๊ฐ๋ฝ ์กฐ์ ์์ผ๋ก ์ฌ์ ํ์ต ์๋ ๊ธฐ์ค ๋๋น ํ๊ท 54% ์ฑ๊ณต๋ฅ ํฅ์ ๋ฌ์ฑ
- ์ผํ์ฑ ์ ์ด ๋ฅ๋ ฅ: ๋ก๋ด ๋ฐ๋ชจ 1๊ฐ๋ง์ผ๋ก ์
์ธ ์ ๊ธฐ ๋ฑ ๋ฏธํ์ต ํ์คํฌ์์ ์ต๋ 88% ํ๊ท ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ์ค์ฒด ๋ถ๋ณ์ฑ: ๊ณ ์์ ๋ ์ธ๊ฐ ์ ๋์์ผ๋ก ํ์ตํ ์ ์ฑ
์ด Unitree G1์ ์ผ์๊ฐ๋ฝ ์์ฒ๋ผ ํจ์ฌ ๋ค๋ฅธ ๋ก๋ด ๊ตฌ์กฐ์๋ ํจ๊ณผ์ ์ผ๋ก ์ ์ด๋์ด 30% ์ด์์ ์ ๋ ์ฑ๊ณต๋ฅ ํฅ์ ์ ๊ณต
How
Figure 2: Human Data Collection and Model Architecture. (Left) Aligned human-robot mid-training data
- ์ด๊ณ ์ผํธ๋ฆฑ RGB ๊ด์ธก, ์นด๋ฉ๋ผ ๋ชจ์
์ถ์ , ์ ํฌ์ฆ๋ฅผ ์์ ์ผ์ ์คํธ๋ฆผ์์ ์ถ์ถ
- ์๋ ์๋ชฉ ๋ชจ์
โW_t = (W_0^w)^-1 W_t^w๋ก ์ ๋ชจ์
ํํํ์ฌ ์นด๋ฉ๋ผ ์์ง์์ ๋ถ๋ณ์ฑ ํ๋ณด
- 21๊ฐ ์ธ๊ฐ ์ ํคํฌ์ธํธ๋ฅผ optimization ๊ธฐ๋ฐ ์ฌ์กฐ์ ์ ํตํด 22-DoF Sharpa ์ ๊ด์ ๊ณต๊ฐ์ผ๋ก ๋ณํ
- 9,869๊ฐ ์ฅ๋ฉด, 6,015๊ฐ ํ์คํฌ, 43,237๊ฐ ๊ฐ์ฒด๋ฅผ ํฌํจํ๋ ๋ค์ํ ์ด๊ณ ์ผํธ๋ฆญ ํ๋ ๋ฐ์ดํฐ์
20,854์๊ฐ ์์ง
- Pretrained VLM ๋ฐฑ๋ณธ๊ณผ DiT action expert๋ก ๊ตฌ์ฑ๋ flow-based VLA ์ ์ฑ
๊ตฌ์ถ
- Text encoder, visual encoder, action encoder/decoder๋ฅผ ํฌํจํ ํตํฉ ์ํคํ
์ฒ๋ก ์ธ๊ฐ๊ณผ ๋ก๋ด ๋ฐ์ดํฐ ํต์ผ
- ์ ๋ ฌ๋ ์ธ๊ฐ-๋ก๋ด ์ค๊ฐํ์ต ๋ฐ์ดํฐ 50์๊ฐ(์ธ๊ฐ) + 4์๊ฐ(๋ก๋ด)๋ก ํํ ๊ณ ์ฐฉํ
- ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์ ๋ํด ๋ฏธ์ธ์กฐ์ ํ์ฌ ์ต์ข
์ ์ฑ
์์ฑ
Originality
- ๊ธฐ์กด ์ฐ๊ตฌ ๋๋น 20๋ฐฐ ์ด์ ๋๊ท๋ชจ์ 20,854์๊ฐ ์ด๊ณ ์ผํธ๋ฆญ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ต์ด๋ก ์ฒด๊ณ์ ์ผ๋ก ํ์ฉ
- ์ ๋์ ์์ธก ์์ค๊ณผ ์ค์ ๋ก๋ด ์ฑ๋ฅ ๊ฐ์ ๊ฐํ ์๊ด๊ด๊ณ๋ฅผ ์ต์ด๋ก ์
์ฆํ์ฌ ๋๊ท๋ชจ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์ธก ๊ฐ๋ฅํ ๊ฐ๋
์ ํธ๋ก ํ๋ฆฝ
- ์๋ ์๋ชฉ ๋ชจ์
๊ณผ ์ฌ์กฐ์ ๋ ์ ๊ด์ ๋์์ผ๋ก์ ๋ช
์์ ๋์ ๊ฐ๋
์ด task-agnostic ์๊ฐ ํน์ฑ๋ณด๋ค ์กฐ์์ ์ง์ ์ ์ฉํ ์ ๋ณด๋ฅผ ์ถ์ถํ๋๋ก ๊ฐ์
- ์๋ ์ ๋ ฌ ์ค๊ฐํ์ต ๋ฐ์ดํฐ๋ก emergent ์ผํ์ฑ/์์ ์ท ์ผ๋ฐํ ๋ฌ์ฑโ๋จ 1๊ฐ ๋ก๋ด ๋ฐ๋ชจ๋ก ๋ฏธํ์ต ๊ณ ์์ ๋ ํ์คํฌ ์ํ
- ๊ณ ์์ ๋ ์ธ๊ฐ ์ ๊ณต๊ฐ์์ ํ์ตํ ํํ์ด ์ ์์ ๋ ๋ก๋ด ์์ผ๋ก ์ค์ฒด ๋ถ๋ณ ์ ์ด๋๋ ํ์์ ์ต์ด๋ก ์ฒด๊ณ์ ์ผ๋ก ์
์ฆ
Limitation & Further Study
- ์ ํฌ์ฆ ์ถ์ ๋
ธ์ด์ฆ: ์ธ๊ฐ ์ ํฌ์ฆ ์ถ์ถ์ off-the-shelf ์ธ์ ํ์ดํ๋ผ์ธ ์ฌ์ฉ์ผ๋ก ์ธํ ๋
ธ์ด์ฆ๊ฐ ์ฌ์ ํ์ต์ ๋ฏธ์น๋ ์ํฅ ๋ฏธ์์ธ ๋ถ์
- ์ค์ฒด ์ฐจ์ด ์ฒ๋ฆฌ: ์๋ ์๋ชฉ ๋ชจ์
์ ๊ณต์ ๋์ง๋ง ์ ๊ด์ ๊ณต๊ฐ ์ฌ์กฐ์ ์ด ๋ชจ๋ ๋ก๋ด ํํ์ ์๋ฒฝํ๊ฒ ์๋ํ๋์ง ๋ฏธ๋ช
ํโ์ ์์ ๋ ์์ผ๋ก์ ์ ์ด ๋ฉ์ปค๋์ฆ ๋ถ์ฌ
- ์ค๊ฐํ์ต ๋ฐ์ดํฐ ํ๋ ๋น์ฉ: ์ ๋ ฌ๋ ์ธ๊ฐ-๋ก๋ด ์ค๊ฐํ์ต ๋ฐ์ดํฐ ์์ง(vive trackers, Manus gloves, ์นด๋ฉ๋ผ)์ ์๋นํ ํ๋์จ์ด/์ธํ๋ผ ํฌ์ ํ์
- ํ์คํฌ ๋ค์์ฑ ์ ํ: ํ๊ฐ๊ฐ 5๊ฐ ์กฐ์ ํ์คํฌ๋ก ์ ํ๋์ด ๊ด๋ฒ์ํ ์กฐ์ ์๋๋ฆฌ์ค ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธํ์ธ
- ๋ก๋ด ํ๋ซํผ ์ ํ: ์ฃผ๋ก 22-DoF Sharpa ์์์ ํ๊ฐํ์ผ๋ฉฐ, ์ ์์ ๋ ์(Unitree G1)์์ ์ฑ๋ฅ ๊ฐ์ ๋ฐ์
- ํ์์ฐ๊ตฌ: (1) ์ ํฌ์ฆ ์ถ์ ๋ถํ์ค์ฑ ์ ๋ํ ๋ฐ ๊ฐ๊ฑด์ฑ ๊ฐ์ , (2) ๋ค์ํ ๋ก๋ด ๊ตฌ์กฐ์ ๋ํ ์ผ๋ฐํ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ, (3) ์ค๊ฐํ์ต ๋ฐ์ดํฐ ํ๋ ์๋ํ, (4) ์ฅ๊ธฐ ์ํ ํ์คํฌ ๋ฐ ๋ค์ค ๊ฐ์ฒด ์ํธ์์ฉ ํ์ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ด๊ณ ์ผํธ๋ฆญ ์ธ๊ฐ ๋ฐ์ดํฐ์ ์ค์ผ์ผ๋ง ๋ฒ์น์ ์ต์ด๋ก ์
์ฆํ๊ณ ์ด๋ฅผ ๊ณ ์์ ๋ ์๊ฐ๋ฝ ์กฐ์์ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉํ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ๋ช
ํํ ์คํ ์ค๊ณ์ ๊ฐ๋ ฅํ ์ค์ฆ ๊ฒฐ๊ณผ(54% ์ฑ๊ณต๋ฅ ํฅ์, ์ผํ์ฑ ์ ์ด)๋ ์ธ๊ฐ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ก๋ด ํ์ต์ ์คํ ๊ฐ๋ฅ์ฑ์ ํ์คํ ๋ณด์ฌ์ฃผ์ง๋ง, ํฌ์ฆ ์ถ์ ๋
ธ์ด์ฆ, ์ค๊ฐํ์ต ๋ฐ์ดํฐ ์์ง ๋น์ฉ, ํ์คํฌ/ํ๋ซํผ ๋ค์์ฑ ์ ํ์ด ์ค์ ๋ฐฐํฌ ํ๋๋ฅผ ์ํด ํด๊ฒฐํด์ผ ํ ๊ณผ์ ๋ก ๋จ์์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์