In-N-On: Scaling Egocentric Manipulation with in-the-wild and on-task Data
์ ์: Xiongyi Cai, Ri-Zhao Qiu, Geng Chen, Lai Wei, Isabella Liu, Tianshu Huang, Xuxin Cheng, Xiaolong Wang | ๋ ์ง: 2025-11-19 | URL: https://arxiv.org/abs/2511.15704 📄 PDF
Essence
Figure 1. This paper investigates large-scale pre-training and post-training with egocentric human data. We curate a lar
์ด ๋
ผ๋ฌธ์ 1,000์๊ฐ ์ด์์ in-the-wild ์๊ณ ์ผํธ๋ฆญ ๋ฐ์ดํฐ์ on-task ๋ฐ์ดํฐ๋ฅผ ๊ฒฐํฉํ์ฌ ๋๊ท๋ชจ ํด๋จธ๋
ธ์ด๋ ์กฐ์ ์ ์ฑ
Human0์ ํ์ตํ๊ณ , domain adaptation์ ํตํด ์ธ๊ฐ๊ณผ ๋ก๋ด ๊ฐ์ ๋๋ฉ์ธ ๊ฐญ์ ์ต์ํํ๋ค.
Motivation
- Known: ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์ธ๊ฐ ๋ฐ์ดํฐ์ pre-training ๋๋ on-task ๋ฐ์ดํฐ์ co-training์ ๋จ๋
์ผ๋ก ํ์ฉํด์์ผ๋ฉฐ, ์๊ณ ์ผํธ๋ฆญ ๋น๋์ค๋ ์กฐ์ ์ ์ฑ
ํ์ต์ ์ํ ํ์ฅ์ฑ ์๋ ๋ฐ์ดํฐ ์์ค์ด๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ in-the-wild ๋ฐ์ดํฐ์ on-task ๋ฐ์ดํฐ ์ค ํ๋๋ง ํ์ฉํ๊ฑฐ๋, ๋ ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ์ฌ์ฉํ ๋ catastrophic forgetting ๋ฌธ์ ๋ก ์ธํ ์ฑ๋ฅ ์ ํ๋ฅผ ๊ฒช๋๋ค.
- Why: ๋ก๋ด ์กฐ์์ ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ์ธํด LLM์ด๋ ์์จ์ฃผํ์ ๋นํด ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๋จ์ด์ง๋ฏ๋ก, ๋๊ท๋ชจ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ๋ฐฉ๋ฒ์ด ํ์์ ์ด๋ค.
- Approach: unified human-centric state-action space๋ฅผ ์ ์ํ๊ณ PHSD ๋ฐ์ดํฐ์
์ ๊ตฌ์ฑํ ํ, flow matching ๊ธฐ๋ฐ์ language-conditioned ์ ์ฑ
์ ํ์ตํ๋ฉฐ, domain adaptation ๊ธฐ๋ฒ์ผ๋ก ์ธ๊ฐ-ํด๋จธ๋
ธ์ด๋ ๊ฐ์ ๋๋ฉ์ธ ๊ฐญ์ ๊ฐ์ ํ๋ค.
Achievement
Figure 1. This paper investigates large-scale pre-training and post-training with egocentric human data. We curate a lar
- PHSD ๋ฐ์ดํฐ์
๊ตฌ์ถ: 1,000์๊ฐ ์ด์์ diverse in-the-wild ๋ฐ์ดํฐ์ 20์๊ฐ ์ด์์ on-task ๋ฐ์ดํฐ๋ฅผ ํตํฉํ ๋๊ท๋ชจ physical human-humanoid ๋ฐ์ดํฐ์
๊ตฌ์ฑ
- Language Following: ๋ก๋ด ํ๋ จ ๋ฐ์ดํฐ์ ์๋ unseen instruction์ ๋ฐ๋ฅด๋ ๋ฅ๋ ฅ ํ๋
- Few-shot Learning: on-task ๋ฐ์ดํฐ๋ก post-training ํ ์ ์ ๋ฐ์ดํฐ๋ก ์๋ก์ด ์์
ํ์ต ๊ฐ๋ฅ
- Robustness Improvement: on-task ๋ฐ์ดํฐ ํ์ฉ์ผ๋ก ์ค์ ์
๋ฌด ํ๊ฒฝ(์: ํจ์คํธํธ๋ ์์ปค)์์ ์ ์ฑ
์ฑ๋ฅ ๋ํญ ํฅ์
How
Figure 2. Method overview. Our approach follows a two-stage training recipe: (1) pre-training on large-scale in-the-wild
- Unified human-centric state-action space ์ค๊ณ: ๋จธ๋ฆฌ(Thead), ์์(T_l_wrist, T_r_wrist), ์๊ฐ๋ฝ keypoints๋ฅผ ํฌํจํ๋ ํ์คํ๋ ์ํ-ํ๋ ๊ณต๊ฐ
- IK/FK ๋ฐ hand retargeting ์ํํธ์จ์ด ์ค์ํธ ๊ฐ๋ฐ๋ก ๋ค์ํ ๋ก๋ด๊ณผ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํต์ผ ๊ณต๊ฐ์ผ๋ก ๋ณํ
- Pre-training๊ณผ post-training์ ๋ ๋จ๊ณ ํ์ต: in-the-wild ๋ฐ์ดํฐ๋ก ๊ธฐ๋ณธ ๋ชจ๋ธ์ ํ์ตํ๊ณ on-task ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์
- Domain adaptation ๊ธฐ๋ฒ ์ ์ฉ: naive data mixing์ด hidden state์์ ๋ก๋ด๊ณผ ์ธ๊ฐ ์
๋ ฅ์ ๊ตฌ๋ถํ๋ ๋ฌธ์ ๋ฅผ ๊ฐ์
- Flow matching ๊ธฐ๋ฐ์ egocentric language-conditioned ์ ์ฑ
ํ์ต
- ์ค์ Unitree H1, G1 ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์์ ๊ฒ์ฆ
Originality
- In-the-wild์ on-task ๋ฐ์ดํฐ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๊ฒฐํฉํ๋ data recipe ์ ์ โ ๊ธฐ์กด ์ฐ๊ตฌ๋ ํ๋๋ง ํ์ฉํ๊ฑฐ๋ ๋จ์ fine-tuning์ผ๋ก catastrophic forgetting ๋ฌธ์ ์ผ๊ธฐ
- Unified human-centric state-action space๋ฅผ ํตํ ์ด์ง์ ๋ฐ์ดํฐ์ ํ์คํ โ ๊ธฐ์กด cross-embodiment ํ์ต๊ณผ ๋ฌ๋ฆฌ ์ธ๊ฐ์ ์ค์ฌ์ผ๋ก ์ค๊ณ
- Domain adaptation์ผ๋ก hidden state์ embodiment ๋ฐ์ด์ด์ค ์ ๊ฑฐ โ naive mixing์ ๋ฌธ์ ์ ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๊ณ ๊ฐ์
- Language-conditioned flow matching ์ ์ฑ
์ language generalization๊ณผ few-shot ํ์ต ๋ฅ๋ ฅ ์
์ฆ
Limitation & Further Study
- PHSD ๋ฐ์ดํฐ์
์ on-task ๋ฐ์ดํฐ๊ฐ 20์๊ฐ์ผ๋ก ์ ํ์ โ ๋ ๋ค์ํ ์์
์ ๋ํ on-task ๋ฐ์ดํฐ ์์ง์ ๋น์ฉ๊ณผ ํ์ฅ์ฑ ๋ฌธ์
- Unified state-action space ์ค๊ณ๊ฐ ํน์ ํด๋จธ๋
ธ์ด๋(bimanual dexterous hand ๊ธฐ์ค)์ ์ต์ ํ๋์ด ์์ด ๋ค๋ฅธ ๋ก๋ด ํํ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ถ๋ช
ํ
- Domain adaptation ๊ธฐ๋ฒ์ ๊ตฌ์ฒด์ ์ธ ๋ฉ์ปค๋์ฆ์ด ๋
ผ๋ฌธ์์ ์ถฉ๋ถํ ์์ธํ ์ค๋ช
๋์ง ์์
- Real-world ํ๊ฐ๊ฐ ์ ํ์ ์ด๋ฉฐ, ์ค์ ์ฐ์
์ ์ฉ(ํจ์คํธํธ๋ ์์ปค) ์๋๋ฆฌ์ค์์ ๋ ๊ด๋ฒ์ํ ์คํ ํ์
- Language understanding์ ์๋ฆฌ(VLM ๊ธฐ๋ฐ์ธ์ง, ๋ณ๋ ํ์ต์ธ์ง) ๋ฐ few-shot learning์ ์ ํํ ๋ฉ์ปค๋์ฆ์ ๋ํ ๋ถ์ ๋ถ์กฑ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ in-the-wild์ on-task ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๊ฒฐํฉํ๋ ์๋ก์ด data recipe๋ฅผ ์ ์ํ๊ณ , ๋๊ท๋ชจ PHSD ๋ฐ์ดํฐ์
๊ณผ Human0 ๋ชจ๋ธ์ ํตํด ์ค์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์์ language following, few-shot learning, robustness ๊ฐ์ ์ ๋ฌ์ฑํจ์ผ๋ก์จ ๋ก๋ด ์กฐ์ ํ์ต์ ํ์ฅ์ฑ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์