ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos
์ ์: Junyao Shi, Zhuolun Zhao, Tianyou Wang, Ian Pedroza, Amy Luo, Jie Wang, Jason Ma, Dinesh Jayaraman | ๋ ์ง: 2025-03-31 | URL: https://arxiv.org/abs/2503.23877 📄 PDF
Essence
Fig. 1: ZeroMimic distills robotic manipulation skills from egocentric web videos for zero-shot deployment across divers
ZeroMimic์ EpicKitchens ๋ฐ์ดํฐ์
์ ์ผ๋ฐ ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ๋ก๋ด ์กฐ์ ์คํฌ์ ์ง์ ์ถ์ถํ์ฌ, ๋ก๋ด๋ณ ๋ฐ๋ชจ๋ ํ์ ์์ด ์ฆ์ ๋ฐฐํฌ ๊ฐ๋ฅํ ์ด๋ฏธ์ง ๋ชฉํ ์กฐ๊ฑด๋ถ ์คํฌ ์ ์ฑ
์ ์์ฑํ๋ ์ฒซ ๋ฒ์งธ ์์คํ
์ด๋ค.
Motivation
- Known: ์ต๊ทผ ๋ก๋ด ์กฐ์ ํ์ต์ imitation learning์ ํฌ๊ฒ ์์กดํ๊ณ ์์ผ๋ฉฐ, ์ธ๊ฐ ๋น๋์ค ๋ฐ์ดํฐ์
์ ์กฐ์ ์คํฌ์ ๋ํ ํ๋ถํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ค. ๋ํ VLM, affordance ํ์ต, 3D ๋น์ ๊ธฐ์ ๋ฑ์ ๋ฐ์ ์ด ์์๋ค.
- Gap: ๊ธฐ์กด ์ ๊ทผ๋ฒ๋ค์ ๋ก๋ด๋ณ ๋ฐ๋ชจ ๋ฐ์ดํฐ์ ์์กด์ฑ์ด ๋๊ฑฐ๋, ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ์ง์ ์ ์ฑ
์ ์์ฑํ ๋ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. H2R์ ์ ์ธํ ์ ํ ์ฐ๊ตฌ๋ค์ ๋ก๋ด ๋ฐ์ดํฐ ์์ด in-the-wild ๋น๋์ค๋ก๋ถํฐ ์ค์ฉ์ ์ฑ๋ฅ์ ์ ์ฑ
์ ์์ฑํ์ง ๋ชปํ๋ค.
- Why: ๋ก๋ด๊ณผ ์๋๋ฆฌ์ค ํนํ ๋ฐ๋ชจ ์์ง์ ํ์ฅ์ฑ์ด ๋จ์ด์ง๋ฏ๋ก, ์น์์ ๋ค์ํ ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ์คํฌ์ ์ต๋ํ ์ ์๋ค๋ฉด ์ผ๋ฐ ๋ชฉ์ ๋ก๋ด ๊ฐ๋ฐ์ ๋ณ๋ชฉ์ ํด์ํ ์ ์๋ค.
- Approach: ZeroMimic์ grasping phase(VRB๋ฅผ ํตํ affordance ์์ธก + AnyGrasp๋ฅผ ํตํ grasp ์ ํ)์ post-grasp phase(HaMeR๋ก ์ถ์ถํ ์ธ๊ฐ ์๋ชฉ ๊ถค์ ์ 3D ์ขํ๊ณ์ groundingํ๊ณ 6D ๊ถค์ ์ ์ฑ
ํ์ต)๋ก ๊ตฌ์ฑ๋ ๋ ๋จ๊ณ ์์คํ
์ ์ ์ํ๋ค.
Achievement
Fig. 5: ZeroMimic Zero-Shot Performance Overview. ZeroMimic demonstrates strong generalization capabilities, achieving
- Zero-shot ์ฑ๋ฅ: ๋ก๋ด๋ณ ํ์ต ์์ด ์ค์ ํ๊ฒฝ์์ 71.0%, ์๋ฎฌ๋ ์ด์
์์ 73.8%์ ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ๋ค์ค ์คํฌ ์ง์: opening, closing, pouring, pick&place, cutting, stirring ๋ฑ 9๊ฐ์ง ๋ค๋ฅธ ์คํฌ ํ๊ฐ
- ์ผ๋ฐํ ๋ฅ๋ ฅ: ๋ฐ์ดํฐ์
์ ์๋ ์๋ก์ด ๋ฌผ์ฒด์ ๋ํด ์ผ๋ฐํํ๊ณ , ๋ค์ํ ๋ก๋ด embodiment์ ๋ฐฐํฌ ๊ฐ๋ฅ
- ์์คํ
๊ณต๊ฐ: ์ํํธ์จ์ด ๋ฐ ์ ์ฑ
์ฒดํฌํฌ์ธํธ ๊ณต๊ฐ๋ก plug-and-play ์ฌ์ฌ์ฉ ๊ฐ๋ฅ
How
Fig. 3: ZeroMimic is composed of the grasping phase and the post-grasp phase. The grasping phase (top) leverages
- EpicKitchens ๋ฐ์ดํฐ์
์์ ego-centric ์ธ๊ฐ ๋น๋์ค ํ์ฉ
- HaMeR๋ฅผ ์ด์ฉํ ์ธ๊ฐ ์๋ชฉ ๊ถค์ ์ถ์ถ ๋ฐ ์นด๋ฉ๋ผ ์์ธ ์ฌ๊ตฌ์ฑ์ผ๋ก 3D grounding
- VRB(pre-trained on EpicKitchens)๋ฅผ ์ด์ฉํด task ๊ด๋ จ affordance ์์ธก
- AnyGrasp(robot ๋ฐ์ดํฐ pre-trained)๋ก 2-fingered gripper์ ์ ํฉํ grasp ์ ํ
- ์ถ์ถ๋ ์ธ๊ฐ ์๋ชฉ ๊ถค์ ์ผ๋ก๋ถํฐ 6D end-effector ๊ถค์ ์ ์ฑ
ํ์ต
- ์ธ๊ฐ๊ณผ ๋ก๋ด์ embodiment ์ฐจ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด coarse action transfer ์ถ์ํ ์ ์ฉ
Originality
- In-the-wild ๋น๋์ค๋ก๋ถํฐ ์ง์ ๋ฐฐํฌ ๊ฐ๋ฅํ ๋ก๋ด ์ ์ฑ
์ ์์ฑํ๋ ์ฒซ ๋ฒ์งธ ์์คํ
์ผ๋ก, H2R๊ณผ ๋ฌ๋ฆฌ affordance ๊ธฐ๋ฐ grasping๊ณผ learned post-grasp ์ ์ฑ
์ ์กฐํฉ์ผ๋ก ๋ ๋์ ์ฑ๋ฅ ๋ฌ์ฑ
- 3D grounding, video activity understanding, grasp affordance ๋ฑ ๊ธฐ์กด ๊ธฐ์ ๋ค์ systematicํ๊ฒ ํตํฉํ์ฌ in-the-wild ๋น๋์ค์ ๋ค์์ฑ๊ณผ ๋
ธ์ด์ฆ๋ฅผ ์ฒ๋ฆฌ
- ๋ค์ํ ๋ฌผ์ฒด, ํ๊ฒฝ, ๋ก๋ด embodiment์ ๋ํ zero-shot ๋ฐฐํฌ ๊ฐ๋ฅ์ฑ์ ์ค์ฆ์ ์ผ๋ก ๊ฒ์ฆ
Limitation & Further Study
- ํ๊ฐ๊ฐ ์ฃผ๋ก ์ฃผ๋ฐฉ ํ๊ฒฝ๊ณผ ๊ด๋ จ ์์
์ ์ ํ๋์ด ์์ผ๋ฉฐ, ๋ค๋ฅธ ๋๋ฉ์ธ์ผ๋ก์ ์ผ๋ฐํ ๋ฏธ๊ฒ์ฆ
- 2-fingered gripper์๋ง ์ด์ ์ ๋ง์ถฐ ๋ค๋ฅธ gripper ์ ํ(์: parallel jaw, suction)์ ๋ํ ํ์ฅ์ฑ ๋ถ๋ช
ํ
- ์ธ๊ฐ ์๋ชฉ ๊ถค์ ์ถ์ถ ์ HaMeR์ ์ค๋ฅ๊ฐ ๋์ ๋ ์ ์์ผ๋ฉฐ, occlusion์ด๋ out-of-frame ์ํฉ์์์ robust์ฑ ๋ฏธํ๊ฐ
- post-grasp ์ ์ฑ
์ ์คํจ ๋ชจ๋ ๋ถ์ ๋ถ์ฌ๋ก, ์ด๋ค task ํน์ฑ์์ ์คํจํ๋์ง ๊ตฌ์ฒด์ ๋ถ์ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ๋ก ๋ค์ํ embodiment(multi-fingered gripper, humanoid)์ ๋ํ ํ์ฅ, ๋ค๋ฅธ ๋๋ฉ์ธ ๋น๋์ค ํ์ฉ, end-to-end ํ์ต ๊ฐ๋ฅ์ฑ ํ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ZeroMimic์ in-the-wild ์ธ๊ฐ ๋น๋์ค๋ก๋ถํฐ ๋ก๋ด ์กฐ์ ์คํฌ์ ์ง์ ์ถ์ถํ๋ ์ค์ง์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ฉฐ, 71%๋์ ํ์ค์ ์ฑ๊ณต๋ฅ ๋ก ์ค์ฉ์ฑ์ ์
์ฆํ๋ค. ๋ก๋ด ํ์ต์ ๋ฐ์ดํฐ ๋ณ๋ชฉ์ ํด์ํ๋ ์ค์ํ ์ง์ ์ด์ง๋ง, ํ๊ฐ ๋ฒ์ ํ๋์ ์คํจ ๋ถ์ ๊ฐํ๊ฐ ํฅํ ๊ณผ์ ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์