์ ์: Marion Lepert, Jiaying Fang, Jeannette Bohg | ๋ ์ง: 2025-08-13 | URL: https://arxiv.org/abs/2508.09976 📄 PDF
Fig. 1: Overview of Masquerade. Left: Large-scale in-the-wild egocentric human videos are edited to obtain โrobotizedโ
Masquerade๋ in-the-wild ์ธ๊ฐ ์์์ ๋ฐ์ดํฐ ํธ์ง์ ํตํด ๋ก๋ดํ๋ ์์ฐ์ผ๋ก ๋ณํํ๊ณ , ์ด๋ฅผ ํตํด ์ฌ์ ํ์ต๋ visual encoder๋ก ๋ก๋ด ์กฐ์ ์ ์ฑ ์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. 675K ํ๋ ์์ ํธ์ง๋ ์ธ๊ฐ ์์์ผ๋ก ์ฌ์ ํ์ต ํ 50๊ฐ์ ๋ก๋ด ์์ฐ์ผ๋ก fine-tuningํ์ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น 5-6๋ฐฐ ํฅ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Fig. 4: Average success rate (%) on three bimanual
Fig. 2: Overview of Masquerade. (1) In-the-wild egocentric human videos are converted into โrobotizedโ clips by extracti
์ดํ: Masquerade๋ visual embodiment gap์ ๋ช ์์ ์ผ๋ก ํด๊ฒฐํ๋ฉด์ ๋๊ท๋ชจ in-the-wild ์ธ๊ฐ ์์์ ๋ก๋ด ํ์ต์ ํ์ฉํ๋ ์ฐฝ์์ ์ด๊ณ ์ค์ฉ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค. ์ ์ ํ ํ๊ฐ์ ablation์ผ๋ก ํต์ฌ ์ค๊ณ ์ ํ์ ํจ๊ณผ๋ฅผ ์ ์ฆํ์ผ๋ฉฐ, ๋ก๋ด ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ์ํํ๋ ๋ฐ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค.