์ ์: Marion Lepert, Jiaying Fang, Jeannette Bohg | ๋ ์ง: 2025-03-02 | URL: https://arxiv.org/abs/2503.00779 📄 PDF
Fig. 1: Overview of learning from human videos. Our method enables training robot policies without collecting any robot
๋ก๋ด ํ๋์จ์ด ์์ด ์ธ๊ฐ ๋น๋์ค ๋ฐ๋ชจ๋ง์ผ๋ก ๋ก๋ด ์ ์ฑ ์ ํ์ตํ๋ Phantom ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, ๋ฐ์ดํฐ ํธ์ง ๊ธฐ๋ฒ์ ํตํด ์ธ๊ฐ-๋ก๋ด ๊ฐ์ embodiment gap์ ๊ทน๋ณตํ๊ณ zero-shot ๋ฐฐํฌ๋ฅผ ๋ฌ์ฑํ๋ค.
Fig. 1: Overview of learning from human videos. Our method enables training robot policies without collecting any robot
Fig. 2: Overview of our data-editing pipeline for learning robot policies from human videos. During training, we first e
์ดํ: ๋ณธ ์ฐ๊ตฌ๋ ๋ก๋ด ๋ฐ์ดํฐ ์์กด์ฑ์ ์์ ํ ์ ๊ฑฐํ๋ฉด์๋ ์ค์ฉ์ ์ธ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ์ผ๋ฉฐ, ๋ฐ์ดํฐ ํธ์ง ๊ธฐ๋ฒ์ ์ฐฝ์์ ์ ์ฉ์ผ๋ก ๋ก๋ด ํ์ต์ ํ์ฅ์ฑ์ ํ์ ์ ์ผ๋ก ๊ฐ์ ํ ์ค์ํ ๊ธฐ์ฌ๋ค. ๋ค๋ง pinch grasp ์ ํ๊ณผ hand pose estimation์ ๋ํ ์์กด์ฑ์ด ์ค์ ์ ์ฉ์ ํญ์ ์ ํํ๋ค.