์ ์: Rutav Shah, Shuijing Liu, Qi Wang, Zhenyu Jiang, Sateesh Kumar, Mingyo Seo, Roberto Martรญn-Martรญn, Yuke Zhu | ๋ ์ง: 2025-09-11 | URL: https://arxiv.org/abs/2509.09769 📄 PDF
Fig. 1: Overview. MIMICDROID enables few-shot learning for humanoid manipulation by training solely on human play
MimicDroid๋ ์ธ๊ฐ์ ์์ ๋ก์ด ์ํธ์์ฉ ๋น๋์ค(human play videos)๋ง์ ํ์ต ๋ฐ์ดํฐ๋ก ์ฌ์ฉํ์ฌ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ด In-Context Learning(ICL)์ ํตํด ์๋ก์ด ์กฐ์ ์์ ์ ํจ์จ์ ์ผ๋ก ์ํํ๋๋ก ํ๋ค.
Fig. 4: Overview of our simulation benchmark. We introduce a simulation benchmark to evaluate few-shot learning for
Fig. 2: Method Overview. MIMICDROID performs meta-training for in-context learning (Meta-ICL) by constructing context-
์ดํ: MimicDroid๋ human play videos๋ผ๋ ํ์ค์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ค๋ฅผ ํ์ฉํ์ฌ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ In-Context Learning ๊ธฐ๋ฐ ์กฐ์์ ์คํํ ํ์ ์ ์ธ ์ฐ๊ตฌ์ด๋ฉฐ, ๋ช ํํ ๋ฐฉ๋ฒ๋ก , ๊ฐ๋ ฅํ ์ค์ฆ์ ๊ฒฐ๊ณผ, ๊ทธ๋ฆฌ๊ณ ๊ณต๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ํตํด ๋ก๋ด ํ์ต ๋ถ์ผ์ ์ค์ง์ ์ธ ๊ธฐ์ฌ๋ฅผ ํ๋ค.