์ ์: Qiang Zhang, Jiahao Ma, Peiran Liu, Shuai Shi, Zeran Su, Zifan Wang, Jingkai Sun, Wei Cui, Jialin Yu, Gang Han, Wen Zhao, Pihai Sun, Kangning Yin, Jiaxu Wang, Jiahang Cao, Lingfeng Zhang, Hao Cheng, Xiaoshuai Hao, Yiding Ji, Junwei Liang, Jian Tang, Renjing Xu, Yijie Guo | ๋ ์ง: 2026-02-17 | DOI: 10.48550/arXiv.2602.15733 📄 PDF
Figure 1: MeshMimic: monocular video-to-humanoid robots. From ordinary consumer monocular videos (no
MeshMimic์ ๋จ์ผ ๋ชจ๋ ธํ๋ฌ ๋น๋์ค์์ 3D ์ฅ๋ฉด ์ฌ๊ตฌ์ฑ์ ํตํด ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ด ๋ณต์กํ ์งํ๊ณผ์ ์ํธ์์ฉ์ ํ์ตํ ์ ์๋ ํ๋ ์์ํฌ์ด๋ค. Kinematic Consistency Optimization๊ณผ contact-aware retargeting์ ํตํด ๋ชจ์ -์งํ ๊ฒฐํฉ ์ํธ์์ฉ์ ์ ํํ๊ฒ ์ ๋ฌํ๋ค.
Figure 2: MeshMimic Real-to-Sim. In-the-wild monocular videos yield long-horizon motions over complex
Figure 3: MeshMimic Real-Sim-Real Pipeline. Starting from a monocular video, we reconstruct the scene
์ดํ: MeshMimic์ 3D ๋น์ ๊ณผ ๊ตฌ์ฒดํ๋ ์ง๋ฅ์ ์ฐฝ์์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ๋น์ฉ ํจ์จ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ํ๋ จ ๋ฐฉ์์ ์ ์ํ๋ค. ๋ฌผ๋ฆฌ์ ์ผ๊ด์ฑ ์ต์ ํ์ ์ ์ด ์ธ์ retargeting์ ํตํด ๋ณต์กํ ์งํ์์์ ์์ ์ ์ธ ์ํธ์์ฉ์ ์คํํจ์ผ๋ก์จ ๋ก๋ด ์ ์ด ๋ถ์ผ์ ์๋นํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.