์ ์: Yifei Yan, Yankai Liao, Linqi Ye | ๋ ์ง: 2026-04-19 | URL: https://arxiv.org/abs/2604.17258 📄 PDF
Fig. 1. The three-stage pipeline for rapid deployment of humanoid grasping.
Foundation model๋ค(YOLOv8, SAM 3D, FoundationPose)์ ํตํฉํ์ฌ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์๋ก์ด ๋ฌผ์ฒด ์กฐ์ ๋ฐฐํฌ ์๊ฐ์ 1-2์ผ์์ ์ฝ 30๋ถ์ผ๋ก ๋จ์ถํ๋ end-to-end ํ์ดํ๋ผ์ธ์ ์ ์ํ๋ค.
Fig. 1. The three-stage pipeline for rapid deployment of humanoid grasping.
์ดํ: Foundation model๋ค์ ํจ๊ณผ์ ํตํฉ์ผ๋ก ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ๋ฐฐํฌ ์๊ฐ์ ํ๊ธฐ์ ์ผ๋ก ๋จ์ถํ ์ค์ฉ์ ์ด๊ณ ์ฐ์ํ ๋ ผ๋ฌธ์ด๋ฉฐ, ์๋ ์ฃผ์, zero-shot 3D ์ฌ๊ตฌ์ฑ, zero-shot pose tracking์ ์ฐ๊ณํ modular ์ค๊ณ๊ฐ ์ฐ์ ์ ์ฉ์ฑ์ ๋์ธ๋ค. ๋ค๋ง ์ ํ๋ ๋ฌผ์ฒด ์ ํ๊ณผ ํ๊ฒฝ ์กฐ๊ฑด์์์ ๊ฒ์ฆ์ด ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ํ๋จํ๊ธฐ ์ํด ์ถ๊ฐ ํ์ํ๋ค.