์ ์: Runpei Dong, Ziyan Li, Xialin He, Saurabh Gupta | ๋ ์ง: 2026-02-24 | DOI: 10.48550/arXiv.2602.16705 📄 PDF
Fig. 2: Overall architecture for our proposed modular system for open-vocabulary object grasping. Given a free-form
HERO ์์คํ ์ ์ ํํ end-effector ์ถ์ ์ ์ฑ ๊ณผ ๋๊ท๋ชจ ๋น์ ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ด ๋ฏธ์ง์ ํ๊ฒฝ์์ ์์์ ์ผ์์ฉํ์ ์์จ์ ์ผ๋ก ์ง์ ์ ์๊ฒ ํ๋ค. End-effector ์ถ์ ์ค์ฐจ๋ฅผ 3.2๋ฐฐ ๊ฐ์์ํค๊ณ 83.8%์ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ค.
Fig. 1: We build capability for a humanoid to autonomously loco-manipulate novel objects in novel scenes using onboard
Fig. 3: HERO is an accurate end-effector control frame-
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ์ ํํ end-effector ์ ์ด์ ๊ธฐ์ ์ ๋์ ๋ฅผ classical robotics์ ํ์ต ๊ธฐ๋ฐ ๋ชจ๋์ ์ฐฝ์์ ๊ฒฐํฉ์ผ๋ก ํด๊ฒฐํ๊ณ , ์ด๋ฅผ ํตํด humanoid์ ์ค์ ํ๊ฒฝ object manipulation์ ์ฒ์์ผ๋ก ํ์คํํ๋ค. ๋ชจ๋์ ์ค๊ณ๋ก ๋๊ท๋ชจ ์ค์ ๋ฐ์ดํฐ ์์ง ์์ด๋ open-vocabulary ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ ์ ์ด ํนํ ์๋ฏธ ์์ผ๋ฉฐ, 83.8%์ ์ค์ ํ๊ฒฝ ์ฑ๊ณต๋ฅ ์ ํด๋น ๋ถ์ผ์ significant advance๋ฅผ ๋ํ๋ธ๋ค.