์ ์: Yara Mahmoud, Yasheerah Yaqoot, Miguel Altamirano Cabrera, Dzmitry Tsetserukou | ๋ ์ง: 2026-01-21 | URL: https://arxiv.org/abs/2601.14874 📄 PDF
Figure 1: Overall architecture of the proposed HumanoidVLM framework.
HumanoidVLM์ vision-language model๊ณผ retrieval-augmented generation์ ๊ฒฐํฉํ์ฌ ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ด egocentric ์ด๋ฏธ์ง๋ก๋ถํฐ task-specific impedance parameters์ gripper configuration์ ์๋์ผ๋ก ์ ํํ๋ ์ ์ํ ์กฐ์ ํ๋ ์์ํฌ์ด๋ค.
Figure 3: Retrieval accuracy of the VLMโRAG system across
Figure 1: Overall architecture of the proposed HumanoidVLM framework.
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ VLM๊ณผ RAG๋ฅผ humanoid manipulation์ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉํ์ฌ semantic perception๊ณผ compliant control์ ์ฒ์ ์ฒด๊ณ์ ์ผ๋ก ์ฐ๊ฒฐํ์ผ๋ฉฐ, ๋์ retrieval ์ ํ๋์ ์ค์ ๋ก๋ด ์คํ์ ํตํด ํ๋น์ฑ์ ์ ์ฆํ๋ค. ๋ค๋ง ๊ณ ์ ๋ database ๊ท๋ชจ์ sensor ์ ์ฝ์ด ํฅํ ํ์ฅ์ฑ์ ์ ํํ๋ ์ ์ด ๊ฐ์ ๋์์ด๋ค.