์ ์: Yingzhao Jian, Zhongan Wang, Yi Yang, Hehe Fan | ๋ ์ง: 2025-10-28 | URL: https://arxiv.org/abs/2511.00041 📄 PDF
Figure 1: BiBo is a humanoid agent powered by an off-the-shelf VLM. It consists of an embodied
off-the-shelf VLM(GPT-4)์ humanoid agent์ ์ ์ด์ ํ์ฉํ๊ธฐ ์ํด embodied instruction compiler์ diffusion-based motion executor๋ก ๊ตฌ์ฑ๋ BiBo ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ , ์ด๋ฅผ ํตํด ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง ์์ด ๊ฐ๋ฐฉํ ํ๊ฒฝ์์์ ์ ์ฐํ ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํจ.
Figure 1: BiBo is a humanoid agent powered by an off-the-shelf VLM. It consists of an embodied
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ off-the-shelf VLM๊ณผ humanoid control์ ์ฐ๊ฒฐํ๋ ์ฐฝ์์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ , structured representation๊ณผ LDM์ novel application์ ํตํด ๊ธฐ์ ์ ๊ธฐ์ฌ๋ฅผ ํ์์ผ๋ฉฐ, ์ค์ ๋ฐ์ดํฐ ์์ง์ ๋ณ๋ชฉ์ ํด์ํ๋ ค๋ ์ค์ง์ ์์๊ฐ ์์. ๋ค๋ง ์ค์ ๋ฌผ๋ฆฌ ํ๊ฒฝ์์์ ๊ฒ์ฆ๊ณผ robustness ๋ถ์์ด ๋ณด๊ฐ๋๋ค๋ฉด ๋์ฑ ๊ฐ๋ ฅํ ์์ ์ด ๋ ๊ฒ์ผ๋ก ์์๋จ.