์ ์: Liang Pan, Zeshi Yang, Zhiyang Dou, Wenjia Wang, Buzhen Huang, Bo Dai, Taku Komura, Jingbo Wang | ๋ ์ง: 2025-03-25 | URL: https://arxiv.org/abs/2503.19901 📄 PDF
Figure 1. Introducing TokenHSI, a unified model that enables physics-based characters to perform diverse human-scene int
TokenHSI๋ transformer ๊ธฐ๋ฐ์ ํตํฉ ์ ์ฑ ์ผ๋ก humanoid ๊ณ ์ ๊ฐ๊ฐ์ ๊ณต์ ํ ํฐ์ผ๋ก ๋ชจ๋ธ๋งํ๊ณ task ํ ํฐ๊ณผ masking mechanism์ผ๋ก ๊ฒฐํฉํ์ฌ ๋ค์ํ ์ธ๊ฐ-์ฅ๋ฉด ์ํธ์์ฉ(HSI) ๊ธฐ์ ์ ๋จ์ผ ๋คํธ์ํฌ์์ ํตํฉํ๋ค.
Figure 1. Introducing TokenHSI, a unified model that enables physics-based characters to perform diverse human-scene int
Figure 2. TokenHSI consists of two stages: (left) foundational skill learning and (right) policy adaptation. Through mul
์ดํ: TokenHSI๋ ๋ ๋ฆฝ์ proprioception tokenizer์ masking mechanism์ ํตํด ๋ค์ค HSI ๊ธฐ์ ์ ๋จ์ผ ๋คํธ์ํฌ์์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ๊ณ , ๋ณ์ ๊ธธ์ด ์ ๋ ฅ์ ํ์ฉํ ํจ์จ์ ์ ์ฑ ์ ์๊น์ง ์คํํ ํ์ ์ ์ธ ์ ๊ทผ๋ฒ์ผ๋ก, ์ปดํจํฐ ์ ๋๋ฉ์ด์ ๊ณผ embodied AI ๋ถ์ผ์์ ์ค์ง์ ์ธ ๊ธฐ์ฌ๋ฅผ ํ๋ค.