์ ์: Zhirui Liu, Kaiyang Ji, Ke Yang, Jingyi Yu, Ye Shi, Jingya Wang | ๋ ์ง: 2026-04-10 | DOI: 10.48550/arXiv.2511.22963 📄 PDF
Figure 1. An illustration of Humanoid-LLA. Given a high-level
์์ ํ์ ์์ฐ์ธ์ด ๋ช ๋ น์ ์ธ๊ฐํ ๋ก๋ด์ ์ ์ฒด ์ ์ฒด ์ ์ด๋ก ๋งคํํ๋ Large Language Action Model(Humanoid-LLA)์ ์ ์ํ๋ฉฐ, ํตํฉ ๋ชจ์ ์ดํ, ์ดํ-์งํฅ ์ปจํธ๋กค๋ฌ ์ฆ๋ฅ, ๊ฐํํ์ต ๊ธฐ๋ฐ ํ์ธํ๋์ ํตํด ์ธ์ด ์ผ๋ฐํ์ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ์ ๋์์ ๋ฌ์ฑํ๋ค.
Figure 3. Real-world demonstrations on Unitree G1 and Booster T1. The tested prompts contain unseen terms (โsoldierโ, โm
Figure 2. An overview of Humanoid-LLA. In stage one, we build a unified motion vocabulary leveraging a large-scale paire
์ดํ: Humanoid-LLA๋ ํตํฉ ๋ชจ์ ์ดํ, ์ดํ-์งํฅ ์ฆ๋ฅ, ๊ฐํํ์ต ํ์ธํ๋์ ํตํฉํ์ฌ ์์ ํ์ ์ธ์ด์์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ์ธ๊ฐํ ๋ก๋ด ์ ์ด๋ก์ ๋งคํ์ ์ต์ด๋ก ๋ฌ์ฑํ ์ค์ํ ๊ธฐ์ฌ์ด๋ฉฐ, ์ค์ธ๊ณ ๊ฒ์ฆ๊ณผ ๋ช ํํ ๊ธฐ์ ํ์ ์ผ๋ก ์ธ๊ฐ-๋ก๋ด ์ํธ์์ฉ ๋ถ์ผ์ ์ค๋ํ ์ง์ ์ ๋ํ๋ธ๋ค.