TextOp: Real-time Interactive Text-Driven Humanoid Robot Motion Generation and Control
์ ์: Weiji Xie, Jiakun Zheng, Jinrui Han, Jiyuan Shi, Weinan Zhang, Chenjia Bai, Xuelong Li | ๋ ์ง: 2026-02-07 | DOI: 10.48550/arXiv.2602.07439 📄 PDF
Essence
Fig. 2: Overview of TextOpโs framework. The framework consists of three main parts: (a) Interactive Motion Generation,
TextOp๋ streaming ์์ฐ์ด ๋ช
๋ น์ผ๋ก ์ธ๊ฐํ ๋ก๋ด์ ์ด๋์ ์ค์๊ฐ์ผ๋ก ์์ฑํ๊ณ ์ ์ดํ๋ ํ๋ ์์ํฌ๋ก, ๊ณ ์์ค์ autoregressive motion diffusion ๋ชจ๋ธ๊ณผ ์ ์์ค์ motion tracking policy๋ฅผ ๊ฒฐํฉํ์ฌ ์คํ ์ค ๋์ ์ผ๋ก ๋ช
๋ น ์์ ์ ์ง์ํ๋ค.
Motivation
- Known: ์ต๊ทผ humanoid whole-body motion tracking ๊ธฐ์ ๋ก ๋ค์ํ ํ์กฐ ์ด๋์ ์คํํ ์ ์์ผ๋ฉฐ, ํ
์คํธ ๊ธฐ๋ฐ motion generation์ด ์์ฐ์ด๋ก ๋ณต์กํ ์๋๋ฅผ ํํํ ์ ์์์ด ์๋ ค์ ธ ์๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด ์ ๊ทผ๋ฒ์ ๊ณ ์ ๋ trajectory ๊ธฐ๋ฐ์ด๊ฑฐ๋ ์ง์์ human teleoperation์ด ํ์ํ์ฌ ์ ์ฐ์ฑ๊ณผ ์์จ์ฑ์ด ์ ํ๋๋ค.
- Gap: ๋์ ์์ค์ ์ธ์ด ๊ธฐ๋ฐ ์๋ ํํ๊ณผ ์ค์๊ฐ ๋ฌผ๋ฆฌ์ ์คํ ๊ฐ๋ฅํ humanoid ์ ์ด ๊ฐ์ ์ฐ๊ฒฐ๊ณ ๋ฆฌ๊ฐ ๋ถ์กฑํ๋ฉฐ, ์คํ ์ค ๋ช
๋ น ์์ ์ ์ง์ํ๋ฉด์๋ ์ ์ด ์์ ์ฑ์ ์ ์งํ๋ ๋ฐฉ๋ฒ์ด ๋ฏธํด๊ฒฐ ์ํ์ด๋ค.
- Why: ์์จ ๋ก๋ด์ ์ํธ์์ฉ์ฑ๊ณผ ์ ์์ฑ์ ํฅ์์ํค๊ณ , ์ฌ์ฉ์์ ๋ณํํ๋ ์๋์ ์ค์๊ฐ์ผ๋ก ์๋ตํ๋ฉด์๋ ์ฐ์์ ์ด๊ณ ๋ถ๋๋ฌ์ด ์ ์ ์ด๋์ ์ ์งํ๋ ๊ฒ์ด ์ค์ ์์ฉ์์ ํ์์ ์ด๋ค.
- Approach: TextOp๋ ๋ ์์ค์ ๊ตฌ์กฐ๋ฅผ ์ฑํํ์ฌ ๊ณ ์์ค์์ ํ์ฌ ํ
์คํธ ์
๋ ฅ๊ณผ ์ต๊ทผ motion context์ ๊ธฐ๋ฐํ short-horizon kinematic trajectory๋ฅผ autoregressiveํ๊ฒ ์์ฑํ๊ณ , ์ ์์ค์์ robust whole-body motion tracking policy๊ฐ ๋ฌผ๋ฆฌ ๋ก๋ด์์ ์ด๋ค trajectory๋ฅผ ์คํํ๋ค.
Achievement
- ์ค์๊ฐ ์ํธ์์ฉ ์ ์ด: Streaming ์ธ์ด ๋ช
๋ น๊ณผ on-the-fly ๋ช
๋ น ์์ ์ ์ง์ํ๋ฉฐ instant responsiveness๋ฅผ ๋ฌ์ฑ
- Two-Level Architecture: Motion diffusion ๋ชจ๋ธ๊ณผ motion tracking policy์ ๋ถ๋ฆฌ๋ก ์๋ ์
๋ฐ์ดํธ์ ์ ์ด ์์ ์ฑ์ ๊ท ํ ๋ฌ์ฑ
- Robot-Skeleton Motion Representation: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋จ์ผ-DoF ๊ด์ ๊ตฌ์กฐ๋ฅผ ๋ฐ์ํ ์ปดํฉํธํ kinematic ํํ์ผ๋ก ์์ฑ ํ์ง ๊ฐ์
- Distribution Gap ํด๊ฒฐ: Motion generator๊ฐ ์์ฑํ ๊ถค์ ์ผ๋ก tracking policy ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฆ๊ฐํ์ฌ ํ์ค ๋ก๋ด ๋ฐฐํฌ ์ ๊ฒฌ๊ณ ์ฑ ํฅ์
- ์ค์ ๋ก๋ด ๊ฒ์ฆ: ์ถค, ์ ํ ๋ฑ ๋ค์ํ ๋์ ์ ํ๋๋ค ๊ฐ์ ๋ถ๋๋ฌ์ด ์ ํ์ผ๋ก continuous motion execution ๋ฌ์ฑ
How
- VAE(Variational Autoencoder)๋ฅผ ์ฌ์ฉํ์ฌ motion์ latent space๋ก ์ธ์ฝ๋ฉ
- Latent Diffusion Model(LDM)์ ์ด์ฉํด CLIP encoder๋ก ์ธ์ฝ๋ฉ๋ ํ
์คํธ ์กฐ๊ฑด ํ์์ autoregressiveํ๊ฒ ๋ฏธ๋ motion latent ์์ฑ
- ์์ฑ๋ short-horizon trajectory๋ฅผ robot-skeleton representation์ผ๋ก ํํํ์ฌ 6.25 Hz์์ ์ด๋ ์ฐธ์กฐ๊ฐ ์์ฑ
- MLP ๊ธฐ๋ฐ motion tracking policy๋ฅผ ์๋ฎฌ๋ ์ด์
์์ ํ์ตํ์ฌ reference motion๊ณผ ๋ก๋ด ์ํ๋ฅผ ์
๋ ฅ๋ฐ์ 50 Hz์์ joint-level ์ ์ด ๋ช
๋ น ์์ฑ
- Motion generator๋ก ์์ฑ๋ ๊ถค์ ์ ํฌํจํ augmented dataset์ผ๋ก tracking policy๋ฅผ ์ฌํ์ตํ์ฌ ๋ถํฌ ๊ฐ๊ฒฉ ๊ฐ์
Originality
- humanoid animation ๋ถ์ผ์ interactive motion generation๊ณผ ์ค์ ๋ก๋ด whole-body control์ ์ต์ด๋ก ํตํฉํ๋ ์์คํ
์ ์
- Streaming ์์ฐ์ด ๋ช
๋ น์ผ๋ก ์คํ ์ค ๋์ ์์ ์ ์ง์ํ๋ ์๋ก์ด humanoid ์ ์ด paradigm ์ ์
- Robot-skeleton motion representation์ด๋ผ๋ ๋ก๋ด ํนํ ์ค๊ณ๋ฅผ ํตํด ์์ฑ-์ถ์ ๊ฐ์ alignment ๊ฐ์
- Motion generator์ ์ถ๋ ฅ์ผ๋ก tracking policy ๋ฐ์ดํฐ๋ฅผ ์ฆ๊ฐํ๋ domain adaptation ์ ๋ต์ ์ฐฝ์์ ํ์ฉ
Limitation & Further Study
- Motion generator์ context window(์ต๊ทผ motion history)๊ฐ ์ ํ๋์ด ์์ด ์ฅ๊ธฐ์ coherence ์ ์ง ๋ฅ๋ ฅ์ ์ ์ฝ
- ํ์ต ๋ฐ์ดํฐ์ ํฌํจ๋ motion๋ค์ ๋ํด์๋ง ํจ๊ณผ์ ์ด๋ฉฐ, ๋ฐ์ดํฐ์
์ ์๋ ์๋ก์ด ๋์์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ๋ถ๋ช
ํ
- ์ค์ ๋ก๋ด ์คํ์ด ๋จ์ผ humanoid platform(์ฒดํ, ๊ตฌ๋ ๋ฐฉ์)์ ํ์ ๋์ด ๋ค์ํ ๋ก๋ด ํ๋ซํผ์์ ์ ์์ฑ ๋ฏธ๊ฒ์ฆ
- ์ธ๋ถ ๊ต๋์ ๋ํ ํ๋ณต ๋ฅ๋ ฅ์ ๋ณด์ฌ์ก์ผ๋, ๊ทน๋จ์ ๊ต๋์ด๋ ์๊ธฐ์น ์์ ํ๊ฒฝ ๋ณํ์ ๋ํ ๊ฒฌ๊ณ ์ฑ ํ๊ฐ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ: ๋ ๊ธด context window์ hierarchical planning์ผ๋ก ์ฅ๊ธฐ coherence ํฅ์, ๋ค์ค ๋ก๋ด ํ๋ซํผ์ ๋ํ ์ผ๋ฐํ ๋ฐฉ๋ฒ ๊ฐ๋ฐ, adversarial robustness ๊ฐํ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: TextOp๋ ์ค์๊ฐ interactive motion generation๊ณผ robust physical control์ ์ฑ๊ณต์ ์ผ๋ก ํตํฉํ์ฌ ์์ฐ์ด ๊ธฐ๋ฐ humanoid ์ ์ด์ ์๋ก์ด paradigm์ ์ ์ํ ๋ฐ์ด๋ ์ฐ๊ตฌ์ด๋ฉฐ, ์ค์ ๋ก๋ด ์คํ์ ํตํด ์คํ ๊ฐ๋ฅ์ฑ์ ๊ฒ์ฆํ๋ค. ๋ค๋ง ํ๋ซํผ ํนํ์ฑ๊ณผ ๋ฐ์ดํฐ์
์์กด์ฑ์ ๊ฐ์ ํ๋ค๋ฉด ๋์ฑ ๊ด๋ฒ์ํ ์ํฅ์ ๋ฏธ์น ์ ์์ ๊ฒ์ผ๋ก ์์๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์