Iterative Closed-Loop Motion Synthesis for Scaling the Capabilities of Humanoid Control
์ ์: Weisheng Xu, Qiwei Wu, Jiaxi Zhang, Tan Jing, Yangfan Li, Yuetong Fang, Jiaqi Xiong, Kai Wu, Rong Ou, Renjing Xu | ๋ ์ง: 2026-02-25 | URL: https://arxiv.org/abs/2602.21599 📄 PDF
Essence
Figure 1. Overview of the CLAIMS pipeline: a closed-loop system that refines prompts from a 5-domain library (martial ar
๋ณธ ๋
ผ๋ฌธ์ ํ์ ๋ฃจํ ์๋ํ ๋ชจ์
๋ฐ์ดํฐ ์์ฑ ๋ฐ ๋ฐ๋ณต ํ๋ ์์ํฌ(CLAIMS)๋ฅผ ์ ์ํ์ฌ ๊ณ ์ ๋ ๋์ด๋ ๋ถํฌ์ ๋ฐ์ดํฐ์
ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ํด๋จธ๋
ธ์ด๋ ์ ์ด ์ ์ฑ
์ ์ฑ๋ฅ ์ํ์ ํฅ์์ํจ๋ค.
Motivation
- Known: Physics-based ํด๋จธ๋
ธ์ด๋ ์ ์ด๋ motion capture ๋ฐ์ดํฐ์
์ ํ์ฉํ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ๊ทผ์ด ํ์ค์ด๋ฉฐ, DeepMimic, AMP, PHC ๋ฑ์ ๋ฐฉ๋ฒ์ด ๊ฐ์ ๋์ด์๋ค. ๊ทธ๋ฌ๋ AMASS์ ๊ฐ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
๋ 90% ์ด์์ด ์ ๋์ด๋ ์ผ์ ํ๋์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ด ๊ณ ๋์ด๋ ๋์์ ๋ํ ์ผ๋ฐํ๊ฐ ์ ํ๋๋ค.
- Gap: ๊ธฐ์กด motion capture ๋ฐ์ดํฐ์
์ ๊ณ ์ ๋ ๋์ด๋ ๋ถํฌ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ์ ๋ฌธ์ ์ด๊ณ ๊ณ ๋์ด๋ ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ด ๋์ ๋๊ท๋ชจ ํ์ฅ์ฑ์ ๋ฌ์ฑํ๊ธฐ ์ด๋ ต๋ค. ๋ํ ํ์ต๋ ์ ์ด ์ ์ฑ
์ด ์์ ์ ๋์ด๋ ํ๊ณ๋ฅผ ๊ทน๋ณตํ ์ ์๋ ๋์ ์ ์ ๋ฉ์ปค๋์ฆ์ด ๋ถ์ฌํ๋ค.
- Why: ๊ณ ๋์ด๋ ์ ๋ฌธ ๋์(๊ฒฉํฌ๊ธฐ, ์ฒด์กฐ, ๋์ค ๋ฑ)์ ๋ํ ํด๋จธ๋
ธ์ด๋ ์ ์ด ๋ฅ๋ ฅ์ ๋ก๋ด ์ ๋๋ฉ์ด์
, ๋ํํ VR, ๋ณต์กํ ์คํฌ์ธ ๋ชจ์
์บก์ฒ ๋ฑ ๋ค์ํ ์ค์ ์์ฉ์ ํ์์ ์ด๋ค. ํจ์จ์ ์ธ ๋ฐ์ดํฐ ์์ฑ ๋ฐ ๋ฐ๋ณต ํ์ต ํ๋ ์์ํฌ๋ ์ ๋ฌธ๊ฐ mocap ๋ฐ์ดํฐ ์์ง์ ๋น์ฉ ๋ถ๋ด์ ์ค์ด๋ฉด์๋ ์ ์ด ์ ์ฑ
์ ๋ฅ๋ ฅ์ ํ์ฅํ ์ ์๋ค.
- Approach: ๋ณธ ์ฐ๊ตฌ๋ MDM(motion diffusion model)์ ํ์ฉํ ์๋ํ๋ motion ์์ฑ๊ณผ multimodal agent ๊ธฐ๋ฐ ์คํจ ๋ถ์์ ๊ฒฐํฉํ ํ์ ๋ฃจํ ๋ฐ๋ณต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. 5๊ฐ ๋๋ฉ์ธ(๊ฒฉํฌ๊ธฐ, ๋์ค, ์ ํฌ, ์คํฌ์ธ , ์ฒด์กฐ)์ ๊ฑธ์น ์๋ฏธ๋ก ์ ๋ถ๋ฅ ์ฒด๊ณ์ ๋์ด๋ ์ถ(๊ธฐ๋ณธ ๋์, ์กฐํฉ ๋์, ๊ธฐ์ ์ธ๋ถ์ฌํญ, ์๋/๋ฆฌ๋ฌ)์ ์ ์ํ์ฌ ๋์ด๋๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ฆ๊ฐ์ํจ๋ค.
Achievement
Figure 1. Overview of the CLAIMS pipeline: a closed-loop system that refines prompts from a 5-domain library (martial ar
- ๋ฐ์ดํฐ ํจ์จ์ฑ: AMASS ๋ฐ์ดํฐ์
ํฌ๊ธฐ์ ์ฝ 1/10 ์์ค(์ฝ 400๊ฐ ํ์ต ์ํ์ค)๋ง์ผ๋ก๋ ํ
์คํธ ์
(2201 ํด๋ฆฝ)์์ ๊ธฐ์ค์ ๋๋น ํ๊ท ์คํจ์จ์ 45% ๊ฐ์์์ผฐ๋ค.
- ํ์ ๋ฃจํ ํ๋ ์์ํฌ: ์ ์ด ์ ์ฑ
์ ํ์ฌ ๋ฅ๋ ฅ ์์ค์ ๋ฐ๋ผ ๋์ ์ผ๋ก ๋ฐ์ดํฐ์ ๋์ด๋๋ฅผ ์กฐ์ ํ์ฌ ์ ์ฑ
์ด ์๋์ ๋์ด๋ ํ๊ณ๋ฅผ ์ด๊ณผํ ์ ์๋๋ก ํ๋ค.
- ๋ค์ค ๋๋ฉ์ธ ์ปค๋ฒ๋ฆฌ์ง: ๊ฒฉํฌ์ , ๋์ค, ์ ํฌ, ์คํฌ์ธ , ์ฒด์กฐ 5๊ฐ ๋๋ฉ์ธ์ ๊ฑธ์น ์๋ฏธ๋ก ์ ํ๊ทธ์ ๋ช
์์ ๋์ด๋ ๊ณ์ธตํ๋ฅผ ๊ฐ์ถ ํ์ฅ์ฑ ์๋ ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๋ค.
- ์ผ๋ฐํ ๋ฅ๋ ฅ: AIST++, Motion-X/Kungfu, EMDB, Video-Convert ๋ฑ ๋ค์ํ ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ, ๋ค์ํ tracker์ ๋ํ ์ผ๊ด๋ ๊ฐ์ ์ ์
์ฆํ๋ค.
How
- ์๋ฏธ๋ก ์ ๋ถ๋ฅ ์ฒด๊ณ ์ ์: 5๊ฐ ๋๋ฉ์ธ๊ณผ 4๊ฐ ์ถ(๊ธฐ๋ณธ ๋์, ์กฐํฉ ๋์, ์ธ๋ถ ๊ธฐ์ , ์๋/๋ฆฌ๋ฌ)์ผ๋ก ์ ๋ฌธ์ ๋์ด๋๋ฅผ ํ์ํํ๊ณ ํ
ํ๋ฆฟ ๊ธฐ๋ฐ ํ๋กฌํํธ ์์ฑ
- MDM ๊ธฐ๋ฐ ๋์ ์์ฑ: ์ฌ์ ํ์ต๋ text-conditioned motion diffusion model์ ํ์ฉํ์ฌ ํ
ํ๋ฆฟํ๋ ์ก์
ํ๋กฌํํธ๋ก๋ถํฐ ๊ณ ํ์ง ๋์ ์์ฑ
- ๋ค๋จ๊ณ ํํฐ๋ง: Physics-based ๊ฒ์ฆ ๋ฐ VLM(vision language model) ํผ๋๋ฐฑ์ ๊ฒฐํฉํ multimodal ๊ฒ์ฌ๋ก ์์ฑ ๋์์ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ๊ณผ ์๋ฏธ๋ก ์ ์ ํฉ์ฑ ๋ณด์ฅ
- ๋ฐ๋ณต์ ์ ์ฑ
์ต์ ํ: ๊ฐํํ์ต์ ํตํด ์์ฑ๋ ๋์์ผ๋ก ์ ์ด ์ ์ฑ
ํ์ต ํ ์คํจ ๋ถ์์ ํตํด ๋ค์ ๋ฐ๋ณต์์ ๋ ์ด๋ ค์ด ๋์ ์์ฑ
- ๊ฒฝ์์ ๋ฐ๋ณต ์ ์ฐจ: ์ ์ด ์ ์ฑ
๊ณผ ๋์ ํฉ์ฑ ๊ฐ์ ๊ฒ์ํ ๊ฒฝ์ ์ค์ ์ผ๋ก ๋์ด๋๋ฅผ ์ ์ง์ ์ผ๋ก ํ๋
Originality
- ๋์ ๋์ด๋ ์ ์: ๊ธฐ์กด ์ ์ ๋ฐ์ดํฐ์
๋ถํฌ์์ ๋ฒ์ด๋ ์ ์ด ์ ์ฑ
์ ๋ฅ๋ ฅ ์์ค์ ๋ฐ๋ผ ์ค์๊ฐ์ผ๋ก ๋ฐ์ดํฐ ๋์ด๋๋ฅผ ์กฐ์ ํ๋ ํ์ ๋ฃจํ ๋ฉ์ปค๋์ฆ์ ์ด ๋ถ์ผ์์ ํ์ ์ ์ด๋ค.
- ์ฒด๊ณ์ ๋์ด๋ ํ์ํ: ๊ธฐ๋ณธ ๋์, ์กฐํฉ ๋์, ์ธ๋ถ ๊ธฐ์ , ์๊ฐ ๊ตฌ์กฐ์ 4์ถ์ ํตํ ๋์ด๋ ์ ์๋ ์ด์ ์ฐ๊ตฌ์์ ๋ณด์ง ๋ชปํ ํ์์ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ค.
- ๋ค๋ชจ๋ฌ ํ๊ฐ ๋ฃจํ: Physics metric๊ณผ VLM ํผ๋๋ฐฑ์ ๊ฒฐํฉํ์ฌ ๋ค์ฐจ์์ ์ผ๋ก ๋์์ ํ์ง๊ณผ ๋์ด๋๋ฅผ ํ๊ฐํ๋ ์ ๊ทผ์ ๊ธฐ์กด ๋จ์ผ ํ๊ฐ ๊ธฐ์ค(PARC ๋ฑ)์ ๋์ด์ ๋ค.
- ํจ์จ์ฑ๊ณผ ํ์ฅ์ฑ: ํ์ต ๊ณ์ฐ๋์ ์ ์ด ์ ์ฑ
์ต์ ํ์๋ง ํ์ํ๊ณ ๋๋จธ์ง ๊ตฌ์ฑ์์๋ ํ์ต-๋ฌด๋ฃ(training-free)๋ก ๊ตฌ์ฑํ์ฌ ๋ค์ํ tracker์ ์ผ๋ฐํ ๊ฐ๋ฅํ ์ ์ด ๋
๋ฆฝ์ ํ๋ ์์ํฌ๋ฅผ ์คํํ๋ค.
Limitation & Further Study
- MDM์ ์ฌ์ ํ์ต ๋ถํฌ ์์กด์ฑ: ๋ณธ ๋ฐฉ๋ฒ๋ ์ฌ์ ํ HumanML3D ๊ธฐ๋ฐ ์ฌ์ ํ์ต MDM์ ์์กดํ๋ฏ๋ก, ์์ฑ ๋์์ ์ฐฝ์์ฑ์ ์ ํ์ต ๋ถํฌ์ ์ ์ฝ์ ์์ ํ ๋ฒ์ด๋ ์ ์๋ค.
- ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ํ๊ฐ์ ํ๊ณ: Physics-based ๊ฒ์ฆ๊ณผ VLM ํผ๋๋ฐฑ์ด ๋ชจ๋ ๊ณ ๋์ด๋ ๋์์ ์ค์ ์คํ ๊ฐ๋ฅ์ฑ์ ์๋ฒฝํ๊ฒ ๋ณด์ฅํ์ง ๋ชปํ ์ ์์ผ๋ฉฐ, ์ค์ mocap ๋ฐ์ดํฐ์์ ์์ธํ ๋น๊ต ๋ถ์์ด ๋ถ์กฑํ๋ค.
- ๋๋ฉ์ธ ์ ํ์ ์์์ฑ: 5๊ฐ ๋๋ฉ์ธ ์ ํ ๋ฐ ๊ฐ ๋๋ฉ์ธ ๋ด ๋์ด๋ ์ถ์ ์ ์๊ฐ ์ ๋ฌธ๊ฐ ์๊ฒฌ์ ๊ธฐ๋ฐํ๊ณ ์์ด, ๋ค๋ฅธ ๋๋ฉ์ธ(์: ์ถค์ ํน์ ์คํ์ผ)์ผ๋ก์ ํ์ฅ์ฑ์ ๋ํ ๋
ผ์ ํ์.
- ๋จ์ผ ์์ tracker ์ค์ฌ: ๋ณธ ์ฐ๊ตฌ๋ PHC ๋จ์ผ-์์ tracker์ ์ฃผ๋ก ์ง์คํ๊ณ ์์ผ๋ฉฐ, ๋ ๋ณต์กํ ๋ฉํฐ-ํ์คํฌ ์ ์ด ์ ์ฑ
์ด๋ end-to-end ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ์ ๋น๊ต๊ฐ ์ ํ์ ์ด๋ค.
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋์ prompting ์ ๋ต์ผ๋ก MDM ์์ฒด์ ๊ณ ๋์ด๋ ๋์ ์์ฑ ๋ฅ๋ ฅ ํฅ์, (2) sim-to-real ์ ์ด ํ์ต์ ํตํ ์ค์ ๋ก๋ด ๊ตฌํ ๊ฒ์ฆ, (3) ๋ฉํฐ-๋๋ฉ์ธ ์ ์ฑ
ํตํฉ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ, (4) ์ธ์ฒด ํด๋ถํ์ ์ ์ฝ ์กฐ๊ฑด์ ๋์ฑ ๋ช
์์ ์ผ๋ก ๋ฐ์ํ ํํฐ๋ง ๊ธฐ์ค ๊ฐํ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๋์ ๋์ด๋ ์ ์์ ํตํด ํด๋จธ๋
ธ์ด๋ ์ ์ด์ ๊ณ ์ง์ ์ธ ๋ฌธ์ (๊ณ ์ ๋ฐ์ดํฐ ๋ถํฌ, ๋์ ๋ฐ์ดํฐ ์์ง ๋น์ฉ)๋ฅผ ํ์ ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ํ์ ๋ฃจํ ํ๋ ์์ํฌ์ ๊ฐ๋
๊ณผ ์ค์ ๊ตฌํ์ด ๋ชจ๋ ์ฐ์ํ๋ค. ํนํ AMASS์ 1/10 ๋ฐ์ดํฐ๋ก 45% ์คํจ์จ ๊ฐ์๋ผ๋ ์ค์ง์ ์ฑ๊ณผ์ ๋ค์ํ ๋ฒค์น๋งํฌ์์์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ด ๋ถ์ผ์ ์๋นํ ์ค์ฉ์ ๊ธฐ์ฌ๋ฅผ ์ ๊ณตํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์