GENMO: A GENeralist Model for Human MOtion
๐ง Audio Overview ์์ฑ
์ ์ : Jiefeng Li, Jinkun Cao, Haotian Zhang, Davis Rempe, Jan Kautz, Umar Iqbal, Ye Yuan | ๋ ์ง : 2025-05-02 | URL : https://arxiv.org/abs/2505.01425 📄 PDF
Essence
Figure 1. GENMO unifies human motion estimation and generation in a single framework and supports diverse conditioning s
๋ณธ ๋
ผ๋ฌธ์ ์ธ๊ฐ ๋ชจ์
์์ฑ๊ณผ ์ถ์ ์ ๋จ์ผ diffusion ๊ธฐ๋ฐ ํ๋ ์์ํฌ์์ ํตํฉํ๋ GENMO๋ฅผ ์ ์ํ๋ค. ๋ชจ์
์ถ์ ์ ์ ์ฝ์ด ์๋ ๋ชจ์
์์ฑ์ผ๋ก ์ฌ์ ์ํ๊ณ , dual-mode ํ์ต ํจ๋ฌ๋ค์์ ํตํด ์ ํํ global motion estimation๊ณผ ๋ค์ํ ๋ชจ์
์์ฑ์ ๋์์ ๋ฌ์ฑํ๋ค.
Motivation
Known : ์ ํต์ ์ผ๋ก ๋ชจ์
์์ฑ๊ณผ ์ถ์ ์ ๋ณ๊ฐ์ ์ ๋ฌธํ๋ ๋ชจ๋ธ๋ก ์ฒ๋ฆฌ๋์ด ์๊ณ , ์ต๊ทผ ์ฐ๊ตฌ๋ค์ ์์ฑ ๋ชจ๋ธ์ ์ฌ์ (generative priors)์ด ์ด๋ ค์ด ์ถ์ ์๋๋ฆฌ์ค์์ ์ ์ฉํจ์ ๋ณด์๋ค. ๋ค์ํ ์กฐ๊ฑด ์ ํธ(text, audio, video, keypoints)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ชจ์
์์ฑ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ ์งํ๋๊ณ ์๋ค.
Gap : ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์์ฑ๊ณผ ์ถ์ ์ ๋ณ๋ ๋ชจ๋ธ๋ก ๊ด๋ฆฌํ์ฌ ์ง์ ์ ์ด ๊ธฐํ๋ฅผ ๋์น๊ณ ์์ผ๋ฉฐ, ๋ค์ค ๋ชจ๋ฌ ์กฐ๊ฑด์ ํตํฉํ๋ฉด์๋ ๊ฐ๋ณ ๊ธธ์ด ๋ชจ์
์ ์ ํํ๊ณ ์ ์ฐํ๊ฒ ์ฒ๋ฆฌํ๋ ๋จ์ผ ํตํฉ ํ๋ ์์ํฌ๊ฐ ๋ถ์ฌํ๋ค.
Why : ์ธ๊ฐ ๋ชจ์
๋ชจ๋ธ๋ง์์ ์์ฑ๊ณผ ์ถ์ ์ ํตํฉ์ ์ค์ ์ ํ๋ฆฌ์ผ์ด์
(๊ฒ์, ์ ๋๋ฉ์ด์
, 3D ์ฝํ
์ธ ์์ฑ)์์ ํ์๋ก ํ๋ ์ ๋ฐ์ฑ๊ณผ ์ ์ฐ์ฑ์ ๋์์ ๋ฌ์ฑํ๊ธฐ ์ํด ์ค์ํ๋ฉฐ, ์ด ๋ ํ์คํฌ ๊ฐ์ ์ํธ ์ด๋(synergistic benefits)์ ํ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
Approach : Diffusion ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก dual-mode ํ์ต ํจ๋ฌ๋ค์์ ๊ตฌ์ฑํ๋ค: (1) estimation mode์์ zero-initialized noise์ ์ต๋ diffusion timestep์ ์ฌ์ฉํ์ฌ MLE ์ถ์ , (2) generation mode์์ ์ ํต์ ์ธ diffusion ํ์ต์ผ๋ก ์์ฑ ๋ถํฌ ํ์ต. ์ถ๊ฐ์ ์ผ๋ก estimation-guided training objective๋ฅผ ๋์
ํ์ฌ in-the-wild 2D ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ค.
Achievement
Figure 1. GENMO unifies human motion estimation and generation in a single framework and supports diverse conditioning s
ํตํฉ ํ๋ ์์ํฌ์ ๊ตฌํ : ์์ฑ๊ณผ ์ถ์ ์ ๋จ์ผ ๋ชจ๋ธ์์ ํตํฉํ์ฌ ์ฌ๋ฌ ๋ชจ์
ํ์คํฌ์์ SOTA ์ฑ๋ฅ ๋ฌ์ฑ (global motion estimation, local motion estimation, music-to-dance generation)
์ ์ฐํ ์ํคํ
์ฒ : ๊ฐ๋ณ ๊ธธ์ด ๋ชจ์
๊ณผ ์์์ ์กฐํฉ์ ๋ค์ค ๋ชจ๋ฌ ์กฐ๊ฑด(text, audio, video, keypoints, keyframes)์ ๋จ์ผ feedforward diffusion pass์์ ์ฒ๋ฆฌ
์ํธ ์ด๋ ์
์ฆ : ์์ฑ ์ฌ์ ์ด ํ์(occlusion) ๋ฑ ์ด๋ ค์ด ์ถ์ ์กฐ๊ฑด์์ ์ฑ๋ฅ ํฅ์, ๋ค์ํ ๋น๋์ค ๋ฐ์ดํฐ๊ฐ ์์ฑ ํํ์ฑ ๊ฐ์
ํจ์จ์ ์ธ ๋ฐ์ดํฐ ํ์ฉ : in-the-wild 2D ์ด๋
ธํ
์ด์
๋น๋์ค๋ฅผ ์ง์ ํ์ฉํ์ฌ 3D ์ฌ๊ตฌ์ฑ ์์ด ๋ค์์ฑ ํฅ์
How
Figure 1. GENMO unifies human motion estimation and generation in a single framework and supports diverse conditioning s
Diffusion ๋ชจ๋ธ์ dual-mode ํ์ต ํจ๋ฌ๋ค์ ๊ตฌํ: estimation mode๋ noisy motion์ zero-initialized noise์์ ์์ํ์ฌ ์กฐ๊ฑด ์ ํธ์ ๊ธฐ๋ฐํ MLE ํ์ต
Estimation-guided training objective ๋์
์ผ๋ก 2D ๋น๋์ค ์ด๋
ธํ
์ด์
๊ณผ text ์ค๋ช
์ ํ์ฉํ ํ์ต
Multi-text attention๊ณผ condition mask๋ฅผ ํตํด ์๋ก ๋ค๋ฅธ ์๊ฐ ๊ตฌ๊ฐ์ ์์์ ์กฐํฉ ์กฐ๊ฑด ์ฒ๋ฆฌ
๊ฐ๋ณ ๊ธธ์ด ๋ชจ์
์ํ์ค ์ฒ๋ฆฌ ๊ฐ๋ฅํ ์ํคํ
์ฒ ์ค๊ณ๋ก post-processing ๋จ๊ณ ์ ๊ฑฐ
Originality
๋ชจ์
์ถ์ ์ ์ ์ฝ์ด ์๋ ๋ชจ์
์์ฑ์ผ๋ก ์ฌ์ ์ํ๋ ์๋ก์ด ๊ด์ ์ ์
Dual-mode training paradigm์ ํตํด regression๊ณผ diffusion์ ์๋์ง ํ์
Estimation-guided training objective๋ก in-the-wild ๋น๋์ค ์ง์ ํ์ฉ, ๊ธฐ์กด์ noisy 3D ์ฌ๊ตฌ์ฑ ๋ฐฉ์ ๊ฐ์
๊ฐ๋ณ ๊ธธ์ด ๋ชจ์
๊ณผ ๋ณต์ ๋ชจ๋ฌ ์กฐ๊ฑด์ ํตํฉ ์ฒ๋ฆฌ ๋ฉ์ปค๋์ฆ
Limitation & Further Study
์ธ๋ถ ์ ๋ณด ๋ถ์กฑ : ๋ณธ๋ฌธ ๋ฐ์ท๋ณธ์ด ์ ํ์ ์ด์ด์ ์ ๋์ ์คํ ๊ฒฐ๊ณผ, ๋น๊ต ๋ฐฉ๋ฒ(baselines), ๊ตฌ์ฒด์ ์ฑ๋ฅ ์์น์ ๋ํ ์ ๋ณด ๋ถ์ฌ
๊ณ์ฐ ํจ์จ์ฑ : Diffusion ๊ธฐ๋ฐ ์ ๊ทผ์ ๊ณ์ฐ ๋น์ฉ์ ๋ํ ๋
ผ์ ๋ถ์กฑ, ๋ค์ค ๋ชจ๋ฌ ์กฐ๊ฑด ์ฒ๋ฆฌ ์ inference ์๊ฐ ๋ถ์ ๋ฏธํก
์ผ๋ฐํ ๋ฅ๋ ฅ : ํ์ต ๋ฐ์ดํฐ์ ๊ตฌ์ฑ, ๋ฐ์ดํฐ์
ํฌ๊ธฐ, ๋ค์ํ ๋ชจ์
์นดํ
๊ณ ๋ฆฌ์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ํ๊ฐ ํ์
ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ : ๋ ๋ณต์กํ ๋ค์ค ์ธ๋ฌผ ๋ชจ์
, ํน์ํ ๋์ ์นดํ
๊ณ ๋ฆฌ, ์ค์๊ฐ ์ ํ๋ฆฌ์ผ์ด์
์ผ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ ํ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : ๋ณธ ๋
ผ๋ฌธ์ ์ธ๊ฐ ๋ชจ์
์์ฑ๊ณผ ์ถ์ ์ ํตํฉํ๋ ์๋ก์ด ๊ด์ ๊ณผ ์ค์ฉ์ ์ธ ์๋ฃจ์
์ ์ ์ํ๋ ๊ฐ๋ ฅํ ์ฐ๊ตฌ์ด๋ค. Dual-mode training paradigm๊ณผ estimation-guided objective๋ ์ฐฝ์์ ์ด๋ฉฐ, ๋ค์ํ ์กฐ๊ฑด ์ ํธ์ ์ ์ฐํ ์ฒ๋ฆฌ๋ ์ค์ ์ ํ๋ฆฌ์ผ์ด์
์์ ๋์ ๊ฐ์น๋ฅผ ๊ฐ์ง๋ค. ๋ค๋ง ์์ธํ ์ ๋์ ํ๊ฐ์ ๊ณ์ฐ ํจ์จ์ฑ ๋ถ์์ ๊ฐํ๊ฐ ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com