PRIMAL: Physically Reactive and Interactive Motor Model for Avatar Learning
๐ง Audio Overview ์์ฑ
์ ์ : Yan Zhang, Yao Feng, Alpรกr Cseke, Nitin Saini, Nathan Bajandas, Nicolas Heron, Michael J. Black | ๋ ์ง : 2025-03-21 | URL : https://arxiv.org/abs/2503.17544 📄 PDF
Essence
Figure 1. PRIMAL is a novel generative real-time 3D character animation system that works in Unreal Engine. The avatar r
PRIMAL์ ๋ ๋จ๊ณ ํ์ต ํจ๋ฌ๋ค์์ผ๋ก ์๋ฐํ์ ๋ชจํฐ ์์คํ
์ generative motion model๋ก ๊ตฌํํ์ฌ, ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ฐ์์ฑ ์๊ณ ์ ์ด ๊ฐ๋ฅํ๋ฉฐ ์ค์๊ฐ ์ํธ์์ฉ์ด ๊ฐ๋ฅํ 3D ์บ๋ฆญํฐ ์ ๋๋ฉ์ด์
์ ์คํํ๋ค.
Motivation
Known : Text-to-motion, human-scene interaction ๋ฑ ๋ค์ํ ์กฐ๊ฑด๋ถ motion generation ๋ฐฉ๋ฒ๋ค์ด ๋ฐ์ ํ์ผ๋, ๋๋ถ๋ถ ์คํ๋ผ์ธ ๋ฐฉ์์ด๊ณ ์ค์๊ฐ ์ํธ์์ฉ์ฑ๊ณผ ๋ฌผ๋ฆฌ์ ๋ฐ์์ฑ์ด ๋ถ์กฑํ๋ค. Physics-based ๋ฐฉ๋ฒ๋ค์ ๋ฌผ๋ฆฌ์ ์ ํ์ฑ์ ์ ๊ณตํ์ง๋ง ์๋ฎฌ๋ ์ด์
๋น์ฉ์ด ํฌ๋ค.
Gap : ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๊ธด ์๊ฐ๋ motion ์์ฑ์ ์ด์ ์ ๋ง์ถฐ ์ค์๊ฐ ๋ฐ์์ฑ๊ณผ ๋์ ์ ์ด๊ฐ ์ด๋ ต๊ณ , ์งง์ ์๊ฐ ์ฒ๋์์์ ๋ฌผ๋ฆฌ ์ญํ์ ์ถฉ๋ถํ ๋ชจ๋ธ๋งํ์ง ๋ชปํ๋ค. ๋ํ ์ ํ๋ mocap ๋ฐ์ดํฐ๋ก ์ธํด ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋ฎ๋ค.
Why : Interactive avatar๋ ๊ฒ์ด๋ฐ, AR/VR, ๋น๋์ค ์์ฑ ๋ฑ ๋ค์ํ ์์ฉ๋ถ์ผ์์ ํ์์ ์ด๋ฉฐ, ์์จ์ ์ผ๋ก ์์ง์ด๋ฉด์๋ ์ธ๋ถ ์๊ทน์ ์ค์๊ฐ์ผ๋ก ๋ฐ์ํ ์ ์๋ ์์คํ
์ด ํ์ํ๋ค.
Approach : Autoregressive diffusion model์ ์ด์ฉํด 0.5์ด(15ํ๋ ์) ๋จ์์ ์งง์ motion segment๋ฅผ ํ์ตํ๋ pretrain ๋จ๊ณ์, ControlNet ๊ธฐ๋ฐ adaptor๋ก ๊ณ ์์ค ํ๋์ ํ์ตํ๋ adaptation ๋จ๊ณ์ ๋ ๋จ๊ณ ํจ๋ฌ๋ค์์ ์ ์ฉํ๋ค.
Achievement
Figure 1. PRIMAL is a novel generative real-time 3D character animation system that works in Unreal Engine. The avatar r
๋ฌผ๋ฆฌ์ ์ฌ์ค์ฑ : Physics simulation ์์ด๋ foot-ground contact ๋ฑ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๊ทธ๋ด๋ฏํ movement๋ฅผ implicitํ๊ฒ ํ์ต
์ค์๊ฐ ๋ฐ์์ฑ : Classifier-based guidance๋ฅผ ํตํด impulse, magnet ๋ฑ ๋์ ์๊ทน์ ์ค์๊ฐ ๋ฐ์
๋ฌด์ ํ ์์ฑ : Autoregressive ๊ตฌ์กฐ๋ก ์๊ฐ ์ ํ ์์ด ์ฐ์์ ์ธ motion ์์ฑ
ํจ์จ์ ์ ์ : ControlNet ๊ธฐ๋ฐ adaptor๋ก ์ ์ ๊ณ์ฐ ๋น์ฉ์ผ๋ก ์๋ก์ด task์ ์ ์ํ๊ฒ ์ ์
์ค์ ์์คํ
๊ตฌํ : Unreal Engine์์ ๋์ํ๋ ์์ ํ interactive character animation system ์คํ
How
Pretraining ๋จ๊ณ : ๋ชจ๋ mocap segment๋ฅผ 0.5์ด ๋จ์๋ก ๋ถํ ํ์ฌ unsupervised diffusion model ํ์ต - ํ์ฌ joint ์ํ์ ์๋๋ก๋ถํฐ ๋ค์ 0.5์ด motion ์์ธก
์งง์ ์๊ฐ ์ฒ๋ ์ ๋ต : 0.5์ด ๋ฒ์์์ physics๊ฐ ์ง๋ฐฐ์ ์ด๋ผ๋ ๊ฐ์ ์ผ๋ก, ๊ณผ๊ฑฐ motion ์กฐ๊ฑด์ ์ ๊ฑฐํ์ฌ semantic overfitting ๋ฐฉ์ง
์ ์ด ๋ฉ์ปค๋์ฆ : Classifier-based guidance๋ก ๋ชฉํ ์๋/๋ฐฉํฅ ๋ฌ์ฑ ๋ฐ external force ๋ฐ์ ๊ตฌํ
Adaptation ๋จ๊ณ : ControlNet ๊ธฐ๋ฐ adaptor๋ฅผ transformer์ individual block์ control embedding ์ถ๊ฐํ์ฌ spatial target reaching, few-shot action generation ์ํ
Real-time ์ถ๋ก : Autoregressive ๊ตฌ์กฐ๋ก ์ด๊ธฐ single-frame state์์ ์ฐ์์ motion ์์ฑ ๋ฐ ๋์ ์ ์ด ์ ํธ ์ ์ฉ
Originality
๋จ๊ธฐ motion modeling ์ ๋ต : Physics dominance์ 0.5์ด ์ฒ๋ ์ ์ ๋ก ๊ณผ๊ฑฐ ์กฐ๊ฑด ์ ๊ฑฐ - ๊ธฐ์กด autoregressive ๋ฐฉ์๊ณผ ๋ค๋ฅธ ํ์ ์ ์ ๊ทผ
Physics ์๋ ๋ฌผ๋ฆฌ์ฑ : Explicit physics simulation์ด๋ contact labeling ์์ด diffusion model๋ง์ผ๋ก ๋ฌผ๋ฆฌ์ ํ์ค์ฑ ๋ฌ์ฑ
๋ ๋จ๊ณ ๋ถ๋ฆฌ ํ์ต : Motor control(physics)๊ณผ behavior(semantics)๋ฅผ ๋ถ๋ฆฌํ์ฌ ๊ฐ๊ฐ ๋ค๋ฅธ ์๊ฐ ์ฒ๋๋ก ๋ชจ๋ธ๋ง
Interactive adaptor : ControlNet์ ํ์ฉํ ํจ์จ์ fine-tuning์ผ๋ก ๋ค์ํ task-specific adaptation ๊ฐ๋ฅ
Unbounded motion generation : Autoregressive ๊ตฌ์กฐ๋ก ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๊ณ ์ ๊ธธ์ด ์ ์ฝ ๊ทน๋ณต
Limitation & Further Study
0.5์ด ์ฒ๋ ๊ฐ์ ์ ์ผ๋ฐํ: ๋งค์ฐ ๋๋ฆฐ ์์ง์์ด๋ 1์ด ์ด์์ ํ์์ ์์ง์์์ ์ฑ๋ฅ ๊ฒ์ฆ ๋ถ์กฑ
Physics simulation ๋น๊ต ๋ถ์กฑ: PhysD-diff, CLoSD ๋ฑ hybrid ๋ฐฉ์๊ณผ์ ์์ธํ ์ ๋์ ๋น๊ต ๋ฏธํก
Dataset dependency: Mocap ๋ฐ์ดํฐ์ diversity์ ํ์ง์ ๋ฐ๋ฅธ ์ํฅ๋ ๋ถ์ ํ์
Control signal ์ ์ฝ: Classifier-based guidance์ ์ ํ๋ ๋ฐ ๋ณต์กํ multi-task ์ ์ด ์ํฉ์์์ ์์ ์ฑ ๊ฒ์ฆ ํ์
ํ์ ์ฐ๊ตฌ : ๋ค์ํ ์ ์ฒด ์ ํ, ์๋ฅ, ํ๊ฒฝ ๋ณ์์์์ ์ผ๋ฐํ ๊ฐ์ ; Contact-explicit model๊ณผ์ ํ์ด๋ธ๋ฆฌ๋ ๋ฐฉ์ ํ์; ๋ ๊ฐ๋ ฅํ physical plausibility ๊ฒ์ฆ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : PRIMAL์ ์งง์ ์๊ฐ ์ฒ๋์์์ physics ์ง๋ฐฐ์ฑ์ด๋ผ๋ ํต์ฐฐ๋ ฅ์ผ๋ก unsupervised diffusion model์ ํตํด ์ค์๊ฐ ๋ฐ์์ฑ๊ณผ ๋ฌผ๋ฆฌ์ ์ฌ์ค์ฑ์ ๋์์ ๋ฌ์ฑํ ํ์ ์ ์ ๊ทผ์ด๋ฉฐ, Unreal Engine ๊ตฌํ์ผ๋ก ์ค์ ์์ฉ ๊ฐ๋ฅ์ฑ์ ์
์ฆํ ํ์ํ ์ฐ๊ตฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com