CLoSD: Closing the Loop between Simulation and Diffusion for multi-task character control
๐ง Audio Overview ์์ฑ
์ ์ : Guy Tevet, Sigal Raab, Setareh Cohan, Daniele Reda, Zhengyi Luo, Xue Bin Peng, Amit H. Bermano, Michiel van de Panne | ๋ ์ง : 2024-10-04 | URL : https://arxiv.org/abs/2410.03441 📄 PDF
Essence
Figure 1: CLoSD is a multi-task physics-based RL controller, capable of performing object inter-
CLoSD๋ motion diffusion ๋ชจ๋ธ๊ณผ RL ๊ธฐ๋ฐ physics ์๋ฎฌ๋ ์ด์
์ ํ์ ๋ฃจํ๋ก ์ฐ๊ฒฐํ์ฌ, ํ
์คํธ ํ๋กฌํํธ์ ํ๊ฒ ์์น๋ก ์ ์ด๋๋ ๋ค์ค ํ์คํฌ ์บ๋ฆญํฐ ์ ์ด๋ฅผ ์คํํ๋ค.
Motivation
Known : Motion diffusion ๋ชจ๋ธ์ ๋ค์ํ ๋ชจ์
์์ฑ์ด ๊ฐ๋ฅํ๊ณ ํ
์คํธ ์ ์ด๊ฐ ์ง๊ด์ ์ด์ง๋ง, RL ๊ธฐ๋ฐ physics ์ ์ด๋ ๋ฌผ๋ฆฌ์ ๊ทธ๋ด๋ฏ์ฑ๊ณผ ํ๊ฒฝ ์ํธ์์ฉ์ ์ ๊ณตํ๋ค.
Gap : ๊ธฐ์กด RL ๋ฐฉ๋ฒ๋ค์ ๊ฐ๋ณ ํ์คํฌ๋ง๋ค ๋ณ๋์ ์ ์ฑ
๊ณผ ๋ณด์ ์์ง๋์ด๋ง์ด ํ์ํ์ผ๋ฉฐ, ํฐ ๊ท๋ชจ์ human motion ๋ฐ์ดํฐ์
์ ํ์ฉํ๊ธฐ ์ด๋ ค์ ๋ค.
Why : ํ
์คํธ ์ ์ด์ ๋ฌผ๋ฆฌ์ ๊ทธ๋ด๋ฏ์ฑ, ๊ทธ๋ฆฌ๊ณ ํ๊ฒฝ ์ํธ์์ฉ์ ๋ชจ๋ ์ง์ํ๋ ํตํฉ ์์คํ
์ ์ค์๊ฐ ์ธํฐ๋ ํฐ๋ธ ์บ๋ฆญํฐ ์ ๋๋ฉ์ด์
์ ์ํด ์ค์ํ๋ค.
Approach : Diffusion Planner (DiP)๋ผ๋ autoregressive diffusion ๋ชจ๋ธ์ motion tracker์ ํ์ ๋ฃจํ๋ก ์ฐ๊ฒฐํ๋, DiP๋ ํ
์คํธ์ ํ๊ฒ ์์น๋ก ์กฐ๊ฑดํ๋ ๋น ๋ฅธ ๋ชจ์
๊ณํ์ ์์ฑํ๊ณ , ์ถ์ ์ปจํธ๋กค๋ฌ๊ฐ ์ด๋ฅผ ์คํํ๋ฉฐ ์๋ฎฌ๋ ์ด์
ํผ๋๋ฐฑ์ ๋ค์ ์ ๊ณตํ๋ค.
Achievement
Figure 1: CLoSD is a multi-task physics-based RL controller, capable of performing object inter-
๋ค์ค ํ์คํฌ ํตํฉ ์ ์ด : ๋ชฉํ ์ง์ ๋๋ฌ, ์/๋ฐ๋ก ๊ฐ์ฒด ํ๊ฒฉ, ์๊ธฐ/์ผ์ด๋๊ธฐ ๋ฑ ๋ค์ํ ํ์คํฌ๋ฅผ ๋จ์ผ ์ ์ฑ
์ผ๋ก ์ํ
์ค์๊ฐ ์ฑ๋ฅ : 40ํ๋ ์ ๊ณํ ์์ฑ์ 3,500 fps(175๋ฐฐ ์ค์๊ฐ)๋ก ๋ฌ์ฑํ์ฌ ๋ํํ ์ ์ด ๊ฐ๋ฅ
์ฐ์ํ ์ฑ๋ฅ : ๊ธฐ์กด text-to-motion ์ปจํธ๋กค๋ฌ ๋ฐ ๋ค์ค ํ์คํฌ SOTA ๋ฐฉ๋ฒ ๋๋น ์ฑ๋ฅ ํฅ์
ํ๊ฒฝ ์ํธ์์ฉ : physics ์๋ฎฌ๋ ์ด์
์ ํตํด ๊ฐ์ฒด ์ํธ์์ฉ ์ non-physical ์ํฐํฉํธ(๋ถ๋, ๋ฏธ๋๋ฌ์ง, ์นจํฌ) ์๋ ๋ณด์
How
Figure 2: CLoSD Overview. (Left) DiP is a rapid auto-regressive diffusion model conditioned on
Diffusion Planner (DiP)๋ฅผ autoregressive ๋ฐฉ์์ผ๋ก ์ค๊ณํ์ฌ ๋จ 10 diffusion steps๋ก ๊ณ ํ์ง ๋ชจ์
์์ฑ
MDM์ HumanML3D ํํ๊ณผ PHC์ global position/velocity ํํ ๊ฐ ๋ณํ ํจ์ R2G ๊ตฌํ
PHC ๊ธฐ๋ฐ motion tracking policy๋ฅผ DiP์ in-the-loop ๋ฐฉ์์ผ๋ก ํ์ธํ๋ํ์ฌ ํ์ ๋ฃจํ ์ํ ์์ด์ ๋ํ ๊ฒฌ๊ณ ์ฑ ํ๋ณด
ํ
์คํธ ํ๋กฌํํธ์ ํ๊ฒ ์์น(์: ์/๋ฐ ํ๊ฒ)๋ฅผ ๋ชจ๋ ์กฐ๊ฑด์ผ๋ก ์ฌ์ฉํ์ฌ ์ธ๋ฐํ ์ ์ด ๊ตฌํ
์๋ฎฌ๋ ์ด์
ํผ๋๋ฐฑ์ DiP์ autoregressiveํ๊ฒ ์ ๋ฌํ์ฌ ํ๊ฒฝ ์ธ์ ํ๋ ์์ฑ
Originality
Motion diffusion์ offline ์์ฑ ๋ชจ๋ธ์ด ์๋ on-the-fly universal planner ๋ก ํ์ฉํ๋ ์๋ก์ด ํจ๋ฌ๋ค์
Diffusion ๊ธฐ๋ฐ ๊ณํ๊ณผ RL ๊ธฐ๋ฐ ์ถ์ ์คํ์ ํ์ ๋ฃจํ๋ก ์ฐ๊ฒฐํ ์ต์ด์ ์๋
Autoregressive diffusion์ผ๋ก ์ค์๊ฐ ์ธํฐ๋ ํฐ๋ธ ํ
์คํธ ์ ์ด ๋ฌ์ฑ
๋จ์ผ ์ ์ฑ
์ผ๋ก ๋ค์ค ํ์คํฌ(goal-reaching, object interaction, striking)๋ฅผ ํตํฉ ์ฒ๋ฆฌ
Limitation & Further Study
๋
ผ๋ฌธ์์ ์ ๋์ ํ๊ฐ ์งํ๋ ๋น๊ต ์คํ ์์ธ ๊ฒฐ๊ณผ๊ฐ ๋ฐ์ท ๋ถ๋ถ์ ๋ถ์กฑํจ
Diffusion ๋ชจ๋ธ์ hallucination ๋๋ ๋ถ์ ํํ ๊ณํ์ ๋ํ ๋์ ๋ฉ์ปค๋์ฆ ์ค๋ช
๋ถ์กฑ
๋ณต์กํ ๋ค์ค ๊ฐ์ฒด ์ํธ์์ฉ์ด๋ ๋งค์ฐ ๋์ ์ธ ํ๊ฒฝ์์์ ์ฑ๋ฅ ํ๊ณ ๋ฏธ์ธ๊ธ
DiP์ ํ์ต ๋ฐ์ดํฐ์
, ํ์ธํ๋ ์ ๋ต, ์๋ ด ํน์ฑ ๋ฑ ๊ตฌ์ฒด์ ํ์ต ์ธ๋ถ์ฌํญ ๋ฏธ์ ๊ณต
ํ์ ์ฐ๊ตฌ: ๋ ๋ณต์กํ ์ธ๊ฐ-ํ๊ฒฝ ์ํธ์์ฉ, ๋ฉํฐ ์์ด์ ํธ ์ ์ด, ์ฌ์ฉ์ ์ฐ๊ตฌ๋ฅผ ํตํ ํ๊ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 3/5 Overall: 4/5
์ดํ : CLoSD๋ diffusion ๊ธฐ๋ฐ ๊ณํ๊ณผ RL ๊ธฐ๋ฐ ์ถ์ ์ ํ์ ๋ฃจํ๋ก ํตํฉํ์ฌ ํ
์คํธ ์ ์ด์ ๋ฌผ๋ฆฌ์ ๊ทธ๋ด๋ฏ์ฑ์ ๋์์ ๋ฌ์ฑํ๋ ์ฐฝ์์ ์ธ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ฉฐ, ์ค์๊ฐ ๋ค์ค ํ์คํฌ ์บ๋ฆญํฐ ์ ์ด์ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com