SimGenHOI: Physically Realistic Whole-Body Humanoid-Object Interaction via Generative Modeling and Reinforcement Learning
์ ์: Yuhang Lin, Yijia Xie, Jiahong Xie, Yuehao Huang, Ruoyu Wang, Jiajun Lv, Yukai Ma, Xingxing Zuo | ๋ ์ง: 2025-08-18 | URL: https://arxiv.org/abs/2508.14120 📄 PDF
Essence
Figure 2: Our proposed framework uses a diffusion model for key action generation and reinforcement learning to train
SimGenHOI๋ Diffusion Transformers ๊ธฐ๋ฐ์ ์์ฑ ๋ชจ๋ธ๊ณผ ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์ ์ด-์ธ์ ์ ์ด ์ ์ฑ
์ ๊ฒฐํฉํ์ฌ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ์ค์ ์ธ ์ธ๊ฐํ ๋ก๋ด-๊ฐ์ฒด ์ํธ์์ฉ์ ์์ฑํ๋ ํตํฉ ํ๋ ์์ํฌ์ด๋ค. ์ํธ ๋ฏธ์ธ์กฐ์ ์ ๋ต์ ํตํด ์์ฑ ๋ชจ๋ธ๊ณผ ์ ์ด ์ ์ฑ
์ด ๋ฐ๋ณต์ ์ผ๋ก ์๋ก๋ฅผ ๊ฐ์ ํ์ฌ ์ฅ๊ธฐ ์กฐ์ ๊ณผ์ ์ ์ฑ๊ณต๋ฅ ์ ๋์ธ๋ค.
Motivation
- Known: ๊ธฐ์กด diffusion ๊ธฐ๋ฐ HOI ์์ฑ ๋ฐฉ๋ฒ๋ค์ ๋ค์ํ ๋์์ ์์ฑํ ์ ์์ผ๋ ์ ์ด ๋ถ๊ฐ๋ฅ, ๊ดํต, ๋ถ์์ฐ์ค๋ฌ์ด ๋์ ๊ฐ์ ๋ฌผ๋ฆฌ์ ์ธ๊ณต๋ฌผ๋ก ๊ณ ํต๋ฐ๋๋ค. ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ฌผ๋ฆฌ ์ ์ด๋ ํ์ค์ฑ์ ๋ณด์ฅํ์ง๋ง ๋จ์ํ ์ํธ์์ฉ๋ง ๊ฐ๋ฅํ๊ณ ์ฅ๊ธฐ ๊ณผ์ ๋ก ํ์ฅํ๊ธฐ ์ด๋ ต๋ค.
- Gap: ์์ฑ ๋ชจ๋ธ์ ๋ค์์ฑ๊ณผ ๋ฌผ๋ฆฌ์ ํ์ค์ฑ ์ฌ์ด์ ๊ทผ๋ณธ์ ์ธ trade-off๊ฐ ์กด์ฌํ๋ฉฐ, ํนํ ์ฅ๊ธฐ ๋์ ์ํธ์์ฉ ๊ณผ์ ์์ ์ด ๋ฌธ์ ๊ฐ ์ฌํ๋๋ค.
- Why: ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ์ค์ ์ธ ์ธ๊ฐํ ๋ก๋ด ๋์ ์์ฑ์ ์ค์ ํ๊ฒฝ์์์ ๋ก๋ด ์์
์คํ์ ์ํด ํ์์ ์ด๋ฉฐ, ๊ดํต, ๋ฐ ๋ฏธ๋๋ฌ์ง ๊ฐ์ ์ธ๊ณต๋ฌผ์ ์ ๊ฑฐํ๋ ๊ฒ์ด ์ฑ๊ณต์ ์ธ ์กฐ์์ ์ค์ํ๋ค.
- Approach: Key action ์์ธก์ ํตํ diffusion ๊ธฐ๋ฐ ์์ฑ ๋ชจ๋ธ๊ณผ ์ ์ด-์ธ์ whole-body ์ ์ด ์ ์ฑ
์ ์ค๊ณํ๊ณ , ๋ ์ปดํฌ๋ํธ๊ฐ ์๋ก๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ ํ๋ ์ํธ ๋ฏธ์ธ์กฐ์ ์ ๋ต์ ์ ์ํ๋ค.
Achievement
Figure 1: With the condition of text prompt, object geometry,
- ๋ฌผ๋ฆฌ์ ํ์ค์ฑ ํ๋ณด: DiT ๊ธฐ๋ฐ ์์ฑ ๋ชจ๋ธ๊ณผ RL ๊ธฐ๋ฐ ์ ์ด ์ ์ฑ
์ ๊ฒฐํฉ์ผ๋ก ๊ดํต, ๋ฐ ๋ฏธ๋๋ฌ์ง ๋ฑ์ ๋ฌผ๋ฆฌ์ ์ธ๊ณต๋ฌผ์ ํจ๊ณผ์ ์ผ๋ก ์ ๊ฑฐํ๊ณ ์ถ์ ์ฑ๊ณต๋ฅ ์ ํ์ ํ ํฅ์
- Key action ๊ธฐ๋ฐ ์์ฑ ํจ๋ฌ๋ค์: ๋ฐ์ง๋ ๋์ ์ํ์ค ๋์ ํ์ ์ํธ์์ฉ ๋์ญํ์ ํฌ์ฐฉํ๋ key action์ ์์ฑํ์ฌ ์์ฐ์ค๋ฝ๊ฒ ์ฅ๊ธฐ HOI ์์ฑ์ ์ง์
- ์ํธ ๋ฏธ์ธ์กฐ์ ์ ๋ต: ์์ฑ ๋ชจ๋ธ์ด ์ฑ๊ณต์ ์ผ๋ก ์ถ์ ๋ ๋์์ผ๋ก ํ์ตํ๊ณ ๊ฐ์ ๋ ์์ฑ ๋ชจ๋ธ์ด ์ ์ฑ
์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐ๋ณต์ ๊ฐ์ ๋ฉ์ปค๋์ฆ
- ํ์ฅ๋ ๊ณผ์ ๋ฒ์: ๋จ์ํ ๊ฐ์ฒด ์ด๋์ ๋์ด ๋ค์ํ ์กฐ์ ๊ณผ์ ๋ฅผ ์ง์ํ๋ contact-aware whole-body ์ ์ด ์ ์ฑ
์ค๊ณ
How
Figure 2: Our proposed framework uses a diffusion model for key action generation and reinforcement learning to train
- Diffusion Transformers ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ํ
์คํธ ํ๋กฌํํธ, ๊ฐ์ฒด ๊ธฐํํ, ํฌ์ ๊ฐ์ฒด waypoint, ์ด๊ธฐ ์ธ๊ฐํ ํฌ์ฆ๋ฅผ ์กฐ๊ฑด์ผ๋ก key action ์์ธก
- ์์ธก๋ key action์ ๋ถ๋๋ฌ์ด ๋์ ๊ถค์ ์ผ๋ก ๋ณด๊ฐํ์ฌ HOI ์ ์ฑ
์ด ์ถ์ ํ ์ ์๋ ์ฐธ์กฐ ๊ถค์ ์์ฑ
- ๊ฐํํ์ต์ผ๋ก ํ๋ จ๋ contact-aware ์ ์ด ์ ์ฑ
์ ํตํด ์์ฑ๋ ๋์์ ์ถ์ ํ๋ฉด์ ๊ดํต ๋ฐ ๋ฐ ๋ฏธ๋๋ฌ์ง ๊ฐ์ ์ธ๊ณต๋ฌผ ์์
- ์์ฑ ๋ชจ๋ธ: ์ฑ๊ณต์ ์ผ๋ก ์ถ์ ๋ ๋์์ผ๋ก ์ฌํ์ต, ์ ์ด ์ ์ฑ
: ๊ฐ์ ๋ ํ์ค์ ๋์์ผ๋ก๋ถํฐ ์ถ์ ๊ฐ๊ฑด์ฑ ํฅ์
- Isaac Gym ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ์์ ์ ์ฒด ํ๋ ์์ํฌ ํ๊ฐ ๋ฐ ๊ฒ์ฆ
Originality
- ๊ธฐ์กด diffusion ๋ชจ๋ธ๊ณผ RL ์ ์ฑ
์ ๋จ์ ์กฐํฉ์ด ์๋, ์ํธ ๋ฏธ์ธ์กฐ์ ์ ํตํ ๋ฐ๋ณต์ ๊ฐ์ ๋ฉ์ปค๋์ฆ์ ์ ์ - ์์ฑ ๋ชจ๋ธ๊ณผ ์ ์ด ์ ์ฑ
์ feedback loop ์ค๊ณ
- Dense trajectory ๋์ key action ๊ธฐ๋ฐ ์์ฑ ํจ๋ฌ๋ค์์ผ๋ก long-horizon HOI ์์ฐ์ค๋ฝ๊ฒ ์ง์ํ๋ ์๋ก์ด ์ ๊ทผ
- Contact-aware whole-body ์ ์ด ์ ์ฑ
: ๋จ์ tracking์ ๋์ด ์ ์ด ์ํ๋ฅผ ๋ช
์์ ์ผ๋ก ๊ณ ๋ คํ๋ ์ค๊ณ
- ์์ฑ ๋ชจ๋ธ ์ถ๋ ฅ์ contact probability๋ฅผ ํฌํจ์์ผ ์ ์ด ์ ์ฑ
์ด ์ ์ด ์ ๋ณด๋ฅผ ํ์ฉํ ์ ์๋๋ก ์ค๊ณ
Limitation & Further Study
- ์ค์ ๋ก๋ด ํ๋์จ์ด์์์ ๊ฒ์ฆ์ด ๋ถ์ฌํ๋ฉฐ sim-to-real gap ํด๊ฒฐ ๋ฐฉ์์ด ์ ์๋์ง ์์
- ๋ณต์กํ ์๊ฐ๋ฝ ๋จ์(finger-level) ์กฐ์์ด๋ ๋ค์ค ๊ฐ์ฒด ์ํธ์์ฉ์ผ๋ก์ ํ์ฅ์ฑ ํ๊ฐ ๋ถ์กฑ
- Key action ๊ฐ์, interpolation ๋ฐฉ์ ๋ฑ์ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ํ ๋ฏผ๊ฐ๋ ๋ถ์ ๋ฏธํก
- ์ํธ ๋ฏธ์ธ์กฐ์ ๊ณผ์ ์ ์๋ ด์ฑ ๋ณด์ฅ ๋ฐ ์ต์ ํ ์ด๋ก ์ ๋ถ์ ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ: (1) ์ค์ ๋ก๋ด์์์ ๊ฒ์ฆ ๋ฐ ๋๋ฉ์ธ ์ ์ ๊ธฐ๋ฒ, (2) ์๊ฐ๋ฝ ๋จ์ ์ ์ด์ ๋ค์ค ๊ฐ์ฒด ์๋๋ฆฌ์ค ํ์ฅ, (3) ์ํธ ๋ฏธ์ธ์กฐ์ ์ ์ด๋ก ์ ๊ธฐ์ด ๊ฐํ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์์ฑ ๋ชจ๋ธ๊ณผ ๊ฐํํ์ต์ ์ํธ ๋ณด์์ ๊ฐ์ ์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํ์ค์ ์ธ ์ฅ๊ธฐ ์ธ๊ฐํ ๋ก๋ด-๊ฐ์ฒด ์ํธ์์ฉ ์์ฑ์ด๋ผ๋ ์ค์ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์๋ค. ํนํ ์ํธ ๋ฏธ์ธ์กฐ์ ์ ๋ต๊ณผ key action ๊ธฐ๋ฐ ํจ๋ฌ๋ค์์ ๋์ ๋
์ฐฝ์ฑ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๊ด๋ฒ์ํ ์คํ์ ํตํด ๋ฐฉ๋ฒ์ ํจ๊ณผ๋ฅผ ์
์ฆํ์ผ๋ sim-to-real ๊ฒ์ฆ์ด ๋ถ์กฑํ ์ ์ด ์์ฝ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์