Efficient and Scalable Monocular Human-Object Interaction Motion Reconstruction
์ ์: Boran Wen, Ye Lu, Sirui Wang, Keyan Wan, Jiahong Zhou, Junxuan Liang, Xinpeng Liu, Bang Xiao, Ruiyang Liu, Yong-Lu Li | ๋ ์ง: 2025-11-30 | URL: https://arxiv.org/abs/2512.00960 📄 PDF
Essence
Fig. 1: Unlike prior works limited by inaccurate pose/depth alignment or non-scalable
๋จ์ ๋น๋์ค์์ 4D ์ธ๊ฐ-๋ฌผ์ฒด ์ํธ์์ฉ(HOI) ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์ถ์ถํ๊ธฐ ์ํด sparse contact annotation paradigm๊ณผ human-in-the-loop ๋ฐ์ดํฐ ์์ง์ ์ ์ํ๊ณ , 4DHOISolver ์ต์ ํ ํ๋ ์์ํฌ๋ฅผ ํตํด ์๊ณต๊ฐ์ ์ผ๋ก ์ผ๊ด์ฑ ์๋ ์ฌ๊ตฌ์ฑ์ ์ํํ๋ค.
Motivation
- Known: ๊ธฐ์กด ๋ค์ค ์ผ์ ๊ธฐ๋ฐ HOI ์บก์ฒ ์์คํ
(BEHAVE ๋ฑ)์ ๋์ ์ ๋ฐ๋๋ฅผ ์ ๊ณตํ์ง๋ง ๋น์ฉ๊ณผ ํ์ฅ์ฑ ๋ฌธ์ ๊ฐ ์์ผ๋ฉฐ, ๋จ์ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค(Open3DHOI, PICO)์ ๋ฌผ๋ฆฌ์ ์ ํ์ฑ๊ณผ ์๊ฐ์ ์ผ๊ด์ฑ ๋ถ์ฌ ๋ฌธ์ ๊ฐ ์๋ค.
- Gap: ๋จ์ ๋์์์์ ์ ํํ๊ณ ํ์ฅ ๊ฐ๋ฅํ 4D HOI ๋ฐ์ดํฐ ์ถ์ถ์ด ๋ฏธํด๊ฒฐ ๊ณผ์ ์ด๋ฉฐ, ๊ธฐ์กด annotation ์ ๋ต์ ๋น๋์ค ์ํ์ค์์ ํ๋ ์ ๊ฐ ์๊ณต๊ฐ์ ์ผ๊ด์ฑ์ ๊ฐ์ ํ๊ธฐ ์ด๋ ต๋ค.
- Why: ๋ก๋ด์ด ๋ค์ํ ์ค์ ํ๊ฒฝ์์ ๊ฒฌ๊ณ ํ๊ฒ ์๋ํ๋ ค๋ฉด ๋๊ท๋ชจ HOI ๋ฐ์ดํฐ๊ฐ ํ์์ด๊ณ , ์ธํฐ๋ท ๋์์์ ๊ฑฐ์ ๋ฌดํ์ ๋ค์ํ ํ๋, ๋ฌผ์ฒด, ํ๊ฒฝ์ ํฌํจํ๋ฏ๋ก ์ด๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ฉํ ์ ์๋ค๋ฉด ๋ก๋ด ํ์ต์ ํ์ ์ ์ํฅ์ ๋ฏธ์น ์ ์๋ค.
- Approach: ์๊ฐ์ ์ผ๋ก ๋ถ๋ณ์ธ interaction point ์์ ๋ํ lightweight annotation๊ณผ multi-modal ์ ์ด ์์ธก๊ธฐ InterPoint๋ฅผ ํตํ human-in-the-loop ๋ฐ์ดํฐ ์์ง์ผ๋ก annotation ๋น์ฉ์ ๊ฐ์์ํค๊ณ , ๋ ๋จ๊ณ์ 4DHOISolver ์ต์ ํ ํ๋ ์์ํฌ(๊ธฐํ ์ ๋ ฌ + ๋ฌผ๋ฆฌ์ ํ๋น์ฑ ์ ์ )๋ก ๊ณ ํ์ง ์ฌ๊ตฌ์ฑ์ ๋ฌ์ฑํ๋ค.
Achievement
- InterPoint ์์ธก๊ธฐ: ์๋์ผ๋ก ์ธ๊ฐ-๋ฌผ์ฒด ์ ์ด ์์ ์ ์ํ๊ณ ๋ฐ์ดํฐ ํผ๋๋ฐฑ ๋ฃจํ๋ฅผ ํตํด ์ ์ง์ ์ผ๋ก ๊ฐ์ ๋๋ human-in-the-loop ๋ฐ์ดํฐ ์์ง ๊ฐ๋ฐ
- 4DHOISolver ํ๋ ์์ํฌ: sparse contact point annotation์ผ๋ก ์ ์ฝ๋ ๋ ๋จ๊ณ ์ต์ ํ(least-squares ๊ธฐํ ์ ๋ ฌ + gradient ๊ธฐ๋ฐ ๋ฌผ๋ฆฌ ์ ์ )๋ฅผ ํตํด ์๊ณต๊ฐ์ ์ผ๋ก ์ผ๊ด์ฑ ์๋ ๊ณ ํ์ง 4D HOI ์ฌ๊ตฌ์ฑ ๋ฌ์ฑ
- Open4DHOI ๋ฐ์ดํฐ์
: 451๊ฐ ๋น๋์ค, 135๊ฐ ๋ฌผ์ฒด ์นดํ
๊ณ ๋ฆฌ, 133๊ฐ ํ๋์ ํฌํจํ๋ ๋๊ท๋ชจ 4D HOI ๋ฐ์ดํฐ์
๊ตฌ์ถ ๋ฐ ๊ณต๊ฐ
- RL ๊ธฐ๋ฐ ์์ฉ: contact-guided reward function์ ํตํด ํ์ต๋ RL ์์ด์ ํธ๊ฐ ๋ณต์กํ HOI ๋ชจ์
๋ชจ๋ฐฉ์ ์ฑ๊ณต, ๋ฐ์ดํฐ์
์ ๋ก๋ด ํ์ต ์ ์ฉ์ฑ ๊ฒ์ฆ
How
- ๋จ๊ณ 1: SAM 3D Objects์ GVHMR์ ์ด์ฉํ ์๋ํ๋ 4D ์ฌ๊ตฌ์ฑ ํ์ดํ๋ผ์ธ ๊ตฌ์ฑ (tracking โ 3D reconstruction โ depth-aware alignment)
- ๋จ๊ณ 2: annotation app์ ํตํด ๋น๋์ค ๋ ๋ฒจ์์ ์๊ฐ์ ์ผ๋ก ๋ถ๋ณ์ธ interaction point๋ฅผ ํจ์จ์ ์ผ๋ก ์ฃผ์ ์ฒ๋ฆฌ
- ๋จ๊ณ 3: InterPoint multi-modal ์์ธก๊ธฐ๊ฐ ๋ชจ๋ฌ๋ณ feature๋ฅผ ๊ฒฐํฉํ์ฌ ์ด๊ธฐ ์ ์ด ์์ ์๋ ์ ์, human validation์ผ๋ก ํผ๋๋ฐฑ ๋ฃจํ ํ์ฑ
- ๋จ๊ณ 4: 4DHOISolver์ least-squares ๊ธฐํ ์ ๋ ฌ๋ก ๋น ๋ฅธ ์ด๊ธฐํ ํ, gradient ๊ธฐ๋ฐ ์ต์ ํ๋ก ๋ฌผ๋ฆฌ์ ํ๋น์ฑ(penetration, contact quality) ์ ์
- ๋จ๊ณ 5: ์ฌ๊ตฌ์ฑ๋ HOI ๋ฐ์ดํฐ๋ก trainingํ๋ RL ์์ด์ ํธ์ contact-guided reward function ์ ์ฉํ์ฌ ๋ค์ด์คํธ๋ฆผ ์์ฉ ๊ฒ์ฆ
Originality
- dense contact map ๋์ sparse discrete contact point๋ก ์ ํํ์ฌ annotation ํจ์จ์ฑ๊ณผ ํ์ฅ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ paradigm shift
- ์๊ฐ์ ์ผ๋ก ๋ถ๋ณ์ธ interaction point๋ฅผ ํ์ฉํ novel annotation ์ ๋ต์ผ๋ก ๋น๋์ค ์ํ์ค์ ์๊ณต๊ฐ์ ์ผ๊ด์ฑ์ ์์ฐ์ค๋ฝ๊ฒ ๋ณด์ฅ
- human-in-the-loop data engine์ positive feedback loop ์ค๊ณ๋ก ๋ฐ์ดํฐ ์์ง์ด ์๋์ผ๋ก ๊ฐ์ ๋๋ ํ์ ์ scalability ๋ฉ์ปค๋์ฆ
- sparse annotation ๊ธฐ๋ฐ์ ๋ ๋จ๊ณ ์ต์ ํ ํ๋ ์์ํฌ(geometric alignment + physical refinement)๋ก ํจ์จ์ฑ๊ณผ ์ ํ์ฑ์ ๊ท ํ ๋ฌ์ฑ
- contact-guided reward function์ ํตํด 4D HOI ๋ฐ์ดํฐ์ ๋ก๋ด ํ์ต ์ ์ฉ์ฑ์ ์ง์ ๊ฒ์ฆํ๋ end-to-end ํ๊ฐ ๋ฐฉ์
Limitation & Further Study
- ๋จ์ผ ์นด๋ฉ๋ผ ๋ชจ๋
ธํ๋ฌ ์ค์ ์ผ๋ก ์ธํ occlusion ๋ฌธ์ - ์ธ๊ฐ๊ณผ ๋ฌผ์ฒด์ ๊ฒน์นจ์ด ์ฌํ ์ํฉ์์ ์ ํ๋ ์ ํ ๊ฐ๋ฅ์ฑ
- sparse contact point annotation์ ์ถฉ๋ถ์ฑ ๊ฒ์ฆ ๋ถ์กฑ - dense contact ์ ๋ณด๊ฐ ํ์ํ ํน์ ์์
์์์ ์ฑ๋ฅ ๋ฏธํ๊ฐ
- InterPoint์ ์ด๊ธฐ ์ฑ๋ฅ์ด ๋ฎ์ ๊ฒฝ์ฐ human annotation ๋ถ๋ด์ด ์ฌ์ ํ ์ ์๋ cold-start ๋ฌธ์
- Open4DHOI ๋ฐ์ดํฐ์
์ ๋๋ฉ์ธ ํธํฅ - ํน์ ๋ฌผ์ฒด/ํ๋ ์นดํ
๊ณ ๋ฆฌ์ ๋ถ๊ท ํ ๋ถํฌ ๊ฐ๋ฅ์ฑ
- ํ์ ์ฐ๊ตฌ: multi-view ๋๋ depth sensor ํ์ฉํ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ๋ฒ, dense contact refinement ๋ชจ๋ ์ถ๊ฐ, ๋ ๋ค์ํ ๋๋ฉ์ธ์ ๋ฐ์ดํฐ ํ์ถฉ, ๋ค๋ฅธ downstream task(grasp prediction, trajectory forecasting)์์์ ๊ฒ์ฆ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ๋จ์ ๋น๋์ค์์ 4D HOI ๋ฐ์ดํฐ ์์ง์ annotation ๋ณ๋ชฉ์ sparse contact point์ human-in-the-loop ์์ง์ผ๋ก ํ์ ์ ์ผ๋ก ํด๊ฒฐํ๊ณ , 4DHOISolver๋ฅผ ํตํด ์๊ณต๊ฐ์ ์ผ๊ด์ฑ์ ์ ์งํ๋ฉด์ ๋๊ท๋ชจ ๊ณ ํ์ง ๋ฐ์ดํฐ์
Open4DHOI๋ฅผ ๊ตฌ์ถํ๋ค. ๋ก๋ด ํ์ต์ ๋ฐ์ดํฐ ๋ณ๋ชฉ์ ์ค์ง์ ์ผ๋ก ํด๊ฒฐํ๋ ๋์ ์ค์ฉ์ฑ๊ณผ ์์ฑ๋๋ก ์ปดํจํฐ ๋น์ ๋ฐ ๋ก๋ด ํ์ต ๋ถ์ผ์ ์ค๋ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์