EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents
์ ์: Wenjia Wang, Liang Pan, Huaijin Pi, Yuke Lou, Xuqian Ren, Yifan Wu, Zhouyingcheng Liao, Lei Yang, Rishabh Dabral, Christian Theobalt, Taku Komura | ๋ ์ง: 2026-02-26 | URL: https://arxiv.org/abs/2602.23205 📄 PDF
Essence
Figure 1. Introducing EmbodMocap, a portable and low-cost system for simultaneous 4D human and scene reconstruction, dep
EmbodMocap์ ๋ ๊ฐ์ ์ด๋ํ๋ iPhone์ ์ฌ์ฉํ์ฌ ์ค์ธ ํ๊ฒฝ์์ ๋ฉํธ๋ฆญ ์ค์ผ์ผ์ ์ธ๊ฐ ๋์๊ณผ 3D ์ฅ๋ฉด์ ๋์์ ์ฌ๊ตฌ์ฑํ๋ ์ ๋น์ฉ ๋ฐ์ดํฐ ์์ง ํ์ดํ๋ผ์ธ์ ์ ์ํ๋ค. ์ด ์์คํ
์ ๋ชจ๋
ธํ๋ฌ ์ฌ๊ตฌ์ฑ, ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์บ๋ฆญํฐ ์ ๋๋ฉ์ด์
, ๋ก๋ด ์ ์ด ๋ฑ ์ธ ๊ฐ์ง embodied AI ์์
์ ์ง์ํ๋ค.
Motivation
- Known: ๊ธฐ์กด motion capture ์์คํ
์ PROX, RICH, EgoBody ๋ฑ์ ๊ณ ๋น์ฉ ๋ฉํฐ๋ทฐ ์คํ๋์ค ํ๊ฒฝ์ด๋ IMU, EM ์ผ์ ๋ฑ ์จ์ด๋ฌ๋ธ ์ฅ์น์ ์์กดํ๊ณ ์๋ค. ์ด๋ค์ ๋์ ํ์ง์ ์ ๊ณตํ์ง๋ง ํ๊ฒฝ๊ณผ ๋น์ฉ์ ์ ์ฝ์ด ํฌ๋ค.
- Gap: ๋๊ท๋ชจ ์ค์ธ ํ๊ฒฝ์์ human-scene ์ํธ์์ฉ์ ํฌํจํ ๊ณ ํ์ง 4D ๋ฐ์ดํฐ๋ฅผ ์ ๋น์ฉ์ผ๋ก ์์งํ ์ ์๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค. ๋ํ depth ambiguity๋ก ์ธํด ๋ฉํธ๋ฆญ ์ค์ผ์ผ ์ ํ๋๋ฅผ ์ ์งํ๊ธฐ ์ด๋ ต๋ค.
- Why: embodied AI๋ ํ์ค ํ๊ฒฝ์์์ ์ธ๊ฐ ํ๋๊ณผ ์ฅ๋ฉด ์ปจํ
์คํธ๋ฅผ ํฌํจํ ๋ฐ์ดํฐ๋ก ํ์ต๋์ด์ผ ํ๋ฏ๋ก, ์ค์ ํ๊ฒฝ์์ ์์ง ๊ฐ๋ฅํ ๊ณ ํ์ง 4D ๋ฐ์ดํฐ๋ ๋ก๋ด ์ ์ด, VR, ์ปดํจํฐ ๋น์ ๋ฑ ๋ค์ํ ๋ถ์ผ์ ์ง์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: ๋ ๊ฐ์ ์ด๋ํ๋ RGB-D iPhone์ ๋์์ ์ฌ์ฉํ์ฌ dual-view RGB-D ์ํ์ค๋ฅผ ์บก์ฒํ๊ณ , ์ด๋ค์ ํตํฉ๋ ์๋ ์ขํ๊ณ์์ jointly calibrateํ์ฌ ์ธ๊ฐ๊ณผ ์ฅ๋ฉด์ ๋ชจ๋ ์ฌ๊ตฌ์ฑํ๋ค. Dual-view ์ค์ ์ด depth ambiguity๋ฅผ ์ํํ๋ฉด์๋ ๋ฉํธ๋ฆญ ์ค์ผ์ผ ์ ํ๋๋ฅผ ๋ณด์ฅํ๋ค.
Achievement
Figure 3. Our dual view vs. single view results in optical studio.
- ์ ๋น์ฉ ํฌํฐ๋ธ ์์คํ
: ์จ์ด๋ฌ๋ธ ์ผ์, ๋ฉํฐ๋ทฐ ์นด๋ฉ๋ผ ๋ฆฌ๊ทธ, ๋๋ LiDAR ์ค์บ๋ ์์ด ๋ ๊ฐ์ iPhone๋ง์ผ๋ก ๋ฉํธ๋ฆญ ์ค์ผ์ผ์ 4D ์ธ๊ฐ-์ฅ๋ฉด ์ฌ๊ตฌ์ฑ์ ์ํ
- ๊ณ ํ์ง ๋ฐ์ดํฐ์
: ๋ค์ํ ์ค์ธ ํ๊ฒฝ์์ ์์งํ human-scene ์ํธ์์ฉ ๋ฐ์ดํฐ ์ ๊ณต์ผ๋ก embodied AI ๋ชจ๋ธ ํ์ต ์ง์
- Dual-view depth ambiguity ํด๊ฒฐ: ๋จ์ผ iPhone ๋๋ ๋ชจ๋
ธํ๋ฌ ๋ฐฉ์ ๋๋น ์ฐ์ํ ์ ๋ ฌ๊ณผ ์ฌ๊ตฌ์ฑ ์ฑ๋ฅ ๋ฌ์ฑ
- ๋ค์ค ์์ฉ ๊ฒ์ฆ: ๋ชจ๋
ธํ๋ฌ ์ฌ๊ตฌ์ฑ, physics-based character animation, sim-to-real humanoid control ์ธ ๊ฐ์ง embodied AI ์์
์์ ํจ๊ณผ์ฑ ์
์ฆ
How
Figure 2. EmbodMocap: We propose an affordable dataset capture and processing system. From left to right, the four stage
- ์ ์ ์ฅ๋ฉด์ ๋จ์ผ RGB-D ์ํ์ค์์ ๋จผ์ ์ฌ๊ตฌ์ฑํ์ฌ ์๋ ์ค์ผ์ผ ์ ์
- ๋๊ธฐํ๋ dual-view RGB-D ๋น๋์ค๋ก ์ธ๊ฐ ๋์ ์บก์ฒ
- ๊ธฐํํ์ ์ ๋ ฌ(geometric alignment)๊ณผ ๋์ ์ต์ ํ(motion optimization)๋ฅผ ์ํํ์ฌ ์๋-์ต์ปค๋ ์ธ๊ฐ ํฌ์ฆ ๋ณต๊ตฌ
- Dual RGB-D input์ joint calibration and optimization์ผ๋ก ์ธ๊ฐ ๋ฉ์์ ์ฅ๋ฉด point cloud๋ฅผ ํตํฉ ์ขํ๊ณ์์ ์ฌ๊ตฌ์ฑ
- Human3R ๋ฐ ๋ค๋ฅธ feedforward model๋ค์ ์์ง๋ ๋ฐ์ดํฐ๋ก fine-tuneํ์ฌ monocular human-scene reconstruction ์ํ
- ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
ํ๋ ์์ํฌ์์ physics-based character skills ํ์ต ๋ฐ scene-aware motion tracking ์ํ
- Sim-to-real RL์ ํตํด humanoid robot์ด ๋น๋์ค์ ์ธ๊ฐ ๋์์ ๋ชจ๋ฐฉํ๋๋ก ํ๋ จ
Originality
- ์ต์ํ์ ํ๋์จ์ด ์๊ตฌ: ์จ์ด๋ฌ๋ธ ์ผ์๋ ๋ฉํฐ๋ทฐ ์นด๋ฉ๋ผ ๋ฆฌ๊ทธ ์์ด ๋ ๊ฐ์ ์ด๋ํ๋ consumer device๋ง์ผ๋ก ๋ฉํธ๋ฆญ ์ค์ผ์ผ 4D ์ฌ๊ตฌ์ฑ ๋ฌ์ฑํ๋ ๊ฒ์ ๊ธฐ์กด ์ ๊ทผ๋ฒ๊ณผ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฆ
- Dual-view RGB-D joint optimization: ๋จ์ผ RGB-D ์นด๋ฉ๋ผ์ depth ambiguity ๋ฌธ์ ๋ฅผ dual-view ์ค์ ์ ์ํธ ๋ณด์์ ํตํด ํด๊ฒฐํ๋ novel approach
- Practical scalability: ์ค์ธ ํ๊ฒฝ์์ ์จ์ด๋ฌ๋ธ ์ฅ์น ์์ด ์์ฐ์ค๋ฌ์ด ์ธ๊ฐ ์ธํ์ ๋ณด์กดํ๋ฉด์ ์ค์๊ฐ capture ๊ฐ๋ฅ
- Comprehensive embodied AI validation: monocular reconstruction, physics-based animation, real-world robot control๊น์ง ์ผ๊ด๋ ๋ฐ์ดํฐ๋ก ์ธ ๊ฐ์ง ์ฃผ์ embodied AI ์์
์ ์ง์ํ๋ ํตํฉ์ ๊ฒ์ฆ
Limitation & Further Study
- Depth ์ผ์์ ๋ณธ์ง์ ํ๊ณ: iPhone์ RGB-D ์นด๋ฉ๋ผ๋ ์ฌ์ ํ ์ ๋ฌธ depth ์ผ์ ๋๋น ๋
ธ์ด์ฆ์ ์ค๋ฅ๊ฐ ์์ ์ ์์ผ๋ฉฐ, ํนํ ๋ณต์กํ ํ
์ค์ฒ์์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ
- ์ค์ธ ์กฐ๋ช
๋ณ๋์ฑ: ์ผ์ธ ํ๊ฒฝ์ ๋น ๋ฅธ ์กฐ๋ช
๋ณํ๊ฐ RGB-D ์บก์ฒ์ ์ผ๊ด์ฑ์ ์ํฅ์ ๋ฏธ์น ์ ์์
- Occlusion ์ฒ๋ฆฌ ์ ์ฝ: ์์ ํ ๊ฐ๋ ค์ง ์ ์ฒด ๋ถ๋ถ์ด๋ ๋ณต์กํ human-scene interaction์ ์ฌ์ ํ ์ฌ๊ตฌ์ฑ ์ค๋ฅ ๊ฐ๋ฅ
- ๋ฐ์ดํฐ์
๊ท๋ชจ: ๋
ผ๋ฌธ์์ ์ ์๋ ๋ฐ์ดํฐ์
์ ์ ๋์ ํฌ๊ธฐ์ ํ๋ ๋ค์์ฑ์ด ๋ช
ํํ์ง ์์
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: ๋ ๋ง์ ์ค์ธ ํ๊ฒฝ๊ณผ ๋ณต์กํ ๊ทธ๋ฃน ์ํธ์์ฉ ๋ฐ์ดํฐ ์์ง, ๋์ ์ฅ๋ฉด์ ๋ํ ํ์ฅ, ๋ ์ ๊ตํ contact ๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: EmbodMocap์ embodied AI ์ฐ๊ตฌ์ ์ค์ง์ ์ฅ์ ๋ฌผ์ธ ๊ณ ๋น์ฉ ๋ฐ์ดํฐ ์์ง์ ํ์ ์ ์ผ๋ก ํด๊ฒฐํ๋ ์ค์ฉ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ์์คํ
์ ์ ์ํ๋ค. Dual-view RGB-D์ joint optimization์ด๋ผ๋ ๊ธฐ์ ์ ํต์ฐฐ๋ ฅ๊ณผ ํจ๊ป monocular reconstruction, physics-based animation, robot control๊น์ง ํฌ๊ด์ ์ผ๋ก ๊ฒ์ฆํ ์ ์์ ๋์ ๊ฐ์น๋ฅผ ์ง๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์