PICO: Reconstructing 3D People In Contact with Objects
์ ์: Alpรกr Cseke, Shashank Tripathi, Sai Kumar Dwivedi, Arjun Lakshmipathy, Agniv Chatterjee, Michael J. Black, Dimitrios Tzionas | ๋ ์ง: 2025-04-24 | URL: https://arxiv.org/abs/2504.17695 📄 PDF
Essence
Figure 1. We present PICO, a novel framework for joint human-object reconstruction in 3D. PICO includes PICO-db, a uniqu
๋จ์ผ ์ด๋ฏธ์ง์์ ์ ์ฒด-๋ฌผ์ฒด ์ ์ด ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ 3D ์ธ๊ฐ-๋ฌผ์ฒด ์ํธ์์ฉ์ ๋ณต์ํ๋ PICO ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์ด๋ฅผ ์ํด ์ ์ฒด์ ๋ฌผ์ฒด ๋ชจ๋์ ๋ฐ์ง๋ 3D ์ ์ด ์ฃผ์์ด ์๋ PICO-db ๋ฐ์ดํฐ์
์ ์์งํ๋ค.
Motivation
- Known: ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์๋ ค์ง ๋ฌผ์ฒด ํํ๋ ์ ํ๋ ๋ฌผ์ฒด ํด๋์ค์์๋ง 3D HOI๋ฅผ ๋ค๋ฃจ์์ผ๋ฉฐ, DAMON ๋ฐ์ดํฐ์
์ ์ ์ฒด ์ ์ด ์ฃผ์๋ง ์ ๊ณตํ๋ค.
- Gap: ํ์ฌ ๋ฐฉ๋ฒ๋ค์ ์์์ ๋ฌผ์ฒด ํด๋์ค์ ๋ํ ์ผ๋ฐํ๊ฐ ์ด๋ ต๊ณ , ์ ์ฒด์ ๋ฌผ์ฒด ์์ชฝ์์ 3D ์ ์ด์ ํจ๊ป ์ถ๋ก ํ๋ ๋ฐ์ดํฐ์ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: ์์ฐ ์ด๋ฏธ์ง์์ ๋ค์ํ ๋ฌผ์ฒด์์ ์ํธ์์ฉ์ ์ดํดํ๋ ๊ฒ์ ์ค๋งํธํ, ํผํฉํ์ค, ๋ก๋ด ๋ณด์กฐ ๋ฑ ์ค์ ์์ฉ์ ํ์์ ์ด๋ฉฐ, ์ด๋ฅผ ํตํด HOI ์ดํด๋ฅผ ํ์ค๋ก ํ์ฅํ ์ ์๋ค.
- Approach: ์ ์ฒด ์ ์ด ํจ์น๋ฅผ ๋ฌผ์ฒด์ ํฌ์ํ๊ธฐ ์ํด vision foundation model(OpenShape)์ ํ์ฉํ ๋ฌผ์ฒด ๊ฒ์๊ณผ ์ต์ ์ธ๋ ฅ(2 ํด๋ฆญ)์ ์กฐํฉํ์ฌ PICO-db๋ฅผ ๊ตฌ์ถํ๊ณ , render-and-compare ์ต์ ํ ๊ธฐ๋ฐ์ PICO-fit ๋ฐฉ๋ฒ์ผ๋ก ์ ์ด ์ ๋ณด๋ฅผ ํตํด 3D ์ ์ฒด-๋ฌผ์ฒด ๋ฉ์๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ ํฉ์ํจ๋ค.
Achievement
Figure 2. PICO-db dataset annotations. Left to right: Color im-
- PICO-db ๋ฐ์ดํฐ์
: ์ ์ฒด์ ๋ฌผ์ฒด ์์ชฝ์ 3D ์ ์ด ์ฃผ์์ ๊ฐ์ง ์ฒซ ๋ฒ์งธ ์์ฐ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์
์ผ๋ก, ์ด์ ์ ์ฒด-๋ฌผ์ฒด ์ ์ด ๋์์ ์ ํฌํจํ๋ค.
- ์ผ๋ฐํ ๋ฅ๋ ฅ: ์ด์ ์ ๋ค๋ฃจ์ง ๋ชปํ ์ฌ๋ฌ ๋ฌผ์ฒด ํด๋์ค(์ํ, ๋ฐ๋๋, ํ๋ฆฌ์ค๋น ๋ฑ)์ ๋ํด ์๋ํ๋ ํ์ฅ ๊ฐ๋ฅํ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
- ์ ์ฑ์ /์ ๋์ ๊ฐ์ : PHOSA, HDM, CONTHO ๋ฑ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ์ง๊ฐ ์ฐ๊ตฌ์์ ํจ์ฌ ๋ ํ์ค์ ์ธ ๋ณต์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ธ๋ค.
- ์ต์ ์ฃผ์ ๋น์ฉ: 2 ํด๋ฆญ๋ง์ผ๋ก ์ ์ฒด ์ ์ด์ ๋ฌผ์ฒด์ ํฌ์ํ๋ ํจ์จ์ ์ธ ์ฃผ์ ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ๋ค.
How
Figure 4. Overview of PICO-fit, a novel method for fitting interacting 3D body and object meshes to an image. It initial
- DAMON ๋ฐ์ดํฐ์
์ ์ ์ฒด ์ ์ด ํจ์น๋ฅผ ์์์ ์ผ๋ก PCA๋ฅผ ํตํด ์๋ ์ถ ์์ฑ
- OpenShape foundation model์ ํ์ฉํ์ฌ ์ด๋ฏธ์ง์์ ๊ฐ์ฅ ์ ์ฌํ 3D ๋ฌผ์ฒด ๋ฉ์๋ฅผ Objaverse์์ ๊ฒ์
- ContactEdit ๊ฐ๋
์ ํ์ฅํ์ฌ 2 ํด๋ฆญ์ผ๋ก ์ ์ฒด ์ ์ด ํจ์น๋ฅผ ๋ฌผ์ฒด์ ํฌ์
- OSX๋ฅผ ํตํด ์ด๊ธฐ ์ ์ฒด ํํ/์์ธ ์ถ๋ก
- DECO๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ฒด ์ ์ด ์ถ๋ก , SAM์ผ๋ก ๋ฌผ์ฒด ํด๋์ค ์ธ์
- PICO-db์์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ด์ ์ ์ฒด-๋ฌผ์ฒด ์ ์ด ๋์์ ๊ฒ์
- render-and-compare ์ต์ ํ๋ฅผ ํตํด ์ ์ด ์ ์ฝ์ ์ฌ์ฉํ์ฌ ์ ์ฒด์ ๋ฌผ์ฒด ๋ฉ์๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ ํฉ
Originality
- ์ ์ฒด์ ๋ฌผ์ฒด ์์ชฝ์ 3D ์ ์ด ์ฃผ์์ ํฌํจํ ์ฒซ ๋ฒ์งธ ์์ฐ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์
์์ง
- ์ต์ ์ธ๋ ฅ(2 ํด๋ฆญ)์ผ๋ก ์ ์ฒด ์ ์ด์ ๋ฌผ์ฒด์ ํฌ์ํ๋ ์๋ก์ด ๋ฐฉ๋ฒ ์ ์
- Vision foundation model(OpenShape)์ ํ์ฉํ ์์์ ๋ฌผ์ฒด ํด๋์ค์ ๋ํ ๋ฉ์ ๊ฒ์ ๋ฐ ์ผ๋ฐํ
- ์ ์ด ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ์ ์ฒด-๋ฌผ์ฒด ์ํธ์์ฉ์ 3D ํฌ์ฆ ์ถ์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ render-and-compare ์ต์ ํ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ
- ์ ์ฒด-๋ฌผ์ฒด ์ด์ ์ ์ด ๋์์ ์ ํตํ ํ๋ถํ ๊ธฐํํ์ ์ ์ฝ ํ์ฉ
Limitation & Further Study
- Foundation model(OpenShape)์ ๋ฌผ์ฒด ๊ฒ์์ ์์กดํ๋ฏ๋ก ๋ฉ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค ํ์ง๊ณผ ๋ฒ์์ ์ ํ์
- ๋ณต์กํ ๋ค์ค ๋ฌผ์ฒด ์ํธ์์ฉ์ด๋ ๋์ ์ํธ์์ฉ์ ๋ํ ํ๊ฐ ๋ถ์ฌ
- ์ ์ด ์ถ๋ก (DECO)์ด ์คํจํ๋ ๊ฒฝ์ฐ์ ๋ํ ๊ฐ๊ฑด์ฑ ๋ถ์ ํ์
- ์ ๋์ ํ๊ฐ๊ฐ ์ ํ์ ์ด๋ฉฐ ๋๋ถ๋ถ ์ ์ฑ์ ๊ฒฐ๊ณผ์ ์ง๊ฐ ์ฐ๊ตฌ์ ์์กด
- ํ์ ์ฐ๊ตฌ: ๋์์ ์ํ์ค ๊ธฐ๋ฐ ์๊ฐ์ ์ผ๊ด์ฑ ๊ฐ์ , ๋ ๋ณต์กํ ๋ฌผ์ฒด ์์ ๊ตฌ์กฐ ์ฒ๋ฆฌ, ์๊ธฐ-์กฐ์ ํ์ต์ ํตํ ์ฃผ์ ๋น์ฉ ์ถ๊ฐ ๊ฐ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ ์ฒด-๋ฌผ์ฒด ์ ์ด์ด๋ผ๋ ์๋ก์ด ๊ด์ ์์ 3D HOI ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฃจ๋ฉฐ, PICO-db๋ผ๋ ๊ณ ๊ฐ์น ๋ฐ์ดํฐ์
๊ณผ ํ์ฅ ๊ฐ๋ฅํ PICO-fit ๋ฐฉ๋ฒ์ ํตํด ํ์ค์ ๋ค์ํ ๋ฌผ์ฒด ํด๋์ค์ ์ผ๋ฐํ๋๋ ์ค์ฉ์ ์ธ ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์