Generalizable Humanoid Manipulation with 3D Diffusion Policies
์ ์: Yanjie Ze, Zixuan Chen, Wenhao Wang, Tianyi Chen, Xialin He, Ying Yuan, Xue Bin Peng, Jiajun Wu | ๋ ์ง: 2024-10-14 | URL: https://arxiv.org/abs/2410.10803 📄 PDF
Essence
Fig. 1: Humanoid manipulation in diverse unseen scenarios. With our system, we are able to 1) collect human-like
์ด ๋
ผ๋ฌธ์ ๋จ์ผ ์ฅ๋ฉด์์ ์์งํ ๋ฐ์ดํฐ๋ง์ผ๋ก ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ๋ค์ํ ๋ฏธ์ง์ ์ค์ ํ๊ฒฝ์์ ์์จ์ ์ผ๋ก ์กฐ์ ์์
์ ์ํํ๋๋ก ํ๋ 3D Diffusion Policy ๊ธฐ๋ฐ ์์คํ
์ ์ ์ํ๋ค.
Motivation
- Known: ์ต๊ทผ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ํ๋์จ์ด์ ์๊ฒฉ ์กฐ์ ์์คํ
์ด ๋ฐ์ ํ์ผ๋, ๊ธฐ์กด ํ์ต ๋ฐฉ๋ฒ์ ๋ฎ์ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ๋ค์ํ ์ฅ๋ฉด์ ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ผ๋ก ์ธํด ํด๋จธ๋
ธ์ด๋ ์กฐ์ ๊ธฐ์ ์ ํ๋ จ ์ฅ๋ฉด์๋ง ์ ํ๋์ด ์๋ค.
- Gap: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ๋ฏธ์ง์ ์ค์ ํ๊ฒฝ์์ ํ์ต๋ ์กฐ์ ๊ธฐ์ ์ ์ผ๋ฐํํ์ง ๋ชปํ๋ ๋ฌธ์ ๊ฐ ํด๊ฒฐ๋์ง ์์์ผ๋ฉฐ, ํนํ ๋จ์ผ ์ฅ๋ฉด ๋ฐ์ดํฐ๋ก ์ฅ๋ฉด ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ ์ฌ๋ก๊ฐ ์๋ค.
- Why: ์ผ๋ฐํ ๊ฐ๋ฅํ ํด๋จธ๋
ธ์ด๋ ์กฐ์ ๊ธฐ์ ์ ์ค์ ํ๊ฒฝ์์ ๋ก๋ด์ ์์จ์ฑ์ ํ๋ณดํ๊ณ ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ ํ๊ธฐ์ ์ผ๋ก ์ค์ผ ์ ์์ด ๋ก๋ด๊ณตํ์ ์ค์ํ ๋ชฉํ์ด๋ค.
- Approach: ์ ์ ์์ฒด ์๊ฒฉ ์กฐ์ ์์คํ
๊ณผ ๋์ด ์กฐ์ ๊ฐ๋ฅํ ์นดํธ๋ฅผ ๊ฐ์ถ 25-DoF ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ํ๋ซํผ์ ๊ตฌ์ถํ๊ณ , DP3๋ฅผ ๊ฐ์ ํ iDP3 ์๊ณ ๋ฆฌ์ฆ์ผ๋ก egocentric 3D point cloud ๊ธฐ๋ฐ ์ ์ฑ
์ ํ์ตํ์ฌ ๋ฏธ์ง์ ์ฅ๋ฉด์ผ๋ก ์ผ๋ฐํ์ํจ๋ค.
Achievement
Fig. 1: Humanoid manipulation in diverse unseen scenarios. With our system, we are able to 1) collect human-like
- ํด๋จธ๋
ธ์ด๋ ์กฐ์์ ์ฅ๋ฉด ์ผ๋ฐํ: ๋จ์ผ ์ฅ๋ฉด ๋ฐ์ดํฐ๋ง์ผ๋ก ์ฃผ๋ฐฉ, ํ์์ค, ์ฌ๋ฌด์ค ๋ฑ ๋ค์ํ ๋ฏธ์ง์ ์ค์ ํ๊ฒฝ์์ zero-shot ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ ์ต์ด์ ํ ์ฌ์ด์ฆ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ์์คํ
- ๊ฐ์ ๋ 3D Diffusion Policy (iDP3): ์นด๋ฉ๋ผ ์บ๋ฆฌ๋ธ๋ ์ด์
๊ณผ point cloud ๋ถํ ์ด ํ์ ์๋ egocentric ๋ฒ์ DP3๋ฅผ ์ ์ํ์ฌ ์ค์ ๋
ธ์ด์ฆ๊ฐ ๋ง์ ์ธ๊ฐ ์กฐ์ ๋ฐ์ดํฐ์์ ํ์ต ๊ฐ๋ฅ
- ํฌ๊ด์ ์ค์ ํ๊ฒฝ ํ๊ฐ: 2000ํ ์ด์์ ์ค์ ๋ก๋ด ์ํผ์๋๋ฅผ ํตํ ์๊ฒฉํ ์ ์ฑ
ํ๊ฐ๋ก ์์คํ
์ ์ค์ฉ์ฑ ์
์ฆ
- ์์ ํ ์์ฒด ์๊ฒฉ ์กฐ์ ์์คํ
: Apple Vision Pro ๊ธฐ๋ฐ ์ ์ ์์ฒด ์๊ฒฉ ์กฐ์์ผ๋ก ๋จธ๋ฆฌ, ํ๋ฆฌ, ํ, ์์ ํฌํจํ๋ ์ธ๊ฐ๊ณผ ์ ์ฌํ ๋์ ๋ฐ์ดํฐ ์์ง
How
Fig. 2: Overview of our system. Our system mainly consists of four parts: the humanoid robot platform, the data collecti
- Fourier GR1 ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋์ด ์กฐ์ ๊ฐ๋ฅํ ์นดํธ์ ์ฅ์ฐฉํ๊ณ RealSense L515 LiDAR ์ผ์๋ฅผ ๋ก๋ด ํค๋์ ์ฅ์ฐฉ
- Apple Vision Pro๋ก ์ธ๊ฐ์ 3D ์์น์ ๋ฐฉํฅ ์ ๋ณด๋ฅผ ์ค์๊ฐ ์บก์ฒํ์ฌ Relaxed IK์ ํ์ ๋ณํ์ ํตํด ๋ก๋ด ๊ด์ ๊ฐ๋๋ก ๋ณํ
- egocentric 3D point cloud์ proprioceptive ์ ๋ณด(๋ก๋ด ๊ด์ ์์น)๋ฅผ ์
๋ ฅ์ผ๋ก ํ๋ improved DP3 ํ์ต (์นด๋ฉ๋ผ ์บ๋ฆฌ๋ธ๋ ์ด์
๊ณผ segmentation ์ ๊ฑฐ)
- ๋จ์ผ ์ฅ๋ฉด์์ ์์งํ observation-action ์ ๋ฐ์ดํฐ๋ก diffusion ๊ธฐ๋ฐ ์ ์ฑ
ํ์ต ํ ๋ค์ํ ๋ฏธ์ง ์ฅ๋ฉด์์ ๋ฐฐํฌ ๋ฐ ํ๊ฐ
Originality
- ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ฅ๋ฉด ์ผ๋ฐํ ๋ฌ์ฑ: ๊ธฐ์กด ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ์ฐ๊ตฌ๋ ํ๋ จ ์ฅ๋ฉด ๋ด์๋ง ๊ตญํ๋์์ผ๋, ์ด ๋
ผ๋ฌธ์ ๋จ์ผ ์ฅ๋ฉด ๋ฐ์ดํฐ๋ก ๋ค์ํ ๋ฏธ์ง ํ๊ฒฝ์์ ์๋ํ๋ ์ต์ด์ ์ฌ๋ก
- Egocentric DP3 (iDP3) ๊ฐ๋ฐ: ๊ธฐ์กด third-person 3D Diffusion Policy๋ฅผ egocentric ๊ด์ ์ผ๋ก ์ฌ๊ตฌ์ฑํ์ฌ ์นด๋ฉ๋ผ ์บ๋ฆฌ๋ธ๋ ์ด์
๋ถํ์ ๋ฐ ๋
ธ์ด์ฆ๊ฐ ๋ง์ ์ค์ ๋ฐ์ดํฐ์ ์ ์ฉ ๊ฐ๋ฅํ๊ฒ ๊ฐ์
- ์ ์ ์์ฒด ์๊ฒฉ ์กฐ์ ํฌํจ ํ๋ฆฌ: ๊ธฐ์กด ์ํ ์กฐ์ ์์คํ
๊ณผ ๋ฌ๋ฆฌ ํ๋ฆฌ์ ๋ฅ๋ ๋น์ ์ ํฌํจํ์ฌ ๋ก๋ด์ ์์
๊ณต๊ฐ ๋ํญ ํ์ฅ
- ๋๊ท๋ชจ ์ค์ ํ๊ฒฝ ํ๊ฐ: ๊ธฐ์กด ์ฐ๊ตฌ ๋๋น 2000ํ ์ด์์ ์ค์ ๋ก๋ด ์ํผ์๋๋ก ์์คํ
์ ๊ฒฌ๊ณ ์ฑ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์๊ฒฉํ๊ฒ ๊ฒ์ฆ
Limitation & Further Study
- ๋์ด ์กฐ์ ๊ฐ๋ฅํ ์นดํธ ์ฌ์ฉ์ผ๋ก ํ์ฒด์ ๋ณต์กํ ์ ์ ์ ์ด ํํผ: ์ ์ ์ ์ด ๊ธฐ์ ์ด ์ฑ์ํด์ง ๋๊น์ง๋ ์ด ๋จ์ํ๋ ์ ๊ทผ์ด ํ์ํ๋ฉฐ, ํฅํ ๋ค๋ฆฌ๋ฅผ ํ์ฑํํ ์์ ํด๋จธ๋
ธ์ด๋๋ก์ ํ์ฅ ํ์
- ๋จ์ผ LiDAR ์ผ์๋ก ์ธํ ์ฝ 0.5์ด์ ์๊ฒฉ ์กฐ์ ์ง์ฐ์๊ฐ: ๋ค์ค ์ผ์ ์ฌ์ฉ ์ ์ง์ฐ ์๊ฐ์ด ๊ณผ๋ํ์ฌ ๋ฐ์ดํฐ ์์ง ์คํจ ๊ฐ๋ฅ์ฑ
- RealSense L515์ ๋ํ ๋์ ์์กด์ฑ: ๋ค๋ฅธ LiDAR ์ผ์(Livox Mid-360 ๋ฑ)๋ ํด์๋์ ์ฃผํ์๊ฐ ์ ์ด ์ค์ฌ ์กฐ์์ ๋ถ์กฑํจ์ ๋ณด์ฌ์ค
- ๋จ์ผ ๋ก๋ด ํ๋ซํผ ํ๊ฐ: Fourier GR1๋ง ์ฌ์ฉํ์ฌ iDP3์ ๋ค๋ฅธ ํด๋จธ๋
ธ์ด๋ ๋ฐ ๋ชจ๋ฐ์ผ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ์ผ๋ฐ์ฑ ๋ฏธ๊ฒ์ฆ
- ๋ฐ์ดํฐ ์์ง์ด ๋จ์ผ ์ฅ๋ฉด์ผ๋ก ์ ํ๋์ด ์์ผ๋ฏ๋ก, ๊ทน๋จ์ ์ธ ํ๊ฒฝ ๋ณํ๋ ๋ณด์ด์ง ์์ ๊ฐ์ฒด ์นดํ
๊ณ ๋ฆฌ์ ๋ํ ์ผ๋ฐํ ํ๊ณ ๊ฐ๋ฅ์ฑ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ฅ๋ฉด ์ผ๋ฐํ ์กฐ์์ด๋ผ๋ ๋ฏธํด๊ฒฐ ๋ฌธ์ ๋ฅผ ์ต์ด๋ก ํด๊ฒฐํ๋ฉฐ, ๊ฐ์ ๋ 3D Diffusion Policy์ ์์ ํ ์ค์ ํ๊ฒฝ ์์คํ
์ ํตํด ๋จ์ผ ์ฅ๋ฉด ๋ฐ์ดํฐ๋ง์ผ๋ก ๋ค์ํ ๋ฏธ์ง ํ๊ฒฝ์์์ ์์จ ์๋์ ๋ฌ์ฑํ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์