OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation
์ ์: Jinhan Li, Yifeng Zhu, Yuqi Xie, Zhenyu Jiang, Mingyo Seo, Georgios Pavlakos, Yuke Zhu | ๋ ์ง: 2024-10-15 | URL: https://arxiv.org/abs/2410.11792 📄 PDF
Essence
Figure 2: Overview of OKAMI. OKAMI is a two-staged method that enables a humanoid robot to imitate a
OKAMI๋ ๋จ์ผ RGB-D ๋น๋์ค ์์ฐ์ผ๋ก๋ถํฐ ์ธํ ๋ก๋ด์ ์กฐ์ ๊ธฐ์ ์ ํ์ตํ๋๋ก ํ๋ ๋ฐฉ๋ฒ์ผ๋ก, object-aware retargeting์ ํตํด ์ธ๊ฐ์ ์์ง์์ ๋ก๋ด ๊ธฐ๊ตฌํ์ ๋ง๊ฒ ๋ณํํ๋ฉด์ ํ
์คํธ ์ ๊ฐ์ฒด ์์น์ ์ ์ํ๋ค.
Motivation
- Known: ์ธํ ๋ก๋ด์ ์ํ ๊น์ ๋ชจ๋ฐฉ ํ์ต์ ๋๋์ ์๊ฒฉ ์กฐ์ ์์ฐ์ ํ์๋ก ํ๋ฉฐ, ๊ธฐ์กด motion retargeting ๊ธฐ๋ฒ์ ๋ฌผ์ฒด ์ํธ์์ฉ์ ๊ณ ๋ คํ์ง ์๋๋ค.
- Gap: ๋จ์ผ ๋น๋์ค์์ ์ธํ ๋ก๋ด์ด ๊ฐ์ฒด ์์น ๋ณํ์ ์ ์ํ๋ฉด์ ์กฐ์ ๊ธฐ์ ์ ํ์ตํ ์ ์๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ฉฐ, ๊ธฐ์กด retargeting ๊ธฐ๋ฒ์ ์์ ๋๊ฐ ๋์ ์ธํ ๋ก๋ด์ ๊ด์ ์ค๋ณต์ฑ์ ์ฒ๋ฆฌํ์ง ๋ชปํ๋ค.
- Why: ์ธ๊ฐ์ฒ๋ผ ํ ๋ฒ์ ์์ฐ์ผ๋ก ๋ก๋ด์ด ์๋ก์ด ๊ธฐ์ ์ ํ์ตํ ์ ์์ผ๋ฉด ์ฌ์ฉ์์ ๋ถ๋ด์ ํฌ๊ฒ ์ค์ด๊ณ , ์ธํฐ๋ท ๊ท๋ชจ์ ์ธ๊ฐ ํ๋ ๋น๋์ค๋ก๋ถํฐ ๋ก๋ด ๊ธฐ์ด ๋ชจ๋ธ์ ํ์ตํ ์ ์๊ฒ ํ๋ค.
- Approach: OKAMI๋ ๋ ๋จ๊ณ ํ์ดํ๋ผ์ธ์ผ๋ก, ์ฒซ ๋จ๊ณ์์ RGB-D ๋น๋์ค๋ก๋ถํฐ reference manipulation plan์ ์์ฑํ๊ณ , ๋ ๋ฒ์งธ ๋จ๊ณ์์ object-aware retargeting์ ํตํด ์ธ๊ฐ ๋์์ ๋ก๋ด ๋์์ผ๋ก ๋ณํํ๋ฉฐ ํ
์คํธ ์ ๊ฐ์ฒด ์์น์ ๋ง๊ฒ ์กฐ์ ํ๋ค.
Achievement
Figure 4: (a) Evaluation of OKAMI over all six tasks, including the success rates and the quantification of
- Object-aware retargeting: vision foundation model(GPT4V)์ผ๋ก ์์
๊ด๋ จ ๊ฐ์ฒด๋ฅผ ์๋ ์๋ณํ๊ณ , ์ ์ฒด ๋์๊ณผ ์ ํฌ์ฆ๋ฅผ ๋ถ๋ฆฌํ์ฌ retargetํจ์ผ๋ก์จ ๊ฐ์ฒด ์์น ๋ณํ์ ์ ์
- ๊ฐํ ์ผ๋ฐํ ๋ฅ๋ ฅ: ๋ค์ํ ๊ณต๊ฐ ๋ ์ด์์, ๋ฐฐ๊ฒฝ, ์๋ก์ด ๊ฐ์ฒด ์ธ์คํด์ค์ ๊ฑธ์ณ 71.7% ํ๊ท ์ฑ๊ณต๋ฅ ๋ฌ์ฑ, ORION ๋ฒ ์ด์ค๋ผ์ธ ๋๋น 58.3% ๊ฐ์
- ์ค์ ๋ก๋ด ๊ฒ์ฆ: visuomotor policy๋ฅผ ํตํด 79.2% ํ๊ท ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ๋ฉฐ, ๋
ธ๋ ์ง์ฝ์ ์ธ ์๊ฒฉ ์กฐ์ ์์ด ์์จ ๋ฐฐํฌ ๊ฐ๋ฅ
- ๋ค์ํ ์์
์ง์: picking, placing, pushing, pouring ๋ฑ ํ๋ถํ ๊ฐ์ฒด ์ํธ์์ฉ์ ํฌํจํ๋ ๋ค์ํ ์์
์ํ
How
Figure 2: Overview of OKAMI. OKAMI is a two-staged method that enables a humanoid robot to imitate a
- Human reconstruction: SMPL-H ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ RGB-D ๋น๋์ค์์ ์ธ๊ฐ์ ์ ์ฒด ์์ธ์ ์ ํฌ์ฆ ๋ณต์
- Reference plan generation: GPT4V๋ฅผ ํตํด ์์
๊ด๋ จ ๊ฐ์ฒด ์๋ณ, changepoint detection์ผ๋ก keyframe ์ถ์ถ, ์๋ณธ ๋ฐ ํ๊ฒ ๊ฐ์ฒด ์ถ์
- Factorized retargeting: ์ ์ฒด ๋์์ ๋จผ์ ์์
๊ณต๊ฐ์์ retargetํ ํ, ๊ฐ์ฒด ์์น ๊ธฐ๋ฐ์ผ๋ก ๊ถค์ ๋ณํ(warp)
- Inverse kinematics: ๋ณํ๋ ์ ์ฒด ๊ถค์ ์ผ๋ก๋ถํฐ ๊ด์ ๊ฐ๋ ๊ณ์ฐ
- Hand finger mapping: ๊ณํ์ผ๋ก๋ถํฐ ์๊ฐ๋ฝ ๊ด์ ๊ฐ๋๋ฅผ ๋งคํํ์ฌ ์-๊ฐ์ฒด ์ํธ์์ฉ ์ฌํ
- Visuomotor policy training: OKAMI ๋กค์์ ๊ถค์ ์ผ๋ก behavioral cloning์ ํตํด ํ๋ฃจํ ๋น์ ๊ธฐ๋ฐ ์กฐ์ ์ ์ฑ
ํ์ต
Originality
- Object-aware retargeting์ ๋์
: ๊ธฐ์กด motion retargeting์ ๊ฐ์ฒด ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ํตํฉํ์ฌ ํ
์คํธ ์ ๊ฐ์ฒด ์์น ์ ์ ๊ฐ๋ฅํ๊ฒ ํจ
- ๋ถ๋ฆฌ๋ retargeting ํ๋ก์ธ์ค: ์ ์ฒด ๋์๊ณผ ์ ํฌ์ฆ๋ฅผ ๋ถ๋ฆฌํ์ฌ retargetํจ์ผ๋ก์จ ๋ณต์กํ ์กฐ์ ์์
์ฒ๋ฆฌ
- Vision foundation model ํ์ฉ: GPT4V๋ฅผ ์ฌ์ฉํ ์ด๋ฆฐ ์ธ๊ณ ๊ฐ์ฒด ์ธ์์ผ๋ก, ์ถ๊ฐ ์ธ๊ฐ ์
๋ ฅ ์์ด ์์
๊ด๋ จ ๊ฐ์ฒด ์๋ ์๋ณ
- ๋จ์ผ ๋น๋์ค ํ์ต: ๋๋์ ์์ฐ์ด๋ ๋ฉํ ํ์ต ๋์ ๋จ์ผ RGB-D ๋น๋์ค๋ก๋ถํฐ ์กฐ์ ๊ธฐ์ ํ์ต
Limitation & Further Study
- RGB-D ์ผ์ ์์กด์ฑ: RGB-D ๋น๋์ค ์
๋ ฅ์ด ํ์ํ๋ฏ๋ก ์ผ๋ฐ์ ์ธ RGB ๋น๋์ค ์ ์ฉ์ ์ ํ
- ๊ฐ์ฒด ์ ์ด ๊ฐ์ : vision model์ด ์ ์ดํ์ง ์์ ๊ฐ์ฒด๋ ์๋ณํ ์ ์์ผ๋, ์์
๊ด๋ จ์ฑ ํ๋จ์ ์ฌ์ ํ ํ๊ณ ๊ฐ๋ฅ
- ์ ํฌ์ฆ ์ ํ๋: SMPL-H ๋ชจ๋ธ์ ์ ํฌ์ฆ ๋ณต์ ์ ํ๋์ ์์กดํ๋ฉฐ, ๋ณต์กํ ์๊ฐ๋ฝ ์ํธ์์ฉ์์ ์ ํ๋ ์ ํ ๊ฐ๋ฅ
- ์ฅ๋ฉด ๋ณต์ก๋ ์ ํ: ํ์ฌ ํ๊ฐ์์ ๋น๊ต์ ๋จ์ํ ๊ตฌ์ฑ์ ์์
์ค์ฌ์ด๋ฉฐ, ๊ทน๋๋ก ๋ณต์กํ ๋ค์ค ๊ฐ์ฒด ์ํธ์์ฉ ์ฒ๋ฆฌ ๋ฏธ๊ฒ์ฆ
- ํ์ ์ฐ๊ตฌ: RGB ๋น๋์ค๋ง์ผ๋ก ์๋ํ๋ depth estimation ํตํฉ, ๋ ์ ๋ฐํ ์ ํฌ์ฆ ์ฌ๊ตฌ์ฑ, ๋ค๋จ๊ณ ๋ณต์ก ์กฐ์ ์์
ํ์ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: OKAMI๋ object-aware retargeting์ด๋ผ๋ ํต์ฌ ๊ฐ๋
์ผ๋ก ๋จ์ผ ๋น๋์ค๋ก๋ถํฐ ์ธํ ๋ก๋ด์ ์กฐ์ ํ์ต์ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ์ค์ ํ๋์จ์ด์์ ๊ฐํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์
์ฆํ์ฌ ๋ก๋ด ํ์ต์ ์ค์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์