Opt2Skill: Imitating Dynamically-feasible Whole-Body Trajectories for Versatile Humanoid Loco-Manipulation
์ ์: Fukang Liu, Zhaoyuan Gu, Yilin Cai, Ziyi Zhou, Hyunyoung Jung, Jaehwi Jang, Shijie Zhao, Sehoon Ha, Yue Chen, Danfei Xu, Ye Zhao | ๋ ์ง: 2024-09-30 | URL: https://arxiv.org/abs/2409.20514 📄 PDF
Essence
Fig. 1. The proposed Opt2Skill framework enables a Digit humanoid robot to
Opt2Skill์ Differential Dynamic Programming (DDP)๋ก ์์ฑํ ๋์ญํ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ๊ถค์ ์ Reinforcement Learning (RL)์ผ๋ก ๋ชจ๋ฐฉํ๊ฒ ํจ์ผ๋ก์จ ์ธ๊ฐํ ๋ก๋ด์ ๋ค์ํ ๋ก์ฝ-์กฐ์ ์์
์ ํจ๊ณผ์ ์ผ๋ก ์ํํ๋ ํตํฉ ํ์ดํ๋ผ์ธ์ด๋ค.
Motivation
- Known: Model-based trajectory optimization์ ์ ํํ ๋์ญํ ์ ์ฝ์ ๋ง์กฑํ๋ ๊ณ ํ์ง ๊ถค์ ์ ์์ฑํ ์ ์์ผ๋ ๊ณ์ฐ ๋ณต์ก๋๊ฐ ๋๊ณ , RL์ ๊ณ ์ฐจ์ ๊ณต๊ฐ์์ ๊ฐ๊ฑดํ์ง๋ง ํ์ต ํจ์จ์ฑ์ด ๋ฎ๊ณ sim-to-real ๊ฐญ์ด ํฌ๋ค.
- Gap: ํนํ ์ธ๊ฐํ ๋ก๋ด์ ์ ์ ๋ก์ฝ-์กฐ์ ์์
์์ ๋์ญํ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ๊ธฐ์ค ๊ถค์ ์ RL๋ก ํ์ตํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์ฌํ์ผ๋ฉฐ, ๊ธฐ์กด mocap ๊ธฐ๋ฐ์ด๋ IK ๊ธฐ๋ฐ ๊ธฐ์ค์ ๋์ญํ ์คํ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฅํ์ง ๋ชปํ๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ ๊ณ ์ฐจ์ ๋ถ์์ ๋์ญํ๊ณผ ๋ณต์กํ ์ ์ด ์ํธ์์ฉ์ผ๋ก ์ธํด ์ ์ด๊ฐ ์ด๋ ค์ฐ๋ฏ๋ก, ๋์ญํ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ๋ฉด์๋ ๊ฐ๊ฑดํ ์ ์ด ์ ์ฑ
์ด ํ์์ ์ด๋ค.
- Approach: DDP๋ฅผ ์ฌ์ฉํ์ฌ ๋ก๋ด ๋์ญํ๊ณผ ์ ์ด ์ ์ฝ์ ๋ง์กฑํ๋ ์ต์ ๊ถค์ ์ ์์ฑํ ํ, RL ์ ์ฑ
์ด ์ด ๊ถค์ ์ ๋ชจ๋ฐฉํ๋๋ก ํ๋ จํ๋ฉฐ, ํ ํฌ ์ ๋ณด๋ฅผ ํฌํจ์์ผ ์ ์ด ํ๋ถํ ์์
์ฑ๋ฅ์ ํฅ์์ํจ๋ค.
Achievement
Fig. 1. The proposed Opt2Skill framework enables a Digit humanoid robot to
- ์ฒซ ์ ์ ๋์ญํ ๊ธฐ๋ฐ TO๋ฅผ RL ๊ฐ์ด๋๋ก ์ ์ฉ: Digit 30-DOF ์ธ๊ฐํ ๋ก๋ด์์ full-order-dynamics-based TO๋ก๋ถํฐ์ ์ฐธ์กฐ ๊ถค์ ์ ํตํด RL์ ํ์ตํ๋ ์ฒซ ์ฌ๋ก ์ ์
- ๊ธฐ์ค ๊ถค์ ํ์ง ์ฐ์์ฑ: Full-body TO ๊ธฐ๋ฐ ์ฐธ์กฐ๊ฐ mocap ๋ฐ inverse kinematics ๊ธฐ๋ฐ ๊ธฐ์ค๋ณด๋ค ์ถ์ ์ ํ๋์ ์์
์ฑ๊ณต๋ฅ ์์ ์ฐ์ํจ์ ์
์ฆ
- ํ ํฌ ์ ๋ณด์ ์ค์์ฑ: TO์์๋ง ์ป์ ์ ์๋ ์กฐ์ธํธ ํ ํฌ ์ ๋ณด๊ฐ ์ ์ด ํ๋ถํ ์๋๋ฆฌ์ค์์ ์ ์ด๋ ฅ ์ถ์ ์ฑ๋ฅ์ ํ์ ํ ๊ฐ์ ํจ์ ์
์ฆ
- ๋ค์ํ ์์
์์์ ์ค์ ์ ์ด: ํ์ ๋ฆ๊ธฐ, ๋ฌธ ํต๊ณผ, ๊ณ๋จ ์ค๋ฅด๊ธฐ, ์ผ์ธ ํ๊ฒฝ ๋ณดํ ๋ฑ 7๊ฐ์ ๋ค์ํ ๋ก์ฝ-์กฐ์ ์์
์์ ์จ๋ผ์ธ ์ ์ ์์ด ์ฑ๊ณต์ ์ธ sim-to-real ์ ์ด ๋ฌ์ฑ
How
Fig. 2. Overall structure of the Opt2Skill framework. (a) We first generate structured, dynamically feasible reference t
- DDP๋ฅผ ํตํด task structure์ contact sequence๋ฅผ ์ง์ ํ์ฌ ๋ก๋ด ๋์ญํ๊ณผ ํ ํฌ ์ ์ฝ์ ๋ง์กฑํ๋ ์ต์ ์ ์ ๊ถค์ ์์ฑ
- ์์ฑ๋ ์ฐธ์กฐ ๊ถค์ (์์น, ์๋, ํ ํฌ)์ imitation learning ๋ชฉํ๋ก ์ฌ์ฉํ์ฌ RL ์ ์ฑ
ํ๋ จ
- Digit ๋ก๋ด์ 30-DOF ์ ์ ์ ์ด๋ฅผ ์ํด full-order dynamics model ํ์ฉ์ผ๋ก ์ด๋ํ์ ์ ์ฝ๋ง ์ฌ์ฉํ๋ IK ๊ธฐ๋ฐ ๋ฐฉ์๊ณผ ์ฐจ๋ณํ
- ์ ์ด ํ๋ถํ ์์
(ํ
์ด๋ธ ๋ฆ๊ธฐ ๋ฑ)์์ ์ฐธ์กฐ ํ ํฌ ์ ๋ณด๋ฅผ ์์ค ํจ์์ ํฌํจ์์ผ ์ ์ด๋ ฅ ์ถ์ ํฅ์
- Simulation์์ ์ ์ฑ
ํ์ต ํ ์ค์ ํ๋์จ์ด๋ก ์ง์ ์ ์ดํ๋ฉฐ, ์ค์ ํ๊ฒฝ์ ๋ถํ์ค์ฑ์ ๋ํ ๊ฐ๊ฑด์ฑ ๊ฒ์ฆ
Originality
- ์ธ๊ฐํ ๋ก๋ด ์ ์ ๋ก์ฝ-์กฐ์์ full-order-dynamics-based TO๋ฅผ RL ๊ฐ์ด๋๋ก ์ฒ์ ์ ์ฉํ์ฌ ๋์ญํ ์คํ ๊ฐ๋ฅ์ฑ๊ณผ ํ์ต ํจ์จ์ฑ์ ๋์์ ๋ฌ์ฑ
- ์กฐ์ธํธ ํ ํฌ ์ ๋ณด๋ฅผ RL ํ์ต์ ๋ช
์์ ์ผ๋ก ํ์ฉํจ์ผ๋ก์จ ์ ์ด ํ๋ถํ ์์
์ฑ๋ฅ ๊ฐ์ ์ด๋ผ๋ ์๋ก์ด ํต์ฐฐ ์ ์
- Mocap ๊ธฐ๋ฐ motion retargeting์ embodiment gap๊ณผ IK ๊ธฐ๋ฐ์ ๋์ญํ ์คํ ๋ถ๊ฐ๋ฅ์ฑ ๋ฌธ์ ๋ฅผ ์ด๋ก ์ ์ผ๋ก ๋ถ์ํ๊ณ , TO ๊ธฐ๋ฐ ๋ฐฉ์์ ์ฐ์์ฑ์ ๊ด๋ฒ์ํ ์คํ์ผ๋ก ์
์ฆ
- ๋จ์ ์ฃผ๊ธฐ์ ๋ณดํ์ ๋์ด ๋น์ฃผ๊ธฐ์ ๋ณตํฉ ๋ก์ฝ-์กฐ์ ์์
์๊น์ง ํ์ฅํจ์ผ๋ก์จ ๋ฐฉ๋ฒ์ ๋ฒ์ฉ์ฑ ์
์ฆ
Limitation & Further Study
- DDP์ ๊ณ์ฐ ๋น์ฉ์ด ์ฌ์ ํ ๋์ ์ค์๊ฐ MPC ์์ค์ ์จ๋ผ์ธ ์ฌ๊ณํ์ ์ด๋ ค์ฐ๋ฉฐ, ์คํ๋ผ์ธ ๊ถค์ ์์ฑ์ ์ ํ๋จ
- ํ๊ฒฝ ์ ์ด ๋ชจ๋ธ์ ์ ํ์ฑ์ ์์กดํ๋ฏ๋ก, ์์ธก ๋ถ๊ฐ๋ฅํ ํ๊ฒฝ ๋ณํ๋ ์๋ก์ด ๋ฌผ์ฒด์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ ํ๋ ์ ์์
- DDP ๊ธฐ๋ฐ TO์ ์๋ ด์ฑ์ด ์ด๊ธฐ ์ถ์ ๊ฐ์ ๋ฏผ๊ฐํ๋ฏ๋ก, ๋ค์ํ ์์
๋ง๋ค ๋ฌธ์ ํ์ํ์ ํ๋ผ๋ฏธํฐ ํ๋์ด ํ์ํ ์ ์์
- ํ์ ์ฐ๊ตฌ๋ก adaptive trajectory replanning, online contact estimation, cross-task generalization ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ์ด ํ์ํจ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Opt2Skill์ model-based trajectory optimization๊ณผ reinforcement learning์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ์ธ๊ฐํ ๋ก๋ด์ ๋์ญํ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ ๋ค์ํ ๋ก์ฝ-์กฐ์ ์์
์ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ์ค์ ํ๋์จ์ด ์ ์ด๊น์ง ์ฑ๊ณตํ ์ค์ํ ๊ธฐ์ฌ๋ก, ํ ํฌ ์ ๋ณด ํ์ฉ๊ณผ ๊ด๋ฒ์ํ ์คํ ๊ฒ์ฆ์ ํตํด ๋์ ๊ณผํ์ ๊ฐ์น๋ฅผ ๊ฐ์ถ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์