TOP: Time Optimization Policy for Stable and Accurate Standing Manipulation with Humanoid Robots
์ ์: Zhenghan Chen, Haocheng Xu, Haodong Zhang, Liang Zhang, He Li, Dongqi Wang, Jiyu Yu, Yifei Yang, Zhongxiang Zhou, Rong Xiong | ๋ ์ง: 2025-08-01 | URL: https://arxiv.org/abs/2508.00355 📄 PDF
Essence
Fig. 2: The overall architecture. (A) Training a latent code zt based on VAE structure to represent diverse upper-body m
์ด ๋
ผ๋ฌธ์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์์ ์ ์ธ ์์ํ๊ธฐ ์กฐ์์ ์ํด ์์ฒด ๋์์ ์๊ฐ ๊ถค์ ์ ์ต์ ํํ๋ Time Optimization Policy (TOP)์ ์ ์ํ๋ค. ์์ฒด์ ๋น ๋ฅธ ์์ง์์ผ๋ก ์ธํ ๋ชจ๋ฉํ
์ ์ค์ฌ ๊ท ํ, ์ ํ์ฑ, ์๊ฐ ํจ์จ์ฑ์ ๋์์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ๊ธฐ์กด ๋ฐฉ๋ฒ์ ์ ์ฒด ์ ์ฒด RL ์ปจํธ๋กค๋ฌ๋ ์ํ์ฒด ๋ถ๋ฆฌ ์ปจํธ๋กค๋ฌ๋ฅผ ์ฌ์ฉํ์ฌ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์กฐ์ ์ ์ด๋ฅผ ์ํํ๋ค. ๊ทธ๋ฌ๋ ์์ฒด์ ๋น ๋ฅธ ์์ง์์ด ํ์ฒด์ ์์ ์ฑ์ ๋ฏธ์น๋ ์ํฅ์ ์ถฉ๋ถํ ๊ณ ๋ คํ์ง ๋ชปํ๋ค.
- Gap: ๊ธฐ์กด decoupled ์ปจํธ๋กค๋ฌ๋ PD ์ปจํธ๋กค๋ฌ๋ก ์์ฒด ์ ํ์ฑ์ ๋ณด์ฅํ๊ณ RL๋ก ํ์ฒด ์์ ์ฑ์ ์ ์งํ์ง๋ง, ์์ฒด ๋์์ผ๋ก ์ธํ ๋ชจ๋ฉํ
๋ณํ๊ฐ ๊ท ํ์ ํด์น ์ ์๋ค. ์์ฒด ๋์์ ์๋๋ฅผ ๋์ ์ผ๋ก ์กฐ์ ํ์ฌ ์์ ์ฑ๊ณผ ์ ํ์ฑ์ ๋ชจ๋ ํ๋ณดํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ด ์ฐ์
์ฉ ์กฐ๋ฆฝ, ๊ฐ์ ์ฉ ์๋น์ค ๋ฑ ๋ณต์กํ ์กฐ์ ์์
์ ์์ ์ ์ผ๋ก ์ํํ๋ ค๋ฉด ๋น ๋ฅธ ์์ฒด ์์ง์ ์ค์๋ ๊ท ํ์ ์ ์งํ๋ฉด์ ์ ํํ ๊ถค์ ์ถ์ ์ด ํ์ํ๊ธฐ ๋๋ฌธ์ด๋ค.
- Approach: VAE๋ฅผ ํตํด ์์ฒด ๋์์ ๊ตฌ์กฐํ๋ ํํ์ ํ์ตํ๊ณ , ์์ฒด๋ PD ์ปจํธ๋กค๋ฌ, ํ์ฒด๋ RL ์ ์ฑ
์ผ๋ก ๋ถ๋ฆฌ ์ ์ดํ ํ, TOP์ ์ด์ฉํด motion ํด๋ฆฝ ์ฌ์ด์ timestamp๋ฅผ ์ต์ ํํ์ฌ ๋์ ์๋๋ฅผ ์กฐ์ ํ๋ค.
Achievement
Fig. 1: Illustration of different methods. A: Whole-body RL
- TOP ํ๋ ์์ํฌ: ์์ฒด ๋์์ timestamp ์ต์ ํ๋ฅผ ํตํด ๋ชจ๋ฉํ
์ํฅ์ ์ต์ํํ๋ฉด์ ๊ท ํ, ์ ํ์ฑ, ์๊ฐ ํจ์จ์ฑ์ ๋์์ ๋ฌ์ฑํ๋ ํตํฉ ํ๋ ์์ํฌ๋ฅผ ์ ์
- Motion Prior ํ์ต: VAE ๊ธฐ๋ฐ motion ํํ ํ์ต์ผ๋ก ์ํ์ฒด ํ์กฐ ๋ฅ๋ ฅ์ ํฅ์
- Supervised RL ๊ธฐ๋ฐ TOP: motion timestamp๋ฅผ ์ต์ ํํ๋ ์๋ก์ด supervised ๊ฐํํ์ต ๋ชจ๋ ์ ์
- ๊ฒ์ฆ: ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ๋ก๋ด ์คํ์ ํตํด ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น ๋ ์์ ์ถ์ ์ค์ฐจ์ ๋์ ์์ ์ฑ์ ์
์ฆ
How
Fig. 2: The overall architecture. (A) Training a latent code zt based on VAE structure to represent diverse upper-body m
- VAE๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ ์์ฒด ๋์์ latent code zt๋ก ํํํ๋ motion prior ํ์ต
- ์์ฒด์๋ PD ์ปจํธ๋กค๋ฌ๋ฅผ ์ ์ฉํ์ฌ motion ํด๋ฆฝ mt ์ถ์ , ํ์ฒด์๋ balance RL ์ ์ฑ
์ ์ฉ
- ๊ณ ์ ๋ timestamp โt ๋์ TOP์ ํ๋ จํ์ฌ motion ํด๋ฆฝ ์ฌ์ด์ ์๊ฐ ๊ฐ๊ฒฉ์ ๋์ ์ผ๋ก ์กฐ์
- linear interpolation์ ์ฌ์ฉํ์ฌ ์กฐ์ ๋ timestamp์ ๋ฐ๋ฅธ ์๋ก์ด motion m't ์์ฑ", '์ ์ฒด ์ํคํ
์ฒ๋ฅผ end-to-end๋ก ํ๋ จํ์ฌ ํ์ฒด ์์ ์ฑ๊ณผ ์์ฒด ์ ๋ฐ๋๋ฅผ ๋ชจ๋ ์ต์ ํ
Originality
- ์์ฒด ๋์ ์๋ ์กฐ์ ์ ํตํ ๋ชจ๋ฉํ
๊ด๋ฆฌ๋ผ๋ ์๋ก์ด ๊ด์ ์ผ๋ก ์์ํ๊ธฐ ์กฐ์ ๋ฌธ์ ์ ์ ๊ทผ
- ๊ธฐ์กด PD-RL ๋ถ๋ฆฌ ์ปจํธ๋กค์ ์๊ฐ ์ต์ ํ ์ ์ฑ
์ ์ถ๊ฐํ novel combination
- supervised RL์ ์ฌ์ฉํ์ฌ motion timestamp๋ฅผ ์ง์ ์ต์ ํํ๋ ์๋ก์ด ๋ฐฉ์ ์ ์
- VAE ๊ธฐ๋ฐ motion representation๊ณผ TOP์ ํตํฉํ end-to-end ํ๋ ์์ํฌ
Limitation & Further Study
- ๋
ผ๋ฌธ์์ TOP์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๋ค์ํ ์์ฒด ๋์ ํ์
์ ๋ํด ์ด๋ ์ ๋์ธ์ง ๋ช
ํํ์ง ์์
- ์ค์ ๋ก๋ด ์คํ์ ๊ท๋ชจ๊ฐ ์ ํ์ ์ด๊ณ ๋ค์ํ ํ๊ฒฝ ์กฐ๊ฑด์ ๋ํ ํ๊ฐ ๋ถ์กฑ
- timestamp ์ต์ ํ์ ๋ฐ๋ฅธ ์์
์๋ฃ ์๊ฐ ์ฆ๊ฐ์ ์ค์ trade-off์ ๋ํ ์ฌํ ๋ถ์ ํ์
- ์ธ๋ถ ๊ต๋(external perturbation)์ ๋ํ robustness ํ๊ฐ๊ฐ ๋ ์ ๋ฐํ๊ฒ ํ์
- ๋ค๋ฅธ ์ต์ humanoid ์ ์ด ๋ฐฉ๋ฒ๋ค๊ณผ์ ์ง์ ์ ์ธ ์ฑ๋ฅ ๋น๊ต ๋ถ์กฑ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ์์ฒด ๋์ ์๊ฐ ์ต์ ํ๋ผ๋ ์ง๊ด์ ์ด๋ฉด์๋ ํจ๊ณผ์ ์ธ ์์ด๋์ด๋ก ํด๋จธ๋
ธ์ด๋ ์์ํ๊ธฐ ์กฐ์์ ์์ ์ฑ-์ ํ์ฑ-ํจ์จ์ฑ trade-off ๋ฌธ์ ๋ฅผ ์ฐฝ์์ ์ผ๋ก ํด๊ฒฐํ๋ค. ์ด๋ก ๊ณผ ์คํ์ด ์ ๊ฒฐํฉ๋์ด ์์ผ๋ฉฐ, humanoid ๋ก๋ด ์ ์ด ๋ถ์ผ์ ์ค์ง์ ์ธ ๊ธฐ์ฌ๋ฅผ ์ ๊ณตํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์