CLOT: Closed-Loop Global Motion Tracking for Whole-Body Humanoid Teleoperation
์ ์: Tengjie Zhu, Guanyu Cai, Yang Zhaohui, Guanzhu Ren, Haohui Xie, ZiRui Wang, Junsong Wu, Jingbo Wang, Xiaokang Yang, Yao Mu, Yichao Yan | ๋ ์ง: 2026-02-13 | URL: https://arxiv.org/abs/2602.15060 📄 PDF
Essence
Fig. 1: Long-horizon whole-body teleoperation with global pose closed-loop feedback. The proposed framework achieves
CLOT๋ ๊ณ ์ฃผํ ๋ก์ปฌ๋ผ์ด์ ์ด์
ํผ๋๋ฐฑ์ ํตํด ํ๋ฃจํ ์ ์ญ ์์ธ ์ถ์ ์ ๋ฌ์ฑํ๋ ์ค์๊ฐ ์ธ๊ฐํ ๋ก๋ด ์๊ฒฉ์กฐ์ข
์์คํ
์ผ๋ก, ์ฅ์๊ฐ ์ด์ ์ค ๋์ ๋๋ ์ ์ญ ๋๋ฆฌํํธ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
Motivation
- Known: ์ต๊ทผ ํ์ต ๊ธฐ๋ฐ ์ถ์ ๋ฐฉ๋ฒ์ ๋ฏผ์ฒฉํ๊ณ ์กฐ์จ๋ ์์ง์์ ๊ฐ๋ฅํ๊ฒ ํ์ง๋ง, ๋ก๋ด์ ๋ก์ปฌ ํ๋ ์์์ ์๋ํ๋ฉฐ ์ ์ญ ์์ธ ํผ๋๋ฐฑ์ ๋ฌด์ํ์ฌ ์ฅ์๊ฐ ์คํ ์ค ๋๋ฆฌํํธ์ ๋ถ์์ ์ฑ์ด ๋ฐ์ํ๋ค.
- Gap: ๊ธฐ์กด ์ ์ฒด ์ ์ฒด ์ถ์ ์์คํ
์ ๋ก์ปฌ ๋ก๋ด ํ๋ ์์์ ์๋ํ์ฌ ์ ์ญ ๋๋ฆฌํํธ ๋ฌธ์ ๊ฐ ์์ผ๋ฉฐ, ๊ฐํํ์ต์์ ์ง์ ์ ์ธ ์ ์ญ ์ถ์ ๋ณด์์ ์ ์ฉํ๋ฉด ๊ณต๊ฒฉ์ ์ด๊ณ ๋ถ์์ ํ ๋ณด์ ์ด ๋ฐ์ํ๋ค.
- Why: ์ฅ์๊ฐ ์์ ์ ์ธ ์ธ๊ฐํ ๋ก๋ด ์๊ฒฉ์กฐ์ข
์ ํ์ค ์ธ๊ณ ๋ฐ์ดํฐ ์์ง๊ณผ ๊ตฌ์ฒดํ๋ ์ง๋ฅ ๋ฐ์ ์ ํ์ ์์์ด๋ฉฐ, ์ ์ญ ๋๋ฆฌํํธ ์ ๊ฑฐ๋ ์์ ์ฑ๊ณผ ์์
์ฑ๊ณต๋ฅ ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.
- Approach: Observation Pre-shift๋ผ๋ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ฌด์์ํ ์ ๋ต์ผ๋ก ๊ด์ฐฐ ๊ถค์ ๊ณผ ๋ณด์ ๊ถค์ ์ ๋ถ๋ฆฌํ์ฌ ์๋ฌต์ ๋ชจ์
๋ณด๊ฐ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ , Transformer ๊ธฐ๋ฐ ์ ์ฑ
๊ณผ adversarial motion prior ์ ๊ทํ๋ฅผ ๊ฒฐํฉํ๋ค.
Achievement
Fig. 1: Long-horizon whole-body teleoperation with global pose closed-loop feedback. The proposed framework achieves
- ํ๋ฃจํ ์ ์ญ ์ ์ด: ๋ก์ปฌ๋ผ์ด์ ์ด์
ํผ๋๋ฐฑ์ ํตํ ์ค์๊ฐ ์ ์ฒด ์ ์ฒด ์๊ฒฉ์กฐ์ข
์ผ๋ก ์ฅ์๊ฐ ๋๋ฆฌํํธ ์๋ ์ธ๊ฐ-์ธ๊ฐํ ๋ก๋ด ๋ชจ๋ฐฉ ๋ฌ์ฑ
- Observation Pre-shift ์ ๋ต: ๋ชฉํ ์์ธ๋ฅผ ๊ด์ฐฐ์์๋ง ๋ฏธ๋ ํ์์คํฌํ๋ก ๋ฌด์์ ์ค์ ํ๋ฉด์ ๋ณด์์ ํ์ฌ ์๊ฐ๊ณผ ์ ๋ ฌํ์ฌ ๋ถ๋๋ฝ๊ณ ์์ ์ ์ธ ์ ์ญ ๋ณด์ ๊ฐ๋ฅ
- ๊ณ ํ์ง ์ธ๊ฐ ๋ชจ์
๋ฐ์ดํฐ์
: ์ธ๊ฐํ ๋ก๋ด ์ญํ๊ณผ ํธํ๋๋๋ก ์๊ฒฉํ ํ๋กํ ์ฝ๋ก ์์งํ 20์๊ฐ์ ๋ค์ํ ์ธ๊ฐ ๋ชจ์
๋ฐ์ดํฐ
- Transformer ๊ธฐ๋ฐ ์ ์ฑ
: ์๊ณต๊ฐ ์ ๋ณด ํฌ์ฐฉ ๋ฅ๋ ฅ์ด ๊ฐํ๋ ์ ์ฑ
๋คํธ์ํฌ๋ก 1300 GPU์๊ฐ ์ด์ ํ๋ จ
- ์ค์ ๋ฐฐํฌ ๋ฐ ๊ฒ์ฆ: 31 DoF Adam Pro ์ธ๊ฐํ ๋ก๋ด์์ ๋์ ๋ชจ์
, ๊ณ ์ ๋ฐ ์ถ์ , ๊ฐ๊ฑดํ sim-to-real ์ ์ด ๊ฒ์ฆ
How
Fig. 3: Overview of the CLOT pipeline. Phase 1: Data Pipeline. Human motion is captured using a hybrid opticalโinertial
- OptiTrack ๊ดํ ๋์ ํฌ์ฐฉ ์์คํ
์ผ๋ก ์ธ๊ฐ ์์ง์๊ณผ ๋ก๋ด ์ ์ญ ์์ธ๋ฅผ ๋์์ ๊ณ ์ ๋ฐ๋๋ก ๊ธฐ๋ก
- Pinocchio IK solver๋ฅผ ์ฌ์ฉํ ์จ๋ผ์ธ ๋์ ์ฌํ๊ฒํ
์ผ๋ก ์ธ๊ฐ ๋์์ ๋ก๋ด ๋ชฉํ ๊ถค์ ์ผ๋ก ๋ณํ
- ๋ชฉํ ์์ธ๋ฅผ ๊ด์ฐฐ ์
๋ ฅ์์๋ ๋ฌด์์ ๋ฏธ๋ ํ์์คํฌํ๋ก, ๋ณด์ ๊ณ์ฐ์์๋ ํ์ฌ ์๊ฐ์ผ๋ก ์ค์ ํ๋ Observation Pre-shift ๊ธฐ๋ฒ ์ ์ฉ
- PPO(Proximal Policy Optimization)๋ก ์ ์ฒด ์ ์ฒด ์ถ์ ์ ์ฑ
ํ๋ จ
- Adversarial Motion Prior (AMP) ๋ณด์์ผ๋ก ๋ถ์์ฐ์ค๋ฌ์ด ๋์ ์ํฐํฉํธ ์ต์
- ์๊ณผ ์๊ฐ๋ฝ ์์ง์์๋ ์ฌํ๊ฒํ
๋ ์กฐ์ธํธ ์ฐธ์กฐ์ ๋ํ ์ง์ PD ์ถ์ ์ ์ฉ
Originality
- Observation Pre-shift ์ ๋ต: ๊ด์ฐฐ๊ณผ ๋ณด์ ๊ถค์ ๋ถ๋ฆฌ๋ฅผ ํตํ ์๋ก์ด ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ฌด์์ํ ๊ธฐ๋ฒ์ผ๋ก, ๊ธฐ์กด ๊ฐํํ์ต ๋ฐฉ์์ ๊ณต๊ฒฉ์ ๋ณด์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์ฐฝ์์ ์ ๊ทผ
- ํ๋ฃจํ ์ ์ญ ์ ์ด ํตํฉ: ๊ธฐ์กด ๋ก์ปฌ ํ๋ ์ ๊ธฐ๋ฐ ์ถ์ ์ ๊ณ ์ฃผํ ๋ก์ปฌ๋ผ์ด์ ์ด์
ํผ๋๋ฐฑ์ ์์คํ
์ ์ผ๋ก ํตํฉํ ๊ตฌ์กฐ
- ๋ชฉํ ์งํฅํ ์ธ๊ฐํ ๋ก๋ด ๋ฐ์ดํฐ์
: ๊ธฐ์กด ์ ๋๋ฉ์ด์
๋ชฉ์ ์ ๊ณต๊ฐ ๋ฐ์ดํฐ์
๊ณผ ๋ฌ๋ฆฌ ์ค์ ์ธ๊ฐํ ๋ก๋ด ์ญํ๊ณผ ํธํ์ฑ์ ์ํด ์๊ฒฉํ๊ฒ ์์งํ ์์ฒด ๋ฐ์ดํฐ์
- Transformer ๊ธฐ๋ฐ ์ ์ฑ
์ํคํ
์ฒ: ์๊ณต๊ฐ ์ ๋ณด ํฌ์ฐฉ์ ์ต์ ํ๋ ์ ๊ฒฝ๋ง ์ค๊ณ๋ก ๋ณต์กํ ์ ์ฒด ์ ์ฒด ์์ง์ ๋ชจ๋ธ๋ง
Limitation & Further Study
- ๊ดํ ๋์ ํฌ์ฐฉ ์์คํ
์ ์์กดํ์ฌ ์ผ์ธ ํ๊ฒฝ์ด๋ GPS ์ ํธ๊ฐ ์ฝํ ํ๊ฒฝ์์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ ์ ํ
- 20์๊ฐ์ ์ธ๊ฐ ๋ชจ์
๋ฐ์ดํฐ๋ ํน์ ์ ํ์ ์์ง์์ ํธํฅ๋ ๊ฐ๋ฅ์ฑ ์์ผ๋ฉฐ, ๋ ๊ด๋ฒ์ํ ๋์ ๋ฒ์ฃผ์ ๋ํ ์ผ๋ฐํ ์ฑ๋ฅ ๊ฒ์ฆ ํ์
- 31 DoF์ Adam Pro ๋ก๋ด์๋ง ๋ฐฐํฌ๋์์ผ๋ฏ๋ก, ๋ค๋ฅธ ํํ์ ์ธ๊ฐํ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ์ด์ ์ฑ ๊ฒ์ฆ ๋ถ์กฑ
- ์๊ณผ ์๊ฐ๋ฝ ์์ง์์๋ ํ๋ฃจํ ํผ๋๋ฐฑ ์์ด ์ง์ PD ์ถ์ ๋ง ์ ์ฉ๋์ด ๋ณต์กํ ์กฐ์ ์์
์์์ ์ ๋ฐ๋ ์ ํ ๊ฐ๋ฅ์ฑ
- ํ์์ฐ๊ตฌ: ์๊ฐ ๊ธฐ๋ฐ ๋๋ ๋ผ์ด๋ ๊ธฐ๋ฐ ๋ก์ปฌ๋ผ์ด์ ์ด์
์ผ๋ก ๊ดํ ์์คํ
์์กด์ฑ ์ ๊ฑฐ, ๋ ํฐ ๊ท๋ชจ์ ๋ค์ํ ์ธ๊ฐ ๋ชจ์
๋ฐ์ดํฐ์
์์ง, ๋ค์ํ ์ธ๊ฐํ ๋ก๋ด ํ๋ซํผ์ ๋ํ ์ ์ ํ์ต ๋ฐฉ๋ฒ ๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: CLOT๋ ํ๋ฃจํ ์ ์ญ ์ ์ด์ Observation Pre-shift ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ฌด์์ํ ์ ๋ต์ ํตํด ์ฅ์๊ฐ ๋๋ฆฌํํธ ์๋ ์ธ๊ฐํ ๋ก๋ด ์๊ฒฉ์กฐ์ข
์ ๋ฌ์ฑํ ํ์ ์ ์์คํ
์ผ๋ก, ์ค์ ์ธ๊ฐํ ๋ก๋ด์์์ ํฌ๊ด์ ๊ฒ์ฆ๊ณผ ๊ณ ํ์ง ๋ฐ์ดํฐ์
๊ณต๊ฐ๋ ์ด ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์