HiWET: Hierarchical World-Frame End-Effector Tracking for Long-Horizon Humanoid Loco-Manipulation
์ ์: Zhanxiang Cao, Liyun Yan, Yang Zhang, Sirui Chen, Jianming Ma, Tianyue Zhan, Shengcheng Fu, Yufei Jia, Cewu Lu, Yue Gao | ๋ ์ง: 2026-02-06 | DOI: 10.48550/arXiv.2602.06341 📄 PDF
Essence
Fig. 2.
HiWET๋ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ฅ๊ธฐ ์กฐ์ ์์
์ ์ํด ์ธ๊ณ ์ขํ๊ณ ๊ธฐ์ค end-effector ์ถ์ ์ ๋ช
์์ ์ผ๋ก ์ํํ๋ ๊ณ์ธต์ ๊ฐํํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. Kinematic Manifold Prior๋ฅผ ํตํด ํ์ ๊ณต๊ฐ์ ๊ฐ์์ํค๊ณ ๋์ญํ์ ์์ ์ฑ์ ์ ์งํ๋ฉด์ ์ ๋ฐํ ์ถ์ ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ๊ฐํํ์ต๊ณผ ๋ชจ๋ฐฉํ์ต์ ํด๋จธ๋
ธ์ด๋์ ์ ์ ๋์ ์ ์ด๋ฅผ ์คํํ๊ณ , ๊ณ์ธต์ ๊ตฌ์กฐ๋ก ๊ณ ์์ค ๊ณํ๊ณผ ์ ์์ค ๋์ ์ ์ด๋ฅผ ๋ถ๋ฆฌํ๋ ๋ฐฉ์์ด ์ฐ๊ตฌ๋์ด ์๋ค. ๊ทธ๋ฌ๋ ๋๋ถ๋ถ์ ๊ธฐ์กด ๋ฐฉ๋ฒ์ body-centric frame์์ ๋ช
๋ น์ ๊ณต์ํํ๋ค.
- Gap: ๊ธฐ์กด body-centric ์ ๊ทผ๋ฒ์ ๋ค๋ฆฌ ์ด๋์ผ๋ก ์ธํ ๋์ world-frame drift๋ฅผ ๋ณด์ ํ์ง ๋ชปํ๋ฉฐ, ์ํ์ฒด ๋์ญํ์ ๊ธด๋ฐํ ๊ฒฐํฉ์ผ๋ก ์ธํด ์ ๋ฐํ end-effector ์ถ์ ์ด ์ด๋ ต๋ค. ๋ํ task ๊ถค์ ์ด ์ ์ ๋๋ฌ ๊ณต๊ฐ์ ๋ฒ์ด๋ ๋ ๋ฒ ์ด์ค ์ด๋์ ๋ช
์์ ์ผ๋ก ์กฐ์ ํ์ง ์๋๋ค.
- Why: ์ ๋ฐํ ์กฐ์ ์์
์ ์ ์งํ๋ฉด์ ๋์ ์์ ์ฑ์ ๋ณด์ฅํ๋ ๊ฒ์ ํ์ค ํด๋จธ๋
ธ์ด๋ ๋ฐฐํฌ์ ํ์์ ์ด๋ฉฐ, ๋ช
์์ world-frame ์ถ์ ์ ๊ธฐํํ์ ๊ฒฐํฉ์ ๋
ธ์ถํ์ฌ ๋ ๋์ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: HiWET๋ ๊ณ ์์ค ์ ์ฑ
์ด ์ธ๊ณ ์ขํ๊ณ์์ subgoal(๋ฒ ์ด์ค ์๋, ๋์ด, end-effector ๋ชฉํ)์ ์์ฑํ๊ณ ์ ์์ค ์ ์ฑ
์ด ์์ ์ฑ ์ ์ฝ ํ์์ ์ด๋ฅผ ์คํํ๋ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ์ฑํํ๋ค. Kinematic Manifold Prior๋ residual learning์ ํตํด ์ด๋ํ์ ์ผ๋ก ์ ํจํ ํ๋ ๊ณต๊ฐ์ ์ ๊ณตํ๋ค.
Achievement
Fig. 1.
- ๊ณ์ธต์ world-frame ์ ์ด ์คํด: ์์ฒด ์กฐ์๊ณผ ํ์ฒด ๋ก์ปฌ๋ก๋ชจ์
์ ๋ช
์์ ๊ณต๊ฐ ์ธํฐํ์ด์ค๋ก ์กฐ์ ํ์ฌ ๋ฒ ์ด์ค ์ด๋๊ณผ ๋์ด ์กฐ์ ์ ํตํ world-frame ์ผ๊ด์ฑ ๋ฌ์ฑ
- Kinematic Manifold Prior ํตํฉ: residual action space ๋ด์ ๊ณ ์ ์ด๋ํ ์ฐธ์กฐ๋ฅผ ์ ๊ณตํ์ฌ ์กฐ์ manifold์ ์ ์ฑ
์ ๊ณ ์ ํ๊ณ ๋์ ์ ์์ฑ ๋ณด์กด
- ์ ๋ฐํ ์ถ์ ์ฑ๋ฅ: ์๋ฎฌ๋ ์ด์
์์ 12.4 mm์ world-frame ์ถ์ ์ค์ฐจ ๋ฌ์ฑ
- ์ค์ ๋ก๋ด ๊ฒ์ฆ: ๋ฌผ๋ฆฌ ํด๋จธ๋
ธ์ด๋ ํ๋ซํผ์์ zero-shot sim-to-real ์ ์ด ์ฑ๊ณต ๋ฐ ๋ค์ํ ์ฌ์ง ๊ตฌ์ฑ ํ์์ ์์ ์ ๋ก์ปฌ๋ก๋ชจ์
์์ฐ
How
Fig. 2.
- Semi-Markov Decision Process(Semi-MDP)๋ก ๊ณ์ธต์ RL ๋ฌธ์ ๊ณต์ํํ์ฌ ์ฅ๊ธฐ ์กฐ์ ๋ชฉํ์ ์๊ฐ์ ์์ ์ฑ ์ ์ฝ ์กฐํ
- ๊ณ ์์ค command policy๋ K step๋ง๋ค subgoal ์
๋ฐ์ดํธ, ์ ์์ค tracking policy๋ ๋งค ์ ์ด ์คํ
์์ ๊ณ ์ ๋ ๊ณ ์์ค ๋ช
๋ น์ ์กฐ๊ฑด๋ถ๋ก ์์ฉ
- Kinematic Manifold Prior ์ฌ์ ํ์ต์ผ๋ก IK error์ manipulability์ ์ํด ํํฐ๋ง๋ ์ค์๋ ์ํ๋ง ๋ฐ์ดํฐ์
๊ณผ ๊ท ์ผ ๋ฌด์์ ์ํ๋ง ํผํฉ ์ฌ์ฉ
- History Encoder๋ก ์๊ฐ์ ๋งฅ๋ฝ ์ถ์ถ, State Estimator๋ก auxiliary estimation loss๋ฅผ ํตํด ํน๊ถ ์ ๋ณด ๋ณต์
- ์์ฒด๋ KMP ์ฐธ์กฐ์ residual action์ผ๋ก ๋ฏธ์ธ์กฐ์ , ํ์ฒด๋ ๋ฒ ์ด์ค ์๋์ ๋์ด ๋ช
๋ น์ผ๋ก ๋ก์ปฌ๋ก๋ชจ์
์ ์ด
Originality
- ๊ธฐ์กด body-centric ๊ด์ ์์ ํํผํ์ฌ ๋ช
์์ world-frame end-effector ์ถ์ ์ ํด๋จธ๋
ธ์ด๋ ์กฐ์ ๋ฌธ์ ์ ์ค์ฌ์ผ๋ก ์ฌ์ ์
- Kinematic Manifold Prior๋ฅผ residual learning๊ณผ ๊ฒฐํฉํ์ฌ ์ด๋ํ์ ์ ํจ์ฑ์ ๋ณด์ฅํ๋ฉด์ ๋์ญํ์ ํ์ต ๊ฐ๋ฅ์ฑ ์ ์ง
- high-level policy๊ฐ ๋ฒ ์ด์ค ์์น, ๋์ด, end-effector ๋ชฉํ๋ฅผ ํตํฉ์ผ๋ก ์ต์ ํํ์ฌ ์ํ์ฒด ๊ฒฐํฉ์ ๋ช
์์ ์ผ๋ก ํด๊ฒฐ
- importance-sampled dataset ๊ธฐ๋ฐ ๋ช
๋ น ์ํ๋ง์ผ๋ก ๋๋ฌ ๊ณต๊ฐ ๋ฐ ์์ ์ฑ ์ ์ฝ ๋ด ํ์ ๊ณต๊ฐ ์ ์ฝ
Limitation & Further Study
- ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํ๊ฒฝ์ gap์ State Estimator์ ํน๊ถ ์ ๋ณด ์ฌ์ฉ์ผ๋ก ๋ถ๋ถ์ ์ผ๋ก๋ง ํด๊ฒฐ๋๋ฉฐ, ๋ ๋ค์ํ ํ๊ฒฝ ์กฐ๊ฑด์์ ๊ฒ์ฆ ํ์
- Kinematic Manifold Prior์ ์ฌ์ ํ์ต ํ์ง์ด ์ ์ฒด ์ฑ๋ฅ์ ์์กดํ๋ฏ๋ก, ๋ ๋ณต์กํ ์กฐ์ ์์
์ ๋ํ ํ์ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- real-world ์คํ์ด ๋จ์ผ ํด๋จธ๋
ธ์ด๋ ํ๋ซํผ์์๋ง ์ํ๋์์ผ๋ฏ๋ก ๋ค์ํ ๋ก๋ด ํํ์ ๋ํ ์ผ๋ฐํ ์ ๋ ๋ถ๋ช
ํ
- ํ์ ์ฐ๊ตฌ๋ visual feedback ํตํฉ, ๋ณต์กํ ๋ค๋จ๊ณ ์กฐ์ ์๋๋ฆฌ์ค, ํ๊ฒฝ ์ํธ์์ฉ ํ์ต ๋ฑ์ ํฌํจํ ์ ์์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: HiWET๋ world-frame ์ค์ฌ ์ฌ์ ์์ Kinematic Manifold Prior๋ฅผ ํตํด ํด๋จธ๋
ธ์ด๋ ์กฐ์์์ ์ ๋ฐํ๊ณ ์์ ์ ์ธ ์ถ์ ์ ์คํํ ์ฐฝ์์ ์ฐ๊ตฌ์ด๋ค. ์ค์ ๋ก๋ด ๊ฒ์ฆ๊ณผ 12.4 mm์ ์ถ์ ์ ํ๋๋ก ์ค์ง์ ๊ธฐ์ฌ๋ฅผ ์
์ฆํ์์ผ๋ฉฐ, ๊ณ์ธต์ ์ค๊ณ์ ๋ช
์์ ๊ณต๊ฐ ์ธํฐํ์ด์ค๋ ์ฅ๊ธฐ ๋ก์ปฌ๋ก์กฐ์ ๋ฌธ์ ์ ํจ๊ณผ์ ํด๊ฒฐ ๋ฐฉ์์ ์ ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์