ULC: A Unified and Fine-Grained Controller for Humanoid Loco-Manipulation
์ ์: Wandong Sun, Luying Feng, Baoshi Cao, Yang Liu, Yaochu Jin, Zongwu Xie | ๋ ์ง: 2025-07-09 | URL: https://arxiv.org/abs/2507.06905 📄 PDF
Essence
Fig. 1: Diverse loco-manipulation capabilities enabled by ULC. The humanoid robot demonstrates various coordinated whole
ULC๋ ์ธ๊ฐํ ๋ก๋ด์ ๋ณดํ-์กฐ์์ ์ํด ์์ฒด์ ํ์ฒด ์ ์ด๋ฅผ ํตํฉํ ๋จ์ผ ์ ์ฑ
ํ๋ ์์ํฌ๋ก, sequential skill acquisition, residual action modeling, ๋คํญ์ ๋ณด๊ฐ ๋ฑ์ ๊ธฐ์ ์ ํตํด ์ถ์ ์ ํ๋, ๋์ ์์
๊ณต๊ฐ, ๊ฒฌ๊ณ ์ฑ์ ๋์์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: ๊ธฐ์กด ์ฐ๊ตฌ๋ ๋ณดํ(ํ์ฒด)๊ณผ ์กฐ์(์์ฒด)์ ๋ถ๋ฆฌ๋ ์ ์ฑ
์ผ๋ก ์ ์ดํ๋ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ์ฃผ๋ก ์ฑํํ์ฌ ํ๋ จ ๋ณต์ก๋๋ฅผ ๊ฐ์์์ผฐ์ผ๋, ์ด๋ ๋ถ๋ถ ์์คํ
๊ฐ ์กฐ์จ์ ์ ํํ๊ณ ์ธ๊ฐ์ ์ ์ ์ ์ด์ ๋ชจ์๋๋ค.
- Gap: ํตํฉ ์ ์ด๊ฐ ์ฑ๋ฅ(์ถ์ ์ ํ๋, ์์
๊ณต๊ฐ, ๊ฒฌ๊ณ ์ฑ)์ ํฌ์ํ์ง ์์ผ๋ฉด์ ๋ฌ์ฑ ๊ฐ๋ฅํ์ง, ๊ทธ๋ฆฌ๊ณ ๋ฐฐํฌ ์คํ๊ฒฝ์ ๋ช
๋ น ๋ณ๋์ฑ์ ๊ฒฌ๋๋ ํตํฉ ์ ์ด๊ธฐ๋ฅผ ์ด๋ป๊ฒ ์ค๊ณํ ๊ฒ์ธ์ง ๋ถ๋ช
ํํ๋ค.
- Why: ์ธ๊ฐํ ๋ก๋ด์ด ๊ฐ์ ์ฉ ํ๊ฒฝ์์ ๋ณต์กํ ์์
(๋ฌผ๊ฑด ์ง๊ธฐ, ๋ฐ๊ธฐ, ์ ๋ฐ ์กฐ์)์ ์ํํ๋ ค๋ฉด ๋ณดํ๊ณผ ์กฐ์์ด ์กฐ์จ๋์ด์ผ ํ๋ฉฐ, ํตํฉ ์ ์ด๋ ์ด๋ฌํ ์ ์ ์กฐ์จ์ ์์ฐ์ค๋ฝ๊ฒ ๊ตฌํํ ์ ์๋ค.
- Approach: ULC๋ ์งํ์ ์ปค๋ฆฌํ๋ผ ํ์ต์ ํตํด ๋ณต์ก๋๋ฅผ ๋จ๊ณ์ ์ผ๋ก ์ฆ๊ฐ์ํค๊ณ , residual action modeling์ผ๋ก ์ธ๋ฐํ ์ ์ด ์กฐ์ ์, ๋คํญ์ ๋ณด๊ฐ๊ณผ random delay release๋ก ๋ฐฐํฌ ๋ณ๋์ฑ์ ๋ํ ๊ฒฌ๊ณ ์ฑ์ ํ๋ณดํ๋ฉฐ, ๋๊ท๋ชจ ๋ณ๋ ฌ reinforcement learning์ผ๋ก ๋จ์ผ ์ ์ฑ
์ ํ์ตํ๋ค.
Achievement
Fig. 1: Diverse loco-manipulation capabilities enabled by ULC. The humanoid robot demonstrates various coordinated whole
- ํตํฉ ์ ์ด ํ๋ ์์ํฌ: root velocity, root height, torso rotation, dual-arm joint position์ ๋์์ ์ถ์ ํ๋ ๋จ์ผ ์ ์ฑ
์ผ๋ก ์ ์ ์กฐ์จ ๋ฌ์ฑ
- ํฅ์๋ ์ถ์ ์ฑ๋ฅ: ๋ถ๋ฆฌ๋ ๋ฐฉ๋ฒ ๋๋น ๋ ๋์ joint angle tracking ์ ํ๋ ๋ฐ ์ธ๋ถ ๋ถํ ํ์์์ ์ ๋ฐํ ์กฐ์
- ๋์ ์์
๊ณต๊ฐ: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ํฐ workspace coverage๋ก ๋ค์ํ ๋์ด์ ์์น์์์ ์์
๊ฐ๋ฅ
- ๋ฐฐํฌ ๊ฒฌ๊ณ ์ฑ: random delay release, load randomization, center-of-gravity tracking์ผ๋ก ์ค์ ๋ฐฐํฌ ๋ณ๋์ฑ๊ณผ external disturbance์ ๋ํ ๊ฒฌ๊ณ ์ฑ ํ๋ณด
- ๋ค์ํ ์์
๊ฒ์ฆ: ๋์ฅ๊ณ ์ ๋ฌผ๊ฑด ๋ฃ๊ธฐ, ์์ ๋ค๊ธฐ, ๋ฐ๋ฅ์์ ์ฝ์ง, ์
๊ธฐ ์ฐ์ฃผ ๋ฑ 10๊ฐ์ง ์ด์์ ๋ณต์กํ loco-manipulation ์์
์ฑ๊ณต
How
Fig. 2: Method overview of the Unified Loco-Manipulation Controller (ULC). Our approach employs massively parallel
- Sequential skill acquisition: ๊ฐ๋จํ ๋ณดํ ๋ช
๋ น๋ถํฐ ์์ํ์ฌ ์ ์ง์ ์ผ๋ก arm control, torso rotation ๋ฑ์ ์ถ๊ฐํ๋ ์ ์ํ ์ปค๋ฆฌํ๋ผ
- Command space design: ์คํ ๊ฐ๋ฅ์ฑ์ ๊ณ ๋ คํ factorized command space (๋ณดํ, ๋ชธํต, ํ ์ ์ด ๋ถ๋ฆฌ) ์ค๊ณ๋ก ํ์ ๊ณต๊ฐ ์ถ์
- Residual action modeling: arm ์ ์ด๋ฅผ desired position๊ณผ residual action์ ํฉ์ผ๋ก ๋ชจ๋ธ๋งํ์ฌ ์ ๋ฐํ fine-grained control ์คํ
- Polynomial interpolation: ๊ณ ์ ๊ฐ๊ฒฉ ๋ช
๋ น ์ํ๋ง๊ณผ 5์ฐจ ๋คํญ์ ๋ณด๊ฐ์ผ๋ก smooth motion transition ๊ตฌํ
- Stochastic command release: ๋ช
๋ น์ ํ๋ฅ ์ ์ผ๋ก buffering/releasingํ์ฌ ๋ฐฐํฌ ์๊ฐ ๋ณ๋์ฑ์ ์๋ฎฌ๋ ์ด์
ํ๊ณ ๊ฒฌ๊ณ ์ฑ ํฅ์
- Load randomization: ํ๋ จ ์ค payload๋ฅผ ๋ฌด์์๋ก ๋ณํ์์ผ external disturbance์ ๋ํ ์ผ๋ฐํ
- Center-of-gravity tracking: COM ํฌ์์ด support polygon ๋ด์ ์ ์ง๋๋๋ก ๋ช
์์ ๋ณด์ ํญ ์ถ๊ฐ๋ก ์์ ์ฑ ํ๋ณด
- Massive parallel RL: ๋๊ท๋ชจ ๋ณ๋ ฌ ์ฒ๋ฆฌ๋ก ๋จ์ผ ์ ์ฑ
ํ์ต ๊ฐ์ํ
Originality
- ํตํฉ ์ ์ด์ ์คํ ๊ฐ๋ฅ์ฑ ์ฆ๋ช
: ๊ณ์ธต์ ๋ถํด ๋์ ๋จ์ผ ์ ์ฑ
์ผ๋ก ์ ์ ์กฐ์จ์ ๋ฌ์ฑํ๋ฉด์๋ ์ฑ๋ฅ ์ ํ ์์์ ์ฒ์์ผ๋ก ๋๊ท๋ชจ ์คํ์ผ๋ก ์
์ฆ
- ๋ฐฐํฌ ํ์ค์ฑ์ ๊ณ ๋ คํ ํ๋ จ ๋ฐฉ๋ฒ๋ก : random delay release์ polynomial interpolation์ ๊ฒฐํฉํ์ฌ ์ค์ ๋ฐฐํฌ ํ๊ฒฝ์ ๋ช
๋ น ์๊ฐ ๋ณ๋์ฑ์ ํ๋ จ์ ํตํฉ
- Sequential skill acquisition์ ์ฒด๊ณ์ ์ ์ฉ: ๊ณ ์ฐจ์ ํ์ ๋ฌธ์ ๋ฅผ ๋จ๊ณ์ ์ปค๋ฆฌํ๋ผ์ผ๋ก ํด๊ฒฐํ๋ ํ๋ ์์ํฌ๋ฅผ humanoid loco-manipulation์ ์ฒด๊ณ์ ์ผ๋ก ์ ์ฉ
- Feasibility-aware command space: ์ด๋ํ์ ์คํ ๊ฐ๋ฅ์ฑ์ ๊ณ ๋ คํ ๋ช
๋ น ๊ณต๊ฐ ์ค๊ณ๋ก ๊ธฐ์กด motion capture ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ํ๊ณ(noise, infeasibility, bias) ๊ทน๋ณต
- Center-of-mass tracking ๊ธฐ๋ฐ ์์ ์ฑ: ์ธ๋ถ ํ์ค ๋ณํ์์ ์์ ์ฑ์ ์ ์งํ๋๋ก COM tracking reward๋ฅผ ๋ช
์์ ์ผ๋ก ์ถ๊ฐํ ์๋ก์ด ๋ณด์ ์ค๊ณ
Limitation & Further Study
- ํ๋์จ์ด ๊ฒ์ฆ ๋ฒ์: Unitree G1(3-DOF waist)์๋ง ๊ฒ์ฆ๋์์ผ๋ฏ๋ก, ๋ค๋ฅธ ์ธ๊ฐํ ๋ก๋ด ํ๋ซํผ(humanoid torso)์ ๋ํ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธํ์ธ
- ๊ณ ์ฐจ์ ๋ณต์ก ์์
์ ํ๊ณ: ํ์ฌ ์์
๋ค์ ๋จ์ผ ๊ฐ์ฒด ์กฐ์ ์ค์ฌ์ด๋ฉฐ, ๋ ์์ ๋ณต์กํ ํ๋ ฅ(dual-hand dexterous manipulation)์ด๋ ๋งค์ฐ ๋์ ์ธ ์ด๋(high-speed running)์ ๋ํ ์ฑ๋ฅ ๋ฏธ์
- ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฐ๊ทน: ๋๋ถ๋ถ ์๋ฎฌ๋ ์ด์
์์ ํ๋ จ๋์์ผ๋ฏ๋ก ํ์ค ๋ฐฐํฌ ์ camera noise, actuator delay, unmodeled dynamics ๋ฑ์ ๋ํ ๊ฒฌ๊ณ ์ฑ ์ ๋๊ฐ ๋ถ๋ถ๋ช
- ๋ช
๋ น ์์ฑ๊ธฐ์ ๋
๋ฆฝ์ฑ: ๋
ผ๋ฌธ์ low-level controller๋ก ์๋ฆฌ๋งค๊นํ๋ฉฐ, ๊ณ ์์ค ์๋ ํ์
(high-level decision-making) ๋ถ๋ถ์ ๋ณ๋ ์์คํ
(VLA models, Imitation Learning)์ ์์กด
- ๊ณ์ฐ ๋น์ฉ ๋ถ์ ๋ถ์ฌ: ๋๊ท๋ชจ ๋ณ๋ ฌ RL์ ๊ตฌ์ฒด์ ์ธ ๊ณ์ฐ ์์ ์๊ตฌ ์ฌํญ(GPUs, training time)์ด ๋ช
ํํ๊ฒ ๊ธฐ์ ๋์ง ์์
- ํ์ ์ฐ๊ตฌ: (1) ๋ ์์ ๋๊ฐ ๋์ torso ์ค๊ณ์ ๋ํ ํ์ฅ, (2) vision-based feedback๊ณผ์ ํตํฉ์ผ๋ก ํ๋ฃจํ ์ ์ด ์ฑ๋ฅ ํฅ์, (3) ๊ทนํ ์ํฉ(๋ฏธ๋๋ฌ์ด ๋ฐ๋ฅ, ๋น์ ์ ์์ธ)์์์ ๊ฒฌ๊ณ ์ฑ ๊ฐํ, (4) ์ค์๊ฐ ์ฌํ์ต์ ํตํ ์ ์ํ ์ ์ด
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ULC๋ humanoid loco-manipulation ๋ถ์ผ์์ ํตํฉ ์ ์ด์ ์คํ ๊ฐ๋ฅ์ฑ์ ์ฒ์์ผ๋ก ๋๊ท๋ชจ ์คํ์ผ๋ก ์
์ฆํ ์๋ฏธ ์๋ ๋
ผ๋ฌธ์ด๋ฉฐ, sequential skill acquisition, residual action modeling, deployment-realistic training ๋ฑ์ ์ฒด๊ณ์ ์ธ ๊ธฐ์ ์กฐํฉ์ผ๋ก ๋์ ์ถ์ ์ฑ๋ฅ๊ณผ ๋์ ์์
๊ณต๊ฐ์ ๋์์ ๋ฌ์ฑํ๋ค. ๋ค๋ง ๋จ์ผ ํ๋์จ์ด ํ๋ซํผ์๋ง ๊ฒ์ฆ๋์๊ณ ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ํ๋ จ์ ํ์ค ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ํ ์์ธ ๋ถ์์ด ๋ถ์กฑํ ์ ์ด ํ๊ณ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์