ECHO: Edge-Cloud Humanoid Orchestration for Language-to-Motion Control
์ ์: Haozhe Jia, Jianfei Song, Yuan Zhang, Honglei Jin, Youcheng Fan, Wenshuo Chen, Wei Zhang, Yutao Yue | ๋ ์ง: 2026-03-17 | URL: https://arxiv.org/abs/2603.16188 📄 PDF
Essence
Fig. 1.
ECHO๋ ์์ฐ์ด ๋ช
๋ น์ผ๋ก ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ ์ดํ๋ ์ฃ์ง-ํด๋ผ์ฐ๋ ํ๋ ์์ํฌ๋ก, ํด๋ผ์ฐ๋์ diffusion ๊ธฐ๋ฐ text-to-motion ์์ฑ๊ธฐ์ ์ฃ์ง์ RL ํธ๋์ปค๋ฅผ ๋ก๋ด ๋ค์ดํฐ๋ธ 38์ฐจ์ ํํ์ผ๋ก ์ฐ๊ฒฐํ์ฌ ์ค์๊ฐ ํ๋ฃจํ ์คํ์ ์คํํ๋ค.
Motivation
- Known: ์ต๊ทผ ์ธ์ด ์กฐ๊ฑด๋ถ ํด๋จธ๋
ธ์ด๋ ์ ์ด๋ end-to-end ์ ๊ทผ๋ฒ ๋๋ human motion ๊ธฐ๋ฐ retargeting ํ์ดํ๋ผ์ธ์ผ๋ก ์งํ๋์ด ์์ผ๋, ๋ ๋ฐฉ์ ๋ชจ๋ ์จ๋ณด๋ ๊ณ์ฐ ํ๊ณ ๋๋ retargeting ์์ง๋์ด๋ง ์ค๋ฒํค๋ ๋ฌธ์ ๋ฅผ ์๊ณ ์๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ์๋ค์ semantic ํํ์ฑ, ์ค์๊ฐ ์ ์ด, ์์ง๋์ด๋ง ์ค์ฉ์ฑ ์ฌ์ด์ ๊ทผ๋ณธ์ ๊ธด์ฅ์ ํด๊ฒฐํ์ง ๋ชปํ๊ณ ์์ผ๋ฉฐ, ํนํ hardware ์ ์ฝ ์ค์์ ๋ฐฐํฌ ์์ ์ฑ์ ํ๊ฐํ๋ ๋ฉํธ๋ฆญ์ด ๋ถ์กฑํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ค์ ๋ฐฐํฌ๋ฅผ ์ํด์๋ high-frequency ์ ์ด์ semantic ๋ณต์ก์ฑ์ ๋์์ ์ถฉ์กฑํ๋ฉด์ ์์ ์ ์ด๊ณ modularํ ์ํคํ
์ฒ๊ฐ ํ์์ ์ด๋ค.
- Approach: ์์ฑ(cloud diffusion ๋ชจ๋ธ)๊ณผ ์คํ(edge RL tracker)์ strictly ๋ถ๋ฆฌํ๊ณ , robot-native 38D ์ด๋ ํํ์ผ๋ก ๋ ๋ชจ๋์ ์ฐ๊ฒฐํ์ฌ inference-time retargeting์ ์ ๊ฑฐํ๊ณ ์ค์๊ฐ streaming ์ถ์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Achievement
Fig. 1.
- Edge-Cloud ์ํคํ
์ฒ: ํด๋ผ์ฐ๋์ CLIP-conditioned 1D convolutional UNet diffusion ์์ฑ๊ธฐ๊ฐ ~1์ด ๋ด ๋ชจ์
์ ์์ฑํ๊ณ , ์ฃ์ง์ teacher-student RL ํธ๋์ปค๊ฐ ํ๋ฃจํ๋ก ์ค์๊ฐ ์คํ
- Robot-Native ํํ: 38D velocity ๊ธฐ๋ฐ ํํ(joint angles 29D + root planar velocity 2D + root height 1D + 6D continuous root rotation)์ผ๋ก retargeting ์ ๊ฑฐ ๋ฐ PD ์ ์ด์ ์ง์ ํธํ
- Sim-to-Real ์ ์ด: Evidential Deep Regression adapter์ morphological symmetry ์ ์ฝ, domain randomization์ ํตํด teacher policy ์ง์์ student policy๋ก ์ฆ๋ฅ
- ์ค์ธ๊ณ ๋ฐฐํฌ: Unitree G1 ํด๋จธ๋
ธ์ด๋์์ zero hardware fine-tuning์ผ๋ก ๋ค์ํ text ๋ช
๋ น์ ์์ ์ ์คํ ๋ฌ์ฑ
- ํ๊ฐ ๋ฉํธ๋ฆญ: Motion Safety Score(MSS)์ Root Trajectory Consistency(RTC)๋ผ๋ robot-centric ๋ฉํธ๋ฆญ์ผ๋ก hardware ์ ์ฝ ์ค์์ ๊ถค์ ์ถฉ์ค๋ ์ ๋ํ
How
Fig. 1.
- Text-to-Motion ์์ฑ: CLIP ์ธ์ฝ๋๋ก ์์ฐ์ด๋ฅผ ์๋ฒ ๋ฉํ๊ณ , 1D convolutional UNet์ cross-attention์ผ๋ก ์กฐ๊ฑดํํ์ฌ DDIM sampling(10 denoising steps)์ผ๋ก 50 FPS ๋ชจ์
์์ฑ
- Motion ํํ: ๊ฐ ํ๋ ์์ 38์ฐจ์ ๋ฒกํฐ(๊ด์ ๊ฐ + root ์๋ + root ๋์ด + root ํ์ )๋ก ์ธ์ฝ๋ฉํ์ฌ global ์์น ์ ๊ฑฐ๋ก drift ๊ฐ์
- RL ๊ธฐ๋ฐ ํธ๋ํน: Asymmetric Actor-Critic ๊ตฌ์กฐ์์ privileged teacher policy(PPO)๋ฅผ student policy๋ก distillํ๊ณ , evidential adaptation module๋ก uncertainty ์ฒ๋ฆฌ
- Fall Recovery: IMU ๊ธฐ๋ฐ ๋์ ๊ฐ์ง ๋ฐ pre-built motion library์์ recovery trajectory ๊ฒ์
- Training ๋ฐ์ดํฐ: HumanML3D๋ฅผ General Motion Retargeting(GMR)์ผ๋ก robot skeleton์ผ๋ก retargetํ์ฌ text-motion pairing ์ ์ง
Originality
- Strict modularity: ์์ฑ๊ณผ ์คํ์ ์์ ํ ๋ถ๋ฆฌ๋ก robot platform ๊ฐ portability ๋ฐ ๊ธฐ์กด ์ถ์ ์คํ๊ณผ์ ํตํฉ์ฑ ํ๋ณด
- Robot-native ํํ: inference-time retargeting์ ์์ ํ ์ ๊ฑฐํ๊ณ ๋ก๋ด kinematics์ ์ง์ ํธํ๋๋ compact 38D ํํ ์ ์
- Edge-Cloud ๋ถ์ฐ ๋ฐฐํฌ: ํด๋ผ์ฐ๋์ semantic ์ฒ๋ฆฌ์ ์ฃ์ง์ ์ค์๊ฐ ์ ์ด๋ฅผ ๋ช
ํํ ๋ถ๋ฆฌํ์ฌ hardware ์ ์ฝ๊ณผ semantic ๋ณต์ก์ฑ์ trade-off ํด๊ฒฐ
- Robot-centric ํ๊ฐ: MSS์ RTC๋ก ํ์ค text-to-motion ๋ฒค์น๋งํฌ์์ ๋ค๋ฃจ์ง ์๋ hardware ์์ ์ฑ๊ณผ ๋ฐฐํฌ ์์ ์ฑ ์ ๋ํ
Limitation & Further Study
- Cloud ์ง์ฐ: ํด๋ผ์ฐ๋์์ WebSocket ํต์ ์ง์ฐ(~1์ด)์ด ๋์ ๋ฐ์์ฑ์ด ํ์ํ ์ค์๊ฐ ์ํฉ์ ์ ์ฝ
- Motion library ์์กด์ฑ: Fall recovery๊ฐ pre-built motion library์ ์์กดํ๋ฏ๋ก ์์ธก๋์ง ์์ ์ํฉ์ ๋ํ ์ผ๋ฐํ ํ๊ณ
- Training ๋ฐ์ดํฐ ํธํฅ: HumanML3D ๊ธฐ๋ฐ training์ผ๋ก ์ธํ human motion ๋ถํฌ ํธํฅ ๋ฐ ๋ก๋ด ํนํ ๋์์ ๋ถ์กฑ ๊ฐ๋ฅ์ฑ
- ํ์์ฐ๊ตฌ: ๋ฎ์ ์ง์ฐ ํด๋ผ์ฐ๋-์ฃ์ง ํต์ ์ต์ ํ, ์จ๋ณด๋ ๊ฒฝ๋ diffusion ๋ชจ๋ธ ํ์ฌ, multi-robot ํ๋ซํผ ํธํ์ฑ ํ๋, dynamic obstacle ํํผ ๋ฅ๋ ฅ ๊ฐํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ECHO๋ ์์ฑ๊ณผ ์คํ์ ๋ช
ํํ ๋ถ๋ฆฌ, robot-native ํํ ์ค๊ณ, ์ค์ธ๊ณ ๋ฐฐํฌ ๋ฌ์ฑ์ ํตํด ์ธ์ด-๊ธฐ๋ฐ ํด๋จธ๋
ธ์ด๋ ์ ์ด ๋ถ์ผ์์ modularity์ deployability์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํ๋ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์