ECO: Energy-Constrained Optimization with Reinforcement Learning for Humanoid Walking
์ ์: Weidong Huang, Jingwen Zhang, Jiongye Li, Shibowen Zhang, Jiayang Wu, Jiayi Wang, Hangxin Liu, Yaodong Yang, Yao Su | ๋ ์ง: 2026-02-06 | URL: https://arxiv.org/abs/2602.06445 📄 PDF
Essence
Fig. 1: Comparison between the proposed constrained RL frame-
ECO๋ ์๋์ง ์๋น๋ฅผ ๋ณด์ ํจ์์ ๊ฐ์ค์น๊ฐ ์๋ ๋ช
์์ ๋ถ๋ฑ์ ์ ์ฝ ์กฐ๊ฑด์ผ๋ก reformulateํ constrained RL ํ๋ ์์ํฌ๋ก, ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์๋์ง ํจ์จ์ ๋ณดํ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: MPC์ RL ๊ธฐ๋ฐ ํด๋จธ๋
ธ์ด๋ ๋ณดํ ์ ์ด๋ ๋ค์ค ๋ชฉ์ ์ต์ ํ์์ ์๋์ง ๊ด๋ จ ๋ฉํธ๋ฆญ์ ๋ณด์์ ํฌํจ์ํค๋ฉฐ, ์ด๋ ๊ด๋ฒ์ํ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ด ํ์ํ๊ณ ํ์ ์ต์ ์ ์ฑ
์ ์ด๋ํ๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์๋์ง ์ต์ํ์ ์์ ์ฑ ๊ฐ ์ถฉ๋ํ๋ ๋ชฉํ๋ฅผ ๋์์ ์ต์ ํํ๋ ค ํ์ฌ ์ง๊ด์ ์ด์ง ์์ ํ๋ ํ๋ก์ธ์ค์ ์๋ ด ์คํจ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
- Why: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ค์ ์์ฉ์์ ์ฐ์ ์ด์์ ์ํด ์์ ์ ์ด๊ณ ์๋์ง ํจ์จ์ ์ธ ๋ณดํ์ด ํ์์ ์ด๋ฉฐ, ์๋์ง ํจ์จ ํฅ์์ ์๋ ๋ฒ์์ ์ง์์ฑ์ ํฌ๊ฒ ์ฆ๋์ํจ๋ค.
- Approach: ECO๋ ์๋์ง ์๋น ๋ฐ ์ฐธ์กฐ ๋ชจ์
์ ๋ช
์์ ์ ์ฝ ์กฐ๊ฑด์ผ๋ก ๋ถ๋ฆฌํ๊ณ Lagrangian ๋ฐฉ๋ฒ์ผ๋ก ๊ฐ์ ํ์ฌ, ์๋์ง ์ ์ฝ ์๊ณ๊ฐ์ ์ ํ ํ์์ผ๋ก ์ง๊ด์ ์ผ๋ก ํ๋ํ๋ค.
Achievement
Fig. 3: Comparison of training metrics for ECO, P3O, IPO, and CRPO. The energy consumption and mirror reference motion t
- ์๋์ง ํจ์จ์ฑ ํ์ : MPC ๋๋น ์ฝ 6๋ฐฐ, PPO ๋๋น 2.3๋ฐฐ ๋ฎ์ ์๋์ง ์๋น๋ฅผ ๋ฌ์ฑํ๋ฉฐ robustํ ๋ณดํ ์ฑ๋ฅ ์ ์ง
- ์ง๊ด์ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋: ์๋์ง ์ ์ฝ์ ๋ช
์์ ์ผ๋ก ํํํ์ฌ ๋ฌผ๋ฆฌ์ ์๋ฏธ๊ฐ ๋ช
ํํ๊ณ ์ ํ ํ์ ๊ธฐ๋ฐ ํ๋ ํ๋ก์ธ์ค๋ก ํจ์จ์ฑ ํฅ์
- Emergent ํ๋ ๋ฐํ: extended knee movements, lighter steps, reduced body shaking ๋ฑ ์ค๊ณ๋์ง ์์ ์๋์ง ํจ์จ์ ํ๋ ์๋ ์์ฑ
- ์ค์ ํ๋์จ์ด ๊ฒ์ฆ: BRUCE ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์์ sim-to-real transfer๋ฅผ ํตํด ์ฒซ constrained RL ๊ธฐ๋ฐ ์๋์ง ํจ์จ ๋ณดํ ๋ฌ์ฑ
- Constrained RL ๋ถ์: PPO-Lagrangian์ด ๋ค ๊ฐ์ง constrained RL ์๊ณ ๋ฆฌ์ฆ ์ค ๊ฐ์ฅ ๋น ๋ฅธ ์๋ ด๊ณผ ์์ ์ ์ ์ฝ ๊ฐ์ ์ฑ๋ฅ ์
์ฆ
How
Fig. 2: Overview of the training and deployment process in proposed ECO framework. The policy network, taking velocity c
- Constrained RL formulation์ผ๋ก ์๋์ง ์๋น๋ฅผ ๋ณด์์์ ๋ถ๋ฆฌํ์ฌ ๋ช
์์ ๋ถ๋ฑ์ ์ ์ฝ์ผ๋ก reformulate
- Lagrangian ๋ฐฉ๋ฒ์ ํตํด ์๋์ง ์๋น ์ ์ฝ๊ณผ ์ฐธ์กฐ ๋ชจ์
์ ์ฝ์ ๊ฐ์
- ์ ํ ํ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์๋์ง ์ ์ฝ ์๊ณ๊ฐ์ incrementally ์กฐ์ ํ๋ ๋ฌผ๋ฆฌ ์ง๊ด์ ํ๋ ํ๋ก์ธ์ค ์ํ
- PPO-Lagrangian ์๊ณ ๋ฆฌ์ฆ ์ ์ฉ์ผ๋ก ๋น ๋ฅด๊ณ ์์ ์ ์ธ ์๋ ด ๋ฌ์ฑ
- ์๋ฎฌ๋ ์ด์
์์ 4๊ฐ constrained RL ์๊ณ ๋ฆฌ์ฆ ๋ฐ ๋ค์ํ ์ ์ฝ ์ค์ ๋น๊ต ํ๊ฐ
- sim-to-sim ๋ฐ sim-to-real transfer๋ฅผ ํตํด BRUCE ๋ก๋ด ํ๋ซํผ์์ ์ค์ ๊ฒ์ฆ
Originality
- ์๋์ง๋ฅผ ๋ค์ค ๋ชฉ์ ๋ณด์ ํญ์ด ์๋ ๋ช
์์ ๋ถ๋ฑ์ ์ ์ฝ์ผ๋ก reformulateํ novelํ ์ ๊ทผ๋ฒ
- ์ ํ ํ์ ๊ธฐ๋ฐ์ ์ง๊ด์ ์ด๊ณ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํด์ ๊ฐ๋ฅํ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋ ๋ฐฉ๋ฒ๋ก ์ ์
- Constrained RL์ ์ค์ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ฒ์์ผ๋ก ์ ์ฉํ ์คํ์ ๊ธฐ์ฌ
- ์ ์ฝ ์ ํ๊ณผ ํ์ต ์ค์ ์ ๋ํ ์ค์ฆ์ ๋ถ์์ผ๋ก constrained RL ์ฐ๊ตฌ์ ๋ํ ํต์ฐฐ ์ ๊ณต
Limitation & Further Study
- ์ ํ ํ์ ๊ธฐ๋ฐ ํ๋์ ์ฌ์ ํ ์๋ ํ๋ก์ธ์ค์ด๋ฉฐ ์๋ํ๋ ์ ์ฝ ์๊ณ๊ฐ ๊ฒฐ์ ๋ฐฉ๋ฒ์ด ๋ถ์ฌ
- BRUCE๋ kid-sized ํด๋จธ๋
ธ์ด๋์ด๋ฏ๋ก adult-sized ๋ก๋ด์ผ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ๋ค์ํ ์งํ(slippery, inclined surfaces)์์์ ๊ฐ๊ฑด์ฑ์ด ์ ํ์ ์ผ๋ก ํ๊ฐ๋จ
- Loco-manipulation ์์
์์์ emergent ํ๋(lighter steps, reduced body shaking) ์ ๋์ ์ด์ ์ธก์ ๋ถ์ฌ
- ์ ์ฝ ๋ค์คํ(multi-constraint) ์๋๋ฆฌ์ค์์์ ํ์ฅ์ฑ๊ณผ ์ฑ๋ฅ trade-off ๋ถ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ECO๋ ์๋์ง ์ต์ ํ๋ฅผ constrained RL๋ก reformulateํ novelํ ์ ๊ทผ๋ฒ์ผ๋ก ํด๋จธ๋
ธ์ด๋ ๋ณดํ์ ์๋์ง ํจ์จ์ฑ์์ ํ๊ธฐ์ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ์ผ๋ฉฐ, ์ค์ ๋ก๋ด ํ๋ซํผ ๊ฒ์ฆ๊ณผ constrained RL์ ๋ํ ์ค์ฆ์ ๋ถ์์ ๋ก๋ด ๊ณตํ ๋ฐ ์ต์ ์ ์ด ์ปค๋ฎค๋ํฐ์ ์ค๋ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์