FastStair: Learning to Run Up Stairs with Humanoid Robots
์ ์: Yan Liu, Tao Yu, Haolin Song, Hongbo Zhu, Nianzong Hu, Yuzhi Hao, Xiuyong Yao, Xizhe Zang, Hua Chen, Jie Zhao | ๋ ์ง: 2026-01-15 | URL: https://arxiv.org/abs/2601.10365 📄 PDF
Essence
Fig. 2.
FastStair๋ model-based foothold planner์ model-free RL์ ํตํฉํ์ฌ humanoid robot์ ๊ณ ์ ๊ณ๋จ ๋ฑ๋ฐ์ ์คํํ๋ ๋ค๋จ๊ณ ํ์ต ํ๋ ์์ํฌ์ด๋ค. DCM ๊ธฐ๋ฐ planner๋ก ํ์์ ์๋ดํ๊ณ speed-specialized experts์ LoRA๋ฅผ ํตํด ๋ณด์์ฑ์ ์ํํ๋ค.
Motivation
- Known: RL์ ๋์ ์ด๋์ ์์ฑํ ์ ์์ผ๋ ์๋ฌต์ ์์ ์ฑ ๋ณด์์ผ๋ก ์ธํด ๊ณ๋จ์์ ๋ถ์์ ํ ํ๋์ ์ ๋ฐํ๋ค. Model-based planner๋ ๋ช
์์ ์์ ์ฑ์ ๋ณด์ฅํ์ง๋ง ๋ณด์์ ๋์์ผ๋ก ์๋๋ฅผ ์ ํํ๋ค.
- Gap: ๊ณ ์๊ณผ ์์ ์ฑ์ ์์ถฉ ๊ด๊ณ๋ฅผ ๋์์ ํด๊ฒฐํ ์ ์๋ ํ๋ ์์ํฌ๊ฐ ๋ถ์ฌํ๋ค. Planner ๊ธฐ๋ฐ ๊ฐ์ด๋์ค๋ ๋ณด์์ฑ์ ์ ์ดํ์ฌ ๊ณ ์์ฑ์ ์ ์ฝํ๋ค.
- Why: ๊ณ๋จ ๋ฑ๋ฐ์ humanoid robot์ ์ค์ ๋ฐฐํฌ์ ํ์์ ์ด๋ฉฐ, ์ธ๊ฐ ์์ค์ ๋ฏผ์ฒฉ์ฑ๊ณผ ์์ ์ฑ์ ๋์์ ๋ฌ์ฑํ๋ ๊ฒ์ ๋ก๋ด ์ ์ด์ ํต์ฌ ๊ณผ์ ์ด๋ค.
- Approach: Parallel DCM ๊ธฐ๋ฐ foothold planner๋ฅผ RL ๋ฃจํ์ ํตํฉํ์ฌ ์์ ์์ญ์ผ๋ก ํ์์ ํธํฅ์ํค๊ณ , ์๋๋ณ experts ํ์ต๊ณผ LoRA ๊ธฐ๋ฐ ํตํฉ์ผ๋ก ๋ณด์์ฑ์ ์ํํ๋ค.
Achievement
Fig. 1.
- ๊ณ ์ ๊ณ๋จ ๋ฑ๋ฐ ๋ฌ์ฑ: ๋ช
๋ น๋ ์๋ 1.65 m/s๊น์ง ์์ ์ ์ธ ๊ณ๋จ ๋ฑ๋ฐ ์คํ ๋ฐ 33๋จ๊ณ ๋์ ํ ๊ณ๋จ(๊ณ๋จ ๋์ด 17 cm)์ 12์ด์ ์์ฃผ
- ๋ณ๋ ฌ ์ต์ ํ ๊ณ ์ํ: Discrete search ๊ธฐ๋ฐ reformulation์ผ๋ก RL ํ๋ จ ์๋๋ฅผ ์ฝ 25๋ฐฐ ๊ฐ์ํ
- ๋ค๋จ๊ณ ํ์ต ํ๋ ์์ํฌ: Safety-focused base policy์์ ์ถ๋ฐํ์ฌ speed-specialized experts๋ก fine-tuning ํ LoRA๋ก ํตํฉํ๋ ์ฒด๊ณ์ ์ ๊ทผ
- ์ค์ ๋ก๋ด ๋ฐฐํฌ: Oli humanoid robot์ ๋ฐฐํฌํ์ฌ Canton Tower Robot Run Up Competition ์ฐ์น
How
Fig. 2.
- DCM(Divergent Component of Motion) ๊ธฐ๋ฐ foothold planner๋ฅผ ๋ณ๋ ฌ discrete search๋ก reformulateํ์ฌ GPU ๋ณ๋ ฌ ๊ณ์ฐ์ ์ต์ ํ
- Pre-training ๋จ๊ณ์์ planner๊ฐ ์์ฑํ feasible footholds๋ฅผ foothold-tracking reward๋ก ์ฌ์ฉํ์ฌ ์์ ํ ๊ธฐ๋ณธ ์ ์ฑ
ํ์ต
- Post-training ๋จ๊ณ์์ ์ ์[-0.3, 0.8 m/s]๊ณผ ๊ณ ์[0.8, 1.6 m/s] ๋ช
๋ น์ ํตํด ๊ธฐ๋ณธ ์ ์ฑ
์ ๋ ๊ฐ์ ์๋ ์ ๋ฌธ๊ฐ๋ก fine-tune
- LoRA (Low-Rank Adaptation) ๋ ์ด์ด๋ก ๋ experts์ ํ๋ผ๋ฏธํฐ๋ฅผ ํ๋์ ๋คํธ์ํฌ์ ํตํฉํ์ฌ ์ ์ฒด ์๋ ๋ฒ์์์ ๋ถ๋๋ฌ์ด ์ ํ ์คํ
- Rule-based switcher๋ฅผ ์ฌ์ฉํ์ฌ commanded speed์ ๋ฐ๋ผ experts ๊ฐ ์ ํ ์ ์ด
Originality
- Model-based planner๋ฅผ RL ํ์ ๊ฐ์ด๋๋ก ํตํฉํ๋, ์ต์ ํ-ํ์ reformulation์ผ๋ก ๊ณ์ฐ ์ค๋ฒํค๋๋ฅผ ์ต์ํํ novel ์ ๊ทผ
- ์๋๋ณ action distribution์ ์ฐจ์ด๋ฅผ ์ธ์ํ๊ณ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์๋ ์ ๋ฌธ๊ฐ ๋ถํด์ LoRA ๊ธฐ๋ฐ ํตํฉ์ด๋ผ๋ ์๋ก์ด ํด๊ฒฐ์ฑ
์ ์
- DCM ๊ธฐ๋ฐ planner์ ๋ช
์์ ์์ ์ฑ ๋ณด์ฅ๊ณผ RL์ ๋์ ๋ฏผ์ฒฉ์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ์กฐํ์ํค๋ ๋ค๋จ๊ณ ํ๋ ์์ํฌ
Limitation & Further Study
- ํ์ฌ ๋ฐฉ๋ฒ์ ๊ณ๋จ ํนํ ์ค๊ณ๋ก, ์ผ๋ฐ์ ์ธ ์งํ(๋ฐ์, ๊ฒฝ์ฌ) ์ ์์ฑ์ด ๊ฒ์ฆ๋์ง ์์
- LoRA fine-tuning์ด ์ ๋ฌธ๊ฐ ๊ฐ ํํ ์ ํ์ ๋ณด์ฅํ๋, ๊ทน๋จ์ ์๋ ๋ณํ์์์ ์์ ์ฑ ๋ถ์ ๋ถ์ฌ
- Planner ๊ณ์ฐ ๋น์ฉ ๊ฐ์์๋ ์ฌ์ ํ ๋ณ๋ ฌ ํ๊ฒฝ ํ์๋ก, ๋จ์ผ ์ํผ์๋ ์ค์๊ฐ ์ฑ๋ฅ ๋ถ์ ํ์
- ํ์ ์ฐ๊ตฌ: (1) ๋ค์ํ ์งํ์ ๋ํ adaptive foothold planning, (2) ๋ ๊ฐ๋ฒผ์ด LoRA ๊ตฌ์กฐ ํ์, (3) ํ์ต ์์ด ์๋ก์ด ๊ณ๋จ ํํ์ ๋ํ generalization ๋ฉ์ปค๋์ฆ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: FastStair๋ model-based ์์ ์ฑ๊ณผ learning-based ๋ฏผ์ฒฉ์ฑ์ ๊ทผ๋ณธ์ ์์ถฉ์ ๋ค๋จ๊ณ ํ์ต๊ณผ LoRA ๊ธฐ๋ฐ ํตํฉ์ผ๋ก ์ฐ์ํ๊ฒ ํด๊ฒฐํ ํ์ ์ ํ๋ ์์ํฌ์ด๋ค. ์ค์ ๋ก๋ด ๋ฐฐํฌ์ ๊ฒฝ์ ์ฐ์น์ผ๋ก ์ค์ฉ์ฑ์ด ์
์ฆ๋์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์