LHM-Humanoid: Learning a Unified Policy for Long-Horizon Humanoid Whole-Body Loco-Manipulation in Diverse Messy Environments
์ ์: Haozhuo Zhang, Jingkai Sun, Michele Caprio, Jian Tang, Shanghang Zhang, Qiang Zhang, Wei Pan | ๋ ์ง: 2026-03-05 | DOI: 10.48550/arXiv.2508.16943 📄 PDF
Essence
Fig. 1: Overview of LHM-Humanoid. Our system solves long-horizon loco-manipulation tasks
LHM-Humanoid๋ ๋ค์ํ ํผ๋์ค๋ฌ์ด ํ๊ฒฝ์์ ์ฅ์๊ฐ ์ธ๊ฐํ ๋ก๋ด์ด ๋ณต์ ๊ฐ์ฒด๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ง๊ธฐ, ์ด๋ฐ, ๋ฐฐ์นํ๋ ์์
์ ๋จ์ผ ํตํฉ ์ ์ฑ
์ผ๋ก ์ํํ๋ ๋ฒค์น๋งํฌ์ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Motivation
- Known: ๊ธฐ์กด ์ธ๊ฐํ ๋ก๋ด ์ฐ๊ตฌ๋ ๋ชจ์
์ ์ด, ์ฅ๋ฉด ์ํธ์์ฉ, ๊ฐ์ฒด ์กฐ์์์ ์ง์ ์ ์ด๋ฃจ์์ผ๋ ๋๋ถ๋ถ ๋จ์ผ ๊ฐ์ฒด ์ํธ์์ฉ์ด๋ ๊ณ ์ ๋ ์ฅ๋ฉด ๋ถํฌ๋ก ์ ํ๋์ด ์๋ค.
- Gap: ์ฅ์๊ฐ ์ง์์ ์ธ ๋ก์ฝ-์กฐ์, ๊ต์ฐจ ์ฅ๋ฉด ์ผ๋ฐํ, ํตํฉ๋ ๋จ์ผ ์ ์ฑ
์ ์ด๋ฅผ ๋์์ ์๊ตฌํ๋ ํผ๋์ค๋ฌ์ด ํ๊ฒฝ์์์ ์ธ๊ฐํ ๋ก๋ด ์ฐ๊ตฌ๊ฐ ๋ถ์กฑํ๋ค.
- Why: ์ค์ ํ๊ฒฝ์์ ์ธ๊ฐํ ๋ก๋ด์ด ์ฌ๋ฌ ๊ฐ์ฒด๋ฅผ ์ ์ฐํ๊ฒ ์ฒ๋ฆฌํ๊ณ ๋ค์ํ ์ฅ๋ฉด ๊ตฌ์ฑ์ ์ ์ํ ์ ์์ด์ผ ํ๋ฉฐ, ์ด๋ ๋ก๋ด ์ผ๋ฐํ ๋ฅ๋ ฅ ํ๊ฐ์ ์ค์ํ ๋ฒค์น๋งํฌ๊ฐ ๋ ์ ์๋ค.
- Approach: ๋ ๊ฐ์ ๋ชฉํ ์กฐ๊ฑด๋ถ RL ๊ต์ฌ ์ ์ฑ
์ ํ์ตํ์ฌ DAgger๋ฅผ ํตํด ๋จ์ผ end-to-end ํ์ ์ ์ฑ
์ผ๋ก ์ฆ๋ฅํ๊ณ , ์ถ๊ฐ๋ก egocentric RGB์ ์์ฐ์ธ์ด๋ก ์กฐ๊ฑดํ๋ VLA ๋ชจ๋ธ๋ก ์ฆ๋ฅํ๋ค.
Achievement
Fig. 1: Overview of LHM-Humanoid. Our system solves long-horizon loco-manipulation tasks
- LHM-Humanoid ๋ฒค์น๋งํฌ: 4๊ฐ์ง ๋ฐฉ ์ ํ(์นจ์ค, ๊ฑฐ์ค, ์ฃผ๋ฐฉ, ์ฐฝ๊ณ )์ ๊ฑธ์ณ 350๊ฐ์ ๋ค์ํ ํผ๋์ค๋ฌ์ด ์ฅ๋ฉด/์์
, 79๊ฐ ๊ฐ์ฒด(25๊ฐ ์ด๋ ๊ฐ๋ฅ ๋์)๋ฅผ ํฌํจํ ๋ฒค์น๋งํฌ ๊ตฌ์ฑ
- ์ด์ค ๊ต์ฌ ์ฆ๋ฅ ํ๋ ์์ํฌ: ์ฒซ ๋ฒ์งธ fetch-carry-place ์ฃผ๊ธฐ๋ฅผ ์๋ฃํ๋ Teacher 1๊ณผ ๋นํ์ค ์ข
๋ฃ ์ํ์์ ์์ํ๋ Teacher 2๋ฅผ ํตํด ์ค๊ฐ ๋ฆฌ์
์์ด ์ฅ์๊ฐ ์ํผ์๋ ์ฒ๋ฆฌ
- VLA ํ์ฅ: ํตํฉ ์ ์ฑ
์ RGB ๋ฐ ์ธ์ด ์กฐ๊ฑด๋ถ end-to-end ๋ชจ๋ธ๋ก ์ถ๊ฐ ์ฆ๋ฅํ์ฌ ๋ํํ ๋ช
๋ น ์ํ ๊ฐ๋ฅ
- ์ฑ๋ฅ ์ฐ์์ฑ: Isaac Gym์์ end-to-end RL ๋ฒ ์ด์ค๋ผ์ธ ๋ฐ ๊ธฐ์กด ์ธ๊ฐํ ๋ก์ฝ-์กฐ์ ๋ฐฉ๋ฒ์ ๋ณด์ด์ง ์์ ์ฅ๋ฉด์์๋ ์ํํ๋ฉฐ ๊ฐ๋ ฅํ ์ฅ์๊ฐ ๊ฒฌ๊ณ ์ฑ๊ณผ ๊ต์ฐจ ์ฅ๋ฉด ์ผ๋ฐํ ์
์ฆ
How
Fig. 2: Overview of the LHM-Humanoid learning framework. The pipeline consists of three
- 350๊ฐ ๋ค์ํ ์ฅ๋ฉด์ผ๋ก ์ ์ฒด ์ ์ฑ
์ ๊ณต๋ ํ์ตํ์ฌ ๊ต์ฐจ ์ฅ๋ฉด ์ผ๋ฐํ ์ถ๊ตฌ
- Teacher 1: ๋จ์ผ ๊ฐ์ฒด ์์
์ ๋ํ ์ฌ์ ํ๋ จ์ผ๋ก ์ด๊ธฐํ ํ AMP ์คํ์ผ ๋ณด์์ ํตํด ์ธ๊ฐ ์ ์ฌ ๋ชจ์
์ ๋
- Teacher 1: release-and-retreat ์ธ๋ถ ์กฐ์ ์ผ๋ก Teacher 2์ ๋ํ ์์ ์ ์ํ ์ ๋ฌ ๋ณด์ฅ
- Teacher 2: Teacher 1์ ๋นํ์ค ์ข
๋ฃ ์ํ์์ ์์ํ์ฌ ๋ค์ ๊ฐ์ฒด ์ฃผ๊ธฐ ์๋ฃ
- DAgger๋ฅผ ์ด์ฉํ ์ด์ค ๊ต์ฌ์ ๋จ์ผ end-to-end ํ์ ์ ์ฑ
์ผ๋ก์ ์ฆ๋ฅ๋ก ์ค๊ฐ ๊ฒฝ๊ณ ์ ๊ฑฐ
- ํ์ ์ ์ฑ
์ VLA ๋ชจ๋ธ๋ก ์ถ๊ฐ ์ฆ๋ฅํ์ฌ ์์ฐ์ธ์ด ๋ฐ egocentric RGB ๊ด์ฐฐ ๊ธฐ๋ฐ ์ ์ด ์คํ
Originality
- ์ฅ์๊ฐ, ๊ต์ฐจ ์ฅ๋ฉด ์ผ๋ฐํ, ํตํฉ ๋จ์ผ ์ ์ฑ
์ ์ด๋ฅผ ๋์์ ์๊ตฌํ๋ ์๋ก์ด ๋ฌธ์ ์ค์ ์ ์
- ์ ์ฑ
์ฌ์ค์ ์์ด ๋นํ์ค ์ข
๋ฃ ์ํ ๊ฐ seamless ์ ํ์ ์ํ ์ด์ค ๊ต์ฌ ๊ตฌ์กฐ์ ํ์ ์ ํ์ฉ
- scene-specific ground-truth ๋์ ์ํ์ค ์์ด task-and-scene ๋ฒค์น๋งํฌ๋ก ์ค๊ณํ์ฌ ์ง์ ํ ์ผ๋ฐํ ์๊ตฌ
- RL ๊ธฐ๋ฐ ๊ต์ฌ์ DAgger ์ฆ๋ฅ๋ฅผ ๊ฒฐํฉํ์ฌ ์ฅ์๊ฐ ์ ์ด ํ๋ถํ ์์
์์ ์ง์ end-to-end RL์ ์๋ ด ์คํจ ๊ทน๋ณต
Limitation & Further Study
- ์๋ฎฌ๋ ์ด์
(Isaac Gym) ํ๊ฒฝ์์๋ง ๊ฒ์ฆ๋์์ผ๋ฉฐ ์ค์ ๋ก๋ด ๊ตฌํ์ sim-to-real ์ ์ด ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ํ์ต ๋ฐ์ดํฐ๊ฐ 4๊ฐ์ง ํน์ ๋ฐฉ ์ ํ์ผ๋ก ์ ํ๋์ด ์์ ํ ์๋ก์ด ํ๊ฒฝ ์ ํ์ ๋ํ ์ผ๋ฐํ ๋ฏธํ๊ฐ
- VLA ๋ชจ๋ธ ์ฆ๋ฅ ๋จ๊ณ์์ ์์ฐ์ธ์ด ์ฃผ์์ ํ์ง ๋ฐ ๋ค์์ฑ์ด ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ ๋ถ์ ๋ถ์ฌ
- ์ฅ์๊ฐ ์ํผ์๋์์ ๋์ ์ค๋ฅ ์ ํ ๋ฉ์ปค๋์ฆ ๋ฐ ์ค๋ฅ ๋ณต๊ตฌ ๋ฅ๋ ฅ์ ๋ํ ์์ธ ๋ถ์ ํ์
- ํ์ ์ฐ๊ตฌ: ์ค์ ์ธ๊ฐํ ๋ก๋ด ํ๋ซํผ์์ sim-to-real ์ ์ด ๊ธฐ๋ฒ ๊ฐ๋ฐ, ๋ฏธ์ง์ ํ๊ฒฝ ์ ํ ์ ์ ๋ฅ๋ ฅ ๊ฐํ, ์ค๋ฅ ๊ฐ์ง ๋ฐ ๋ณต๊ตฌ ๋ฉ์ปค๋์ฆ ํตํฉ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ฅ์๊ฐ ํผ๋์ค๋ฌ์ด ํ๊ฒฝ์์์ ์ธ๊ฐํ ๋ก๋ด ๋ก์ฝ-์กฐ์์ด๋ผ๋ ๋์ ์ ์ธ ์๋ก์ด ๋ฌธ์ ๋ฅผ ์ ์ํ๊ณ ์ด์ค ๊ต์ฌ ์ฆ๋ฅ ํ๋ ์์ํฌ๋ก ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, 350๊ฐ ๋ค์ํ ์ฅ๋ฉด์ ์ข
ํฉ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ์ฌ ๋ก๋ด ์ผ๋ฐํ ์ฐ๊ตฌ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์