Thor: Towards Human-Level Whole-Body Reactions for Intense Contact-Rich Environments
์ ์: Gangyang Li, Qing Shi, Youhao Hu, Jincheng Hu, Zhongyuan Wang, Xinlong Wang, Shaqi Luo | ๋ ์ง: 2025-11-05 | DOI: 10.48550/arXiv.2510.26280 📄 PDF
Essence
Fig. 2.
Thor๋ humanoid ๋ก๋ด์ด ๊ฐํ ์ ์ด ์ํธ์์ฉ ํ๊ฒฝ์์ ์ธ๊ฐ ์์ค์ ์ ์ ๋ฐ์์ ์์ฑํ๋๋ก ํ๋ ํ๋ ์์ํฌ๋ก, force-adaptive torso-tilt (FAT2) ๋ณด์ ํจ์์ decoupled reinforcement learning ์ํคํ
์ฒ๋ฅผ ์ ์ํ๋ค.
Motivation
- Known: Humanoid๋ ์๋น์ค, ์ฐ์
, ๊ตฌ์กฐ ์๊ธ ๋ถ์ผ์์ ํฐ ์ ์ฌ๋ ฅ์ ๊ฐ์ง์ง๋ง, ๊ฐ๋ ฌํ ์ ์ด ์ํธ์์ฉ ์ค ์ ์ ์์ ์ฑ์ ์ ์งํ๋ฉด์ ์ธ๊ฐ ๊ฐ์ ๋ฐ์์ ์์ฑํ๊ธฐ๋ ์ด๋ ต๋ค.
- Gap: ๊ธฐ์กด ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด๋ ์ ํํ ๋ก๋ด ๋ชจ๋ธ๋ง์ด๋ ํ๋์ฝ๋ฉ๋ ์ ์ฑ
์ ์์กดํ๋ฉฐ, RL ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ humanoid์ ๋์ ์ฐจ์์ฑ๊ณผ ๋ถ์์ ์ฑ์ผ๋ก ์ธํด ๊ฐ๋ ฅํ ํ ์ํธ์์ฉ ์์
์์ ์ต์ ํ๋์ง ๋ชปํ๋ค.
- Why: Humanoid๊ฐ ํ์ฌ ๋ํผ ๋ฌธ, ๋ฌด๊ฑฐ์ด ๋ฌผ์ฒด ์ด๋ ๋ฑ ๊ณ ๊ฐ๋ ํ ์ํธ์์ฉ ์์
์ ์ํํ๋ ค๋ฉด ๋์ญํ์ ๋ชจ๋ธ ์์ด๋ ๊ฐ๊ฑดํ ์ ์ ์ ์ด ๋ฅ๋ ฅ์ ๊ฐ์ถฐ์ผ ํ๊ธฐ ๋๋ฌธ์ด๋ค.
- Approach: Thor๋ ์์ฒด, ํ๋ฆฌ, ํ์ฒด๋ก decoupled๋ actor-critic ๋คํธ์ํฌ๋ฅผ ์ค๊ณํ๊ณ , ์ธ๊ฐ ์์ฒด์ญํ์์ ์๊ฐ์ ๋ฐ์ FAT2 ๋ณด์ ํจ์๋ก ํ์ ๋ฐ์ํ๋ ์์ธ ์กฐ์ ์ ์ฅ๋ คํ๋ฉฐ, ๋๋ฉ์ธ ๋๋คํ์ curriculum learning์ ํตํด sim-to-real ์ ์ด๋ฅผ ํด๊ฒฐํ๋ค.
Achievement
Fig. 1. Humanoids performing tasks involving forceful interactions with the
- Decoupled RL ์ํคํ
์ฒ: ์์ฒด(14 DoF), ํ๋ฆฌ(3 DoF), ํ์ฒด(12 DoF)๋ฅผ ๋
๋ฆฝ์ ์ธ actor-critic ๋คํธ์ํฌ๋ก ๋ถ๋ฆฌํ์ฌ high-dimensional humanoid ์ ์ด ๋ฌธ์ ๋ฅผ ์ํ
- FAT2 ๋ณด์ ํจ์: ๋ก๋ด์ ํ ๋ถ์์ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ๋์ด ์ธ๊ฐ์ฒ๋ผ ๋ชธํต์ ์ ์์ ์ผ๋ก ๊ธฐ์ธ์ด๋๋ก ์ ๋ํ์ฌ ๊ฐ๋ ฅํ ์ํธ์์ฉ๋ ฅ ์์ฑ
- ์ค์ธ๊ณ ์ฑ๋ฅ ๊ฒ์ฆ: Unitree G1์์ ํ์ง 167.7 N, ์ ์ง 145.5 N์ ์ต๋ ๊ฒฌ์ธ๋ ฅ ๋ฌ์ฑ (baseline ๋๋น 68.9%, 74.7% ๊ฐ์ )
- ๋ค์ํ ์์
์ํ: ์๋ฐฉ ๋ฌธ ๊ฐ๋ฐฉ(60 N), ๋ก๋ ๋ฐ์ค ๊ฒฌ์ธ(130 N), ํ ์ฒด์ด ๋ฐ๊ธฐ, ํ์ดํธ๋ณด๋ ๋ฆ๊ธฐ ๋ฑ ์ค๋ฌด ์์
์ฑ๊ณต
- ๋์ ๋น๋ ์ถ๋ก : Decoupled ์ํคํ
์ฒ๋ก ์ ํ๋ ์จ๋ณด๋ ์์์์ 50Hz ๊ณ ์ ์ ์ด ๊ฐ๋ฅ
How
Fig. 2.
- ์์ฒด, ํ๋ฆฌ, ํ์ฒด์ ์ธ ๊ฐ์ง actor-critic ๋ชจ๋์ ์ค๊ณํ๋, ๊ฐ๊ฐ ๋
๋ฆฝ์ ์ธ ์ ์ฑ
๋คํธ์ํฌ(ฯ_u, ฯ_w, ฯ_l)์ ๊ฐ์น ํจ์๋ฅผ ๊ฐ์ง
- ๋ชจ๋ ๋ชจ๋์ด ์ ์ ๊ด์ฐฐ(proprioception, motion command)์ ๊ณต์ ํ๊ณ ํน๊ถ ์ ๋ณด(end-effector ํ์ ํฌ๊ธฐ์ ๋ฐฉํฅ)๋ฅผ critic์๋ง ์ ๊ณต
- FAT2 ๋ณด์ ํจ์: ๋ก๋ด์ ์ง๋ ์ค์ฌ ์์น์ ์ธ๋ถ ํ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฉ ๊ฐ๋ฅํ ๋ชธํต ๊ธฐ์ธ๊ธฐ ๋ฒ์๋ฅผ ๋์ ์ผ๋ก ๊ณ์ฐ
- ์์ฒด๋ human motion dataset์ ํตํด ๋ชจ์
์ถ์ ํ์ต, ํ์ฒด๋ ๋ช
๋ น๋ ์๋ ์ถ์ ํ์ต
- Two-stage curriculum learning: 1๋จ๊ณ๋ ๊ฐ๋จํ ํ๊ฒฝ์์ ๊ฐ๊ฑดํ ์์ธ ํ์ต, 2๋จ๊ณ๋ ๊ณ ๊ฐ๋ ์์
ํ์ต
- Domain randomization: End-effector์ ๊ฐํ๋ ์ธ๋ถ ํ์ ๋ฐฉํฅ๊ณผ ํฌ๊ธฐ๋ฅผ ๋ฌด์์ํํ์ฌ sim-to-real ๊ฒฉ์ฐจ ํด์
- PD ์ปจํธ๋กค๋ฌ๋ฅผ ํตํด ์ ์ฑ
๋คํธ์ํฌ์ ์ถ๋ ฅ(์ํ๋ ๊ด์ ์์น)์ ์ค์ joint torque๋ก ๋ณํ
Originality
- ํ๋ฆฌ๋ฅผ ์ค๊ฐ ์ ์ด ๋ชจ๋๋ก ํ์ฉํ๋ 3-๋ถ๋ถ decoupled ์ํคํ
์ฒ ์ ์์ผ๋ก ์์ฒด-ํ์ฒด ์ํธ์์ฉ ์กฐ์ ๊ฐ์
- ์ธ๊ฐ ์์ฒด์ญํ์ ๊ธฐ๋ฐํ FAT2 ๋ณด์ ํจ์๋ก ๋จ์ ๋ชจํฐ ํ ํฌ ์ฆ๊ฐ๊ฐ ์๋ ์์ธ ์ ์์ ํตํ ํ ์ํธ์์ฉ ํฅ์
- Privileged information(ํ ์ ๋ณด)์ critic์๋ง ์ ๊ณตํ๊ณ actor์๋ ์ ๊ณตํ์ง ์๋ ๋น๋์นญ์ ํ์ต ์ ๋ต
- ๊ฐ์ ์ ์ ์ด ์ํธ์์ฉ์ ์ํ domain randomization ์ ๋ต์ ์ฒด๊ณ์ ์ ์ฉ
Limitation & Further Study
- ์คํ์ด ๋จ์ผ ๋ก๋ด(Unitree G1)์๋ง ๊ตญํ๋์ด ๋ค๋ฅธ humanoid ํ๋ซํผ์์์ ์ผ๋ฐํ ๊ฒ์ฆ ๋ถ์กฑ
- FAT2 ๋ณด์ ํจ์ ์ค๊ณ๊ฐ ํน์ ์ ์ฒด ๋ชจ์์ ์ต์ ํ๋์ด ๋ค์ํ humanoid ํํ์ ๋ํ ์ ์์ฑ ๋ฏธํ์ธ
- ๋์ ์ฐจ์ ๋ฌธ์ ๋ ์ํ๋์์ผ๋ ๊ฐ ๋ชจ๋ ๊ฐ coordination mechanism์ ๋ช
์์ ์ค๊ณ๊ฐ ๋ถ์ฌ
- ํ์์ฐ๊ตฌ๋ก ๋ค์ํ humanoid ํ๋ซํผ ๊ฒ์ฆ, ๋์ ์์
ํ๊ฒฝ(๋ถ๊ท ํํ ์งํ ๋ฑ)์์์ ์ฑ๋ฅ ํ๊ฐ, ๋ชจ๋ ๊ฐ ์์กด์ฑ ๋ถ์์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Thor๋ decoupled RL ์ํคํ
์ฒ์ ์ธ๊ฐ ์์ฒด์ญํ ๊ธฐ๋ฐ FAT2 ๋ณด์ ํจ์๋ฅผ ํตํด humanoid์ ๊ฐ๋ ฅํ ํ ์ํธ์์ฉ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํจ ์ฐ์ํ ์ฐ๊ตฌ๋ก, ์ค์ธ๊ณ ์ฑ๋ฅ ๊ฒ์ฆ๊ณผ ๋ค์ํ ์์
์์ฐ์ ํตํด ๋์ ์ค์ฉ์ ๊ฐ์น๋ฅผ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์