Learning Versatile Humanoid Manipulation with Touch Dreaming
์ ์: Yaru Niu, Zhenlong Fang, Binghong Chen, Shuai Zhou, Revanth Senthilkumaran, Hao Zhang, Bingqing Chen, Chen Qiu, H. Eric Tseng, Jonathan Francis, Ding Zhao | ๋ ์ง: 2026-04-14 | URL: https://arxiv.org/abs/2604.13015 📄 PDF
Essence
Fig. 1: Our system enables versatile, contact-rich, and dexterous humanoid manipulation. A: long-horizon, multi-stage ma
ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ ์ด-ํ๋ถํ ์กฐ์์ ์ํด VR ํ
๋ ์คํผ๋ ์ด์
๊ธฐ๋ฐ ๋ฐ์ดํฐ ์์ง๊ณผ ํฐ์น ๊ฐ๊ฐ์ ํต์ฌ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ํ๋ Humanoid Transformer with Touch Dreaming (HTD)์ ์ ์ํ๋ค.
Motivation
- Known: ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ์ ์ ์ ์ด์ ํ
๋ ์คํผ๋ ์ด์
๊ธฐ์ ์ด ๋ฐ์ ํ์ผ๋ฉฐ, ํ๋ ๋ณต์ ๋ฅผ ํตํ ํ์ต ๋ฐฉ์๋ ์ ์๋์๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด ์์คํ
๋ค์ ์ ์ ์์ ์ฑ, ์๊ฐ๋ฝ ๋ฏผ์ฒฉ์ฑ, ํฐ์น ์ผ์ฑ์ ๋์์ ํตํฉํ์ง ๋ชปํ๋ค.
- Gap: ์ ์ด-ํ๋ถํ ์กฐ์์์ ํฐ์น๋ฅผ ํต์ฌ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ๋ชจ๋ธ๋งํ๋ฉด์ ๋จ์ผ ๋จ๊ณ์ ํ๋ ๋ณต์ ๋ก ํ๋ จ๋๋ ์ ์ ํด๋จธ๋
ธ์ด๋ ์ ์ฑ
์ด ๋ถ์ฌํ๋ค. ๊ธฐ์กด ํฐ์น ํ์ต ๋ฐฉ์๋ค์ ๋ณ๋์ ์ฌ์ ํ๋ จ, ๋ช
์์ ์๋ ๋ชจ๋ธ, ๋ค๋จ๊ณ ์ถ๋ก ์ ์๊ตฌํ๋ค.
- Why: ์ ์ด์ ๋ฏธ๋๋ฌ์ง, ์ผ, ๊ท ํ ์์ค์ ๋ฐฉ์งํ๋ ๋ฐ ํ์์ ์ด๋ฉฐ, ์ ์ด์ด ์์ฃผ ๋ณํ๋ ์กฐ์ ์์
์์ ์์ ๋น์ ๊ณผ ๊ณ ์ ๊ฐ๊ฐ๋ง์ผ๋ก๋ ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ด๋ค.
- Approach: RL ๊ธฐ๋ฐ ์ ์ ์ ์ด๊ธฐ์ VR ํ
๋ ์คํผ๋ ์ด์
์ ํตํฉํ ๋ฐ์ดํฐ ์์ง ์์คํ
์ ๊ตฌ์ถํ๊ณ , ๋น์ , ๊ณ ์ ๊ฐ๊ฐ๊ณผ ํจ๊ป ํฐ์น๋ฅผ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ํ๋ multimodal encoderโdecoder Transformer๋ฅผ ์ ์ํ๋ค. Touch Dreaming ๊ธฐ๋ฒ์ผ๋ก ๋ฏธ๋ ์-๊ด์ ํ๊ณผ ๋ฏธ๋ ํฐ์น ์ ์ฌ ํํ์ ์์ธกํ๋๋ก ํ๋ จํ๋ค.
Achievement
Fig. 1: Our system enables versatile, contact-rich, and dexterous humanoid manipulation. A: long-horizon, multi-stage ma
- ํตํฉ ํ๋์จ์ด ์์คํ
: RL ๊ธฐ๋ฐ ์ ์ ์ ์ด๊ธฐ, VR ํ
๋ ์คํผ๋ ์ด์
, ๋ถ์ฐํ ํฐ์น ์ผ์ฑ์ ๊ฒฐํฉํ ์์ ํ ํด๋จธ๋
ธ์ด๋ ์กฐ์ ์์คํ
๊ฐ๋ฐ
- HTD ๋ชจ๋ธ: ๋น์ , ๊ณ ์ ๊ฐ๊ฐ, ํฐ์น๋ฅผ multimodal๋ก ์ฒ๋ฆฌํ๋ encoderโdecoder Transformer๋ก Touch Dreaming์ ํตํ ๋จ์ผ ๋จ๊ณ ํ๋ จ ์คํ
- ๊ฐ๋ ฅํ ์ฑ๋ฅ: ๋ค์ฏ ๊ฐ์ง ์ ์ด-ํ๋ถํ ์ค์ ์์
์์ ๊ธฐ์ค์ ๋๋น ํ๊ท ์ฑ๊ณต๋ฅ 90.9% ์๋ ๊ฐ์
- ์ ์ฌ ๊ณต๊ฐ ํฐ์น ์์ธก์ ์ฐ์์ฑ: ์๋ณธ ํฐ์น ์์ธก ๋๋น ์ ์ฌ ๊ณต๊ฐ ํฐ์น ์์ธก์ด ์ฑ๊ณต๋ฅ 30% ์๋ ํฅ์ ์ ์
How
Fig. 4: HTD model architecture. HTD is a modular encoderโdecoder Transformer. Left: modality tokenizers encode multi-vie
- RL ๊ธฐ๋ฐ whole-body controller๋ก ๋ณต์กํ ์กฐ์ ์ค ์์ ์ ์ธ ํ์ฒด ๋ฐ ๋ชธํต ์คํ ๋ณด์ฅ
- VR ํ
๋ ์คํผ๋ ์ด์
๊ณผ human-to-humanoid motion mapping์ ๊ฒฐํฉํ ํจ์จ์ ์ธ ์ค์ธ๊ณ ๋ฐ์ ์์ง
- Multimodal encoderโdecoder Transformer ์ํคํ
์ฒ๋ก ํฐ์น๋ฅผ ๋น์ , ๊ณ ์ ๊ฐ๊ฐ๊ณผ ๋๋ฑํ๊ฒ ์ฒ๋ฆฌ
- Exponential Moving Average (EMA) target encoder๋ฅผ ์ฌ์ฉํ ์์ ์ ์ธ ์ ์ฌ ๊ณต๊ฐ ์ง๋ํ์ต
- ํ๋ ์์ธก ์ธ์ ๋ฏธ๋ ์-๊ด์ ํ๊ณผ ๋ฏธ๋ ํฐ์น ์ ์ฌ ์์ธก์ auxiliary objective๋ก ์ถ๊ฐํ์ฌ ์ ์ด-์ธ์ ํํ ํ์ต ์ ๋
- Insert-T, Book Organization, Towel Folding, Cat Litter Scooping, Tea Serving์ ๋ค์ฏ ๊ฐ์ง ์์
์ผ๋ก ํ๊ฐ
Originality
- ํฐ์น๋ฅผ ๋จ์ ๋ณด์กฐ ์ ํธ๊ฐ ์๋ ๋น์ , ๊ณ ์ ๊ฐ๊ฐ๊ณผ ๋๋ฑํ ํต์ฌ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ์ค๊ณ
- ๋ณ๋์ ์ฌ์ ํ๋ จ์ด๋ ๋ช
์์ ์๋ ๋ชจ๋ธ ์์ด Touch Dreaming์ auxiliary objective๋ก ํตํฉํ ๋จ์ผ ๋จ๊ณ ํ๋ จ ํ๋ ์์ํฌ
- EMA target encoder๋ฅผ ํตํ ์ ์ฌ ๊ณต๊ฐ ํฐ์น ์์ธก์ผ๋ก I-JEPA, V-JEPA์ ์ ์ฌํ predictive latent learning ์์น์ ํฐ์น-์ค์ฌ ํด๋จธ๋
ธ์ด๋ ์ ์ฑ
์ ์ ์ฉ
- ์ ์ ์์ ์ฑ, ์์ ํ ์๊ฐ๋ฝ ๋ฏผ์ฒฉ์ฑ, ํฐ์น ์ผ์ฑ๊ณผ ๋ชจ๋ธ๋ง์ ๋ชจ๋ ํตํฉํ ์ฒซ ํด๋จธ๋
ธ์ด๋ ์์คํ
Limitation & Further Study
- ๋ค์ฏ ๊ฐ์ง ์์
์ผ๋ก ํ๊ฐ๋์์ผ๋ฏ๋ก ๋ ๊ด๋ฒ์ํ ์์
์ ํ์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธ์ง์
- ๋ฐ์ดํฐ ์์ง์ด VR ํ
๋ ์คํผ๋ ์ด์
์ ์๊ตฌํ๋ฏ๋ก ํ์ฅ์ฑ ์ ํ ๊ฐ๋ฅ์ฑ
- ํฐ์น ์ผ์์ ๋
ธ์ด์ฆ, ๊ณ ์ฅ, ์ผ์ ํน์ฑ ์ฐจ์ด์ ๋ํ ๊ฐ๊ฑด์ฑ ๋ถ์ ๋ถ์กฑ
- ๋ค์ํ ํฐ์น ์ผ์ ํ์
(e.g., capacitive, optical)์ ๋ํ ์ ์์ฑ ๋ฏธ๊ฒ์ฆ
- ํ์ ์ฐ๊ตฌ: ์๊ฐ-์ง๋ ํ์ต์ด๋ ์๋ฎฌ๋ ์ด์
์ ํตํ ๋ฐ์ดํฐ ์์ง ํจ์จํ, ํฐ์น ์ผ์ ๊ณ ์ฅ ๋์, ๋ค์ํ ํด๋จธ๋
ธ์ด๋ ํ๋ซํผ์ผ๋ก์ ์ด์ ํ์ต
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ํฐ์น๋ฅผ ํต์ฌ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ํ๋ Touch Dreaming ๊ธฐ๋ฒ๊ณผ ํตํฉ๋ ์ค์ธ๊ณ ๋ฐ์ดํฐ ์์ง ์์คํ
์ผ๋ก ํด๋จธ๋
ธ์ด๋ ์ ์ด-ํ๋ถํ ์กฐ์์ ์คํ ๊ฐ๋ฅ์ฑ์ ๊ฐ๋ ฅํ๊ฒ ์
์ฆํ๋ค. ๋ค์ฏ ๊ฐ์ง ๋ค์ํ ์ค์ ์์
์์ 90.9% ์ฑ๋ฅ ๊ฐ์ ์ ๋ฌ์ฑํ๋ฉฐ, ์ ์ฌ ๊ณต๊ฐ ์์ธก์ ํจ๊ณผ์ฑ์ ๋ช
ํํ ๋ณด์ฌ์ฃผ๋ ๋์ ์ง์ ์ฐ๊ตฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์