TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System
์ ์: Yanjie Ze, Siheng Zhao, Weizhuo Wang, Angjoo Kanazawa, Rocky Duan, Pieter Abbeel, Guanya Shi, Jiajun Wu, C. Karen Liu | ๋ ์ง: 2025-11-04 | DOI: 10.48550/arXiv.2511.02832 📄 PDF
Essence
Fig. 1: We introduce TWIST2, a holistic humanoid data collection system designed with scalability and portability. TWIST
TWIST2๋ mocap ์์ด VR ๊ธฐ๋ฐ์ ํฌํฐ๋ธํ ํด๋จธ๋
ธ์ด๋ ํ
๋ ์คํผ๋ ์ด์
์์คํ
์ผ๋ก, ์ ์ ์ ์ด๋ฅผ ์ ์งํ๋ฉด์ ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ง์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ์์งํ ๋ฐ์ดํฐ๋ก hierarchical visuomotor policy๋ฅผ ํ์ตํ์ฌ ์์จ์ ์ธ ์ ์ ์ ์ด๋ฅผ ๊ตฌํํ๋ค.
Motivation
- Known: ๊ธฐ์กด ํด๋จธ๋
ธ์ด๋ ํ
๋ ์คํผ๋ ์ด์
์์คํ
์ motion capture ๊ธฐ๋ฐ์ ์ ์ ์ ์ด(TWIST)๋ ํฌํฐ๋ธํ์ง ๋ชปํ๊ณ , VR ๊ธฐ๋ฐ์ ํฌํฐ๋ธ ์์คํ
(AMO, CLONE)์ ๋ถ๋ถ์ ์ ์ด๋ง ๊ฐ๋ฅํ ํ๊ณ๊ฐ ์๋ค.
- Gap: ์ ์ ์ ์ด, ํฌํฐ๋ธ์ฑ, ํ์ฅ ๊ฐ๋ฅ์ฑ, ์๊ธฐ์ค์ฌ ์์ (egocentric vision)์ ๋ชจ๋ ๋ง์กฑํ๋ ํด๋จธ๋
ธ์ด๋ ๋ฐ์ดํฐ ์์ง ์์คํ
์ด ๋ถ์ฌํ๋ค.
- Why: ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ ๋ก๋ด ํ์ต์ ํ์ ์ ์ฃผ๋ํ์ผ๋, ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ํจ๊ณผ์ ์ธ ๋ฐ์ดํฐ ์์ง ํ๋ ์์ํฌ๊ฐ ๋ถ์กฑํ์ฌ ์ง์ ์ด ์ง์ฐ๋๊ณ ์๋ค.
- Approach: PICO4U VR ๊ธฐ๊ธฐ๋ก ์ ์ ์ธ๊ฐ ๋ชจ์
์ ์ค์๊ฐ ์คํธ๋ฆฌ๋ฐํ๊ณ , ์ ๋น์ฉ 2-DoF ๋ก๋ด ๋ชฉ(์ฝ $250)์ผ๋ก ์๊ธฐ์ค์ฌ ์๊ฐ์ ์ ๊ณตํ๋ฉฐ, ๊ฐํํ์ต ๊ธฐ๋ฐ motion tracking controller์ hierarchical visuomotor policy๋ฅผ ํตํฉํ๋ค.
Achievement
Fig. 1: We introduce TWIST2, a holistic humanoid data collection system designed with scalability and portability. TWIST
- ํฌํฐ๋ธ mocap-free ์์คํ
: 1๋ถ ๋ด ์ค์น ๊ฐ๋ฅํ๊ณ ๋น์ฉ ํจ์จ์ ์ธ TWIST2 Neck ์ค๊ณ๋ก ์ค์ธ ํ๊ฒฝ์์์ ๋ฐฐํฌ ์คํ
- ํ์ฅ ๊ฐ๋ฅํ ๋ฐ์ดํฐ ์์ง: 15-20๋ถ ๋ด 100๊ฐ์ ์ฑ๊ณต์ ์ธ ์์ฐ ์์ง(๊ฑฐ์ 100% ์ฑ๊ณต๋ฅ )
- ์ ์ ์ ์ด ์ ์ง: ํ, ๋ค๋ฆฌ, ๋ชธํต ํฌํจ ๋ชจ๋ ๊ด์ ์ ํตํฉ ๋ฐฉ์์ผ๋ก ์ง์ ์ถ์
- ์ฅ๊ธฐ์ ๋ณต์ก ์์
: ํ์ฌ ํด๋ฉ/์ธํด๋ฉ, ๋ฌธ์ ํตํ ๋ฌผ์ฒด ์ด์ก ๋ฑ ๋ค์ํ ์ ์ ๋ฏผ์ฒฉ์ฑ ๊ธฐ์ ์์ฐ
- ์์จ visuomotor ์ ์ฑ
: ์๊ธฐ์ค์ฌ ์๊ฐ๋ง์ผ๋ก ์ ์ ์ ์ด ๊ฐ๋ฅํ hierarchical diffusion-based policy ๋ฌ์ฑ
- ์์ ์คํ์์ค: ์์คํ
, ์์ง ๋ฐ์ดํฐ, ๋ชจ๋ธ ๋ชจ๋ ๊ณต๊ฐํ์ฌ ์ฌํ์ฑ ๋ณด์ฅ
How
Fig. 2: System overview of TWIST2. We build a holistic humanoid teleoperation system with portable devices and egocentri
- PICO4U VR ๋๋ฐ์ด์ค(ํค๋์
, ํธ๋ ์ปจํธ๋กค๋ฌ, ๋ฐ๋ชฉ ๋ชจ์
ํธ๋์ปค)๋ฅผ ํตํด ์ ์ ์ธ๊ฐ ์์ธ ์บก์ฒ
- 2-DoF ๋ก๋ด ๋ชฉ ์ค๊ณ๋ก ์๊ธฐ์ค์ฌ active stereo vision ์ ๊ณต(egocentric teleoperation ๊ฐ๋ฅ)
- ์ธ๊ฐ ์์ธ์์ ํด๋จธ๋
ธ์ด๋ ๊ด์ ์์น๋ก์ holistic retargeting pipeline ๊ตฌ์ถ
- ๊ฐํํ์ต ๊ธฐ๋ฐ motion tracking controller (ฯlow) ํ์ต์ผ๋ก ๋ก๋ด์ ์์ธ ์ถ์ ๋ก๋ฒ์คํธ์ฑ ํ๋ณด
- Diffusion Policy๋ฅผ ์ฌ์ฉํ ๊ณ ์์ค ์ ์ฑ
(ฯhigh) ์ค๊ณ๋ก ์๊ฐ ๊ด์ฐฐ์์ ์ง์ ์ ์ ๊ด์ ์์น ์์ธก
- Two-level hierarchical framework: low-level motion tracker + high-level visuomotor policy
- ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ๋๊ท๋ชจ ์ํธ์์ฉ ๋ฐ์ดํฐ๋ก controller ํ๋ จ
- ์์ง๋ ๊ณ ํ์ง ์์ฐ ๋ฐ์ดํฐ๋ก visuomotor policy ์ง๋ํ์ต
Originality
- ์ต์ด์ VR ๊ธฐ๋ฐ ์ ์ ์ ์ด ์์คํ
: Portability, scalability, holistic control์ ๋ชจ๋ ๋ฌ์ฑํ ์ฒซ ํด๋จธ๋
ธ์ด๋ ํ
๋ ์คํผ๋ ์ด์
์์คํ
- ์ ๋น์ฉ ์๊ธฐ์ค์ฌ ์๊ฐ ์๋ฃจ์
: ๊ธฐ์กด mocap ๊ธฐ๋ฐ ์์คํ
์ ๊ณ ๊ฐ ๊ตฌ์์ผ๋ก๋ถํฐ ํด๋ฐฉ๋ 2-DoF ๋ก๋ด ๋ชฉ ์ค๊ณ
- Hierarchical whole-body visuomotor ์ ์ฑ
: ๊ธฐ์กด root velocity command ๊ธฐ๋ฐ ์ ์ด๋ฅผ ๋์ด ์ ์ ์์จ ์ ์ด ์คํ
- ํจ์จ์ ๋ฐ์ดํฐ ์์ง ํ์ดํ๋ผ์ธ: Single operator๋ก 15-20๋ถ ๋ด 100๊ฐ ์ฑ๊ณต์ ์์ฐ ์์ง ๊ฐ๋ฅ
- ์์ ์ฌํ ๊ฐ๋ฅํ ์คํ ์์ค ์ํ๊ณ: ์์คํ
์ค๊ณ, ์ํํธ์จ์ด, ๋ฐ์ดํฐ, ๋ชจ๋ธ์ ์ ๋ฉด ๊ณต๊ฐ
Limitation & Further Study
- ํ์ฌ ์์คํ
์ Unitree G1 ํด๋จธ๋
ธ์ด๋์๋ง ํตํฉ๋์ด ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ์ผ๋ฐํ ๊ฒ์ฆ ๋ถ์ฌ
- ์๊ธฐ์ค์ฌ active stereo vision์ ํ์์ฑ์ด ๊ฐ์กฐ๋๋, ๋ค๋ฅธ ์๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ(์: RGB-D, LiDAR)์์ ๋น๊ต ๋ถ์ ๋ถ์กฑ
- ํ์ต๋ visuomotor ์ ์ฑ
์ ๋ฌผ๋ฆฌ์ ํ๊ฒฝ ๋ณํ(์กฐ๋ช
, ๊ฐ์ฒด ์์น)์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ํ๊ฐ ๋ฏธํก
- Diffusion Policy์ ์์ธก ์ง์ฐ(latency) ํน์ฑ์ด ๋งค์ฐ ๋์ ์ธ ์์
(์: ๊ณ ์ ํน)์ ๋ฏธ์น๋ ์ํฅ ๋ถ์ ํ์
- ๋จ์ผ ์คํผ๋ ์ดํฐ ๊ตฌ์กฐ๋ก ์ธํ ์์ง ๋ฐ์ดํฐ์ ๋ค์์ฑ(operator bias) ํ๊ณ ๋
ผ์ ๋ถ์ฌ
- ํ์ ์ฐ๊ตฌ: ๋ค์ํ ํด๋จธ๋
ธ์ด๋ ํ๋ซํผ์ผ๋ก์ ํ์ฅ, ๋ค์ค ์คํผ๋ ์ดํฐ ํ๋ ฅ ์์ง, ์๊ฐ ๊ธฐ๋ฐ ์ ์ฑ
์ ์จ๋ผ์ธ ์ ์ ํ์ต ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: TWIST2๋ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง ๋ณ๋ชฉ์ ์ค์ง์ ์ผ๋ก ํด๊ฒฐํ๋ ํ์ ์ ์ธ ์์คํ
์ผ๋ก, ํฌํฐ๋ธ์ฑ๊ณผ ์ ์ ์ ์ด์ ์ค๋๋ trade-off๋ฅผ ๊ทน๋ณตํ๋ค. ์์ ์คํ์์ค ๊ณต๊ฐ์ ์ค์ฆ์ ์ฑ๊ณผ(whole-body dexterous manipulation, kick-T task)๋ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด ํ์ต ์ปค๋ฎค๋ํฐ์ ์ฆ๊ฐ์ ์ธ ์ํฅ์ ๋ฏธ์น ์ ์๋ ์ค๋ํ ๊ธฐ์ฌ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์