TeleOpBench: A Simulator-Centric Benchmark for Dual-Arm Dexterous Teleoperation
์ ์: Hangyu Li, Qin Zhao, Haoran Xu, Xinyu Jiang, Qingwei Ben, Feiyu Jia, Haoyu Zhao, Liang Xu, Jia Zeng, Hanqing Wang, Bo Dai, Junting Dong, Jiangmiao Pang | ๋ ์ง: 2025-05-19 | URL: https://arxiv.org/abs/2505.12748 📄 PDF
Essence
Figure 2: The overview of the proposed TeleOpBench, where we unify four operator interfaces in
TeleOpBench๋ ์ํ ๋ฏผ์ฒฉํ ํ
๋ ์คํผ๋ ์ด์
์ ์ํ ์๋ฎฌ๋ ์ดํฐ ๊ธฐ๋ฐ ๋ฒค์น๋งํฌ๋ก, 30๊ฐ์ ๊ณ ์ถฉ์ค๋ ์์
ํ๊ฒฝ๊ณผ 4๊ฐ์ง ๋ํ์ ํ
๋ ์คํผ๋ ์ด์
๋ชจ๋ฌ๋ฆฌํฐ(MoCap, VR, ์ธ๊ณจ๊ฒฉ, ๋น์ )๋ฅผ ํตํฉ ํ๋ ์์ํฌ๋ก ์ ๊ณตํ๋ฉฐ ์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํ๋์จ์ด ๊ฐ์ ๊ฐํ ์๊ด๊ด๊ณ๋ฅผ ๊ฒ์ฆํ๋ค.
Motivation
- Known: ์ต๊ทผ ์ํ ๋ฏผ์ฒฉ ํ
๋ ์คํผ๋ ์ด์
์ฐ๊ตฌ์์ ๋ค์ํ ํ๋์จ์ด ํ์ดํ๋ผ์ธ(๊ด์ฑ ๋ชจ์
์บก์ฒ, ์ธ๊ณจ๊ฒฉ, ๋น์ ์ธํฐํ์ด์ค ๋ฑ)์ด ์ ์๋์์ผ๋, ์ด๋ค ์์คํ
๊ฐ์ ๊ณต์ ํ๊ณ ์ฌํ ๊ฐ๋ฅํ ๋น๊ต๋ฅผ ์ํ ํ์คํ๋ ๋ฒค์น๋งํฌ๋ ๋ถ์ฌํ ์ํฉ์ด๋ค.
- Gap: ๊ฐ ํ
๋ ์คํผ๋ ์ด์
์์คํ
์ด ๊ณ ์ ํ ํ๋์จ์ด, ๋ก๋ด ํ๋ซํผ, ์์
ํ๊ฒฝ์ ์กฐํฉ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ด ๊ต์ฐจ ๋ฐฉ๋ฒ ํ๊ฐ๊ฐ ์ด๋ ต๊ณ , ์๋ก ๋ค๋ฅธ ์กฐ๊ฑด์์์ ๊ณต์ ํ ์ฑ๋ฅ ๋น๊ต๊ฐ ๋ถ๊ฐ๋ฅํ๋ค.
- Why: ํ์คํ๋ ๋ฒค์น๋งํฌ๋ ํ
๋ ์คํผ๋ ์ด์
๋ถ์ผ์ ๊ฐ๊ด์ ์ธ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๊ณ , ๋ค์ํ ์ธํฐํ์ด์ค ๊ฐ์ ์ฅ๋จ์ ์ ์ฒด๊ณ์ ์ผ๋ก ๋น๊ตํ ์ ์๊ฒ ํจ์ผ๋ก์จ ์ฐ๊ตฌ ์ง์ ์ ์ด์งํ๋ค.
- Approach: ์๋ฎฌ๋ ์ดํฐ ์ค์ฌ์ ํตํฉ ๋ฒค์น๋งํฌ ํ๋ซํผ์ ๊ตฌ์ถํ์ฌ ํ๋์จ์ด ๋ฐ ์ฅ๋ฉด ๋ณ๋์ฑ์ ์ ๊ฑฐํ๊ณ , ๋ค ๊ฐ์ง ํ
๋ ์คํผ๋ ์ด์
๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ๋จ์ผ ๋ชจ๋์ ์ธํฐํ์ด์ค ๋ด์์ ๊ตฌํํ ํ, ์๋ฎฌ๋ ์ด์
์ฑ๋ฅ๊ณผ ์ค์ ์ํ ๋ก๋ด ํ๋ซํผ์ ์ฑ๋ฅ์ ๋น๊ต ๊ฒ์ฆํ๋ค.
Achievement
Figure 1: We present TeleOpBench, a simulation-based benchmark for bimanual dexterous teleoper-
- TeleOpBench ๋ฒค์น๋งํฌ ์ค๋ฆฝ: 30๊ฐ์ ์ ์ง์ ์ผ๋ก ๋์ด๋๊ฐ ์ฆ๊ฐํ๋ ์์
ํ๊ฒฝ(ํฝ์คํ๋ ์ด์ค, ๋๊ตฌ ์ฌ์ฉ, ํ๋ ฅ ์กฐ์ ๋ฑ)์ผ๋ก ๊ตฌ์ฑ๋ ์๋ฎฌ๋ ์ดํฐ ๊ธฐ๋ฐ ๋ฒค์น๋งํฌ ๊ฐ๋ฐ
- ํตํฉ ํ
๋ ์คํผ๋ ์ด์
ํ์ดํ๋ผ์ธ: inertial motion capture, VR ์ปจํธ๋กค๋ฌ, ์์ฒด ์ธ๊ณจ๊ฒฉ, ๋ชจ๋
ธํ๋ฌ ๋น์ ์ถ์ ๋ฑ 4๊ฐ์ง ๋ํ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ๋จ์ผ ๋ชจ๋์ ํ๋ ์์ํฌ์ ๊ตฌํ
- ์๋ฎฌ-์ค์ ๊ฐ ๊ฒ์ฆ: 10๊ฐ์ ์จ๊ฒจ์ง ์์
์์ ์๋ฎฌ๋ ์ด์
๊ณผ ํ๋์จ์ด ์ฑ๋ฅ ๊ฐ์ ๊ฐํ ์๊ด๊ด๊ณ๋ฅผ ํ์ธํ์ฌ ๋ฒค์น๋งํฌ์ ์ธ๋ถ ํ๋น์ฑ ์
์ฆ
- ํ์ฅ์ฑ๊ณผ ์ฌํ์ฑ: ์คํ์์ค ๊ณต๊ฐ๋ฅผ ํตํด ์ฐ๊ตฌ์๋ค์ด ์๋ก์ด ํ
๋ ์คํผ๋ ์ด์
ํ์ดํ๋ผ์ธ์ ๋์ผํ ์กฐ๊ฑด์์ ๋ฒค์น๋งํนํ ์ ์๋ ํ๋ซํผ ์ ๊ณต
How
Figure 2: The overview of the proposed TeleOpBench, where we unify four operator interfaces in
- NVIDIA Isaac Sim์ PhysX ์์ง๊ณผ ํฌํ ๋ฆฌ์ผ๋ฆฌ์คํฑ ๋ ๋๋ฌ๋ฅผ ํ์ฉํ ๊ณ ์ถฉ์ค๋ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ ๊ตฌ์ถ
- ๊ฐ ํ
๋ ์คํผ๋ ์ด์
๋ชจ๋ฌ๋ฆฌํฐ์ ๋ํด inverse kinematics, dex-retargeting, human pose estimation ๋ฑ์ ๋ณํ ํ์ดํ๋ผ์ธ ๊ตฌํ
- ์ํ 6-DoF ๋ฏผ์ฒฉํ ์์ด ์ฅ์ฐฉ๋ ๋ฌผ๋ฆฌ์ ์ํ ํ๋ซํผ์์ ๋ฏธ๋ฌ๋ง๋ ์คํ ์ํ
- ์์
๋ณ ์ฑ๊ณต๋ฅ (success rate)๊ณผ ์๋ฃ ์๊ฐ(completion time)์ ๋ฉํธ๋ฆญ์ผ๋ก ์ฌ์ฉํ ์ฒด๊ณ์ ํ๊ฐ
- ์ ํ ๋งคํ, ์ขํ ๋ณํ, ์ค์ผ์ผ๋ง ๋ฑ์ ํ์คํ๋ ์ธํฐํ์ด์ค๋ฅผ ํตํ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ ํต์ผ
Originality
- ์ํ ๋ฏผ์ฒฉํ ํ
๋ ์คํผ๋ ์ด์
์ ํนํ๋ ์ต์ด์ ํฌ๊ด์ ์๋ฎฌ๋ ์ดํฐ ๊ธฐ๋ฐ ๋ฒค์น๋งํฌ๋ก, ๊ธฐ์กด ๋จ์ผ ๋ก๋ด ํ๋ซํผ์ด๋ ํน์ ์ธํฐํ์ด์ค ์ค์ฌ์ ํ๊ฐ๋ฅผ ๋์ด์ ํ์ฅ์ฑ ์๋ ํ๋ ์์ํฌ ์ ์
- ๋ค ๊ฐ์ง ์๋ก ๋ค๋ฅธ ํ
๋ ์คํผ๋ ์ด์
๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ๋์ผํ ํ๊ฒฝ์์ ๊ณต์ ํ๊ฒ ํ๊ฐํ ์ ์๋ ํตํฉ ๋ชจ๋์ ์ํคํ
์ฒ ๊ฐ๋ฐ
- ์๋ฎฌ๋ ์ด์
์ฑ๋ฅ๊ณผ ์ค์ ํ๋์จ์ด ์ฑ๋ฅ ๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๊ฒ์ฆํจ์ผ๋ก์จ ์๋ฎฌ๋ ์ดํฐ ๊ธฐ๋ฐ ๋ฒค์น๋งํน์ ์ ๋ขฐ์ฑ ์
์ฆ
Limitation & Further Study
- ํ์ฌ 3๊ฐ์ง ๋ก๋ด ํ๋ซํผ(G1, GR1T2, H1-2)์ผ๋ก ์ ํ๋์ด ์์ผ๋ฉฐ, ๋ ๋ค์ํ ๋ก๋ด ํํ(humanoid๊ฐ ์๋ ์ฐ์
์ฉ ๋ก๋ด ๋ฑ)์ ๋ํ ํ์ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- ์๋ฎฌ๋ ์ด์
-์ค์ ๊ฐ์ ์๊ด๊ด๊ณ๊ฐ ๋์ง๋ง, ๋ง์ฐฐ, ์ผ์ ๋
ธ์ด์ฆ, ์ง์ฐ ์๊ฐ ๋ฑ์ ํ์ค์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
์ ํ๋์ ๋ํ ์ฌ์ธต์ ๋ถ์ ๋ถ์กฑ
- ๋น์ ๊ธฐ๋ฐ ์ถ์ (monocular vision tracking)์ ๊ฒฝ์ฐ MoCap ๋ฐ ์ธ๊ณจ๊ฒฉ ๋๋น ์ฑ๋ฅ ์ฐจ์ด๊ฐ ํฌ๋ฉฐ, ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํ ๊ตฌ์ฒด์ ์ธ ์๊ณ ๋ฆฌ์ฆ ์ ์ ๋ถ์ฌ
- ์ธ์ง์ ๋ถํ(cognitive load), ์ฌ์ฉ์ ํผ๋ก๋, ํ์ต ๊ณก์ ๋ฑ ์ ์ฑ์ ์ฌ์ฉ์ฑ ํ๊ฐ ์งํ ๋ฏธํฌํจ
- ํ์ ์ฐ๊ตฌ์์๋ ๋ ๋ง์ ๋ก๋ด ํ๋ซํผ ํตํฉ, ์ค์๊ฐ ์ง์ฐ(latency) ํจ๊ณผ ๋ชจ๋ธ๋ง, ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ์ฑ
ํ์ต๊ณผ์ ์ฐ๊ณ ๋ฑ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: TeleOpBench๋ ํ
๋ ์คํผ๋ ์ด์
์ฐ๊ตฌ์ ์ฅ๊ธฐ์ ์ธ ๋ณ๋ชฉ์ธ ํ์คํ๋ ํ๊ฐ ํ๊ฒฝ์ ๋ถ์ฌ๋ฅผ ํด๊ฒฐํ๋ ์ค์ํ ๊ธฐ์ฌ๋ก, ์ค์ ํ๋์จ์ด์์ ์๊ด๊ด๊ณ ๊ฒ์ฆ์ ํตํด ์ค์ฉ์ฑ์ ์
์ฆํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง ๋ ๋ง์ ๋ก๋ด ํ๋ซํผ ํตํฉ๊ณผ ์ ์ฑ์ ์ฌ์ฉ์ฑ ์งํ ์ถ๊ฐ๋ก ์ํฅ๋ ฅ์ ํ๋ํ ์ ์์ ๊ฒ์ผ๋ก ์์๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์