A Humanoid Visual-Tactile-Action Dataset for Contact-Rich Manipulation
์ ์: Eunju Kwon, Seungwon Oh, In-Chang Baek, Yucheon Park, Gyungbo Kim, JaeYoung Moon, Yunho Choi, Kyung-Joong Kim | ๋ ์ง: 2025-10-28 | URL: https://arxiv.org/abs/2510.25725 📄 PDF
Essence
Fig. 1.
์ธํ๋ก๋ด์ ์๊ฐ-์ด๊ฐ-ํ๋ ๋ค์ค๋ชจ๋ฌ ๋ฐ์ดํฐ์
์ ์ ์ํ์ฌ ์ ์ด ๊ธฐ๋ฐ ์กฐ์, ํนํ ๋ถ๋๋ฌ์ด ๋ฌผ์ฒด ์กฐ์์ ์ํ ๋ก๋ด ํ์ต์ ์ง์ํ๋ค.
Motivation
- Known: ๋ก๋ด ํ์ต ๋ฐ์ดํฐ์
์ ์ฃผ๋ก ๊ฒฝ์ง๋ ๋ฌผ์ฒด์ ์ด์ ์ ๋ง์ถฐ์์ผ๋ฉฐ, ๋ค์ค๋ชจ๋ฌ ์ผ์ฑ์ ํตํฉ์ด ์กฐ์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ค๋ ๊ฒ์ด ์๋ ค์ ธ ์๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ ๋ถ๋๋ฌ์ด ๋ฌผ์ฒด ์กฐ์ ์ ๋ค์ํ ์๋ ฅ ์กฐ๊ฑด์ ๋ฐ์ํ ์ด๊ฐ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ๋ฉฐ, ์ธํ๋ก๋ด์ ์์ฌ์ฃผ ์๋ ์(dexterous hands)์ผ๋ก๋ถํฐ์ ๊ณ ๋ฐ๋ ์ด๊ฐ ์ ํธ๋ฅผ ํฌํจํ ๋ฐ์ดํฐ์
์ด ์กด์ฌํ์ง ์๋๋ค.
- Why: ์ ์ด ๊ธฐ๋ฐ ์กฐ์์ ์ค์ธ๊ณ ๋ก๋ด ์์
์ ํต์ฌ์ด๋ฉฐ, ๋ถ๋๋ฌ์ด ๋ฌผ์ฒด๋ ์กฐ์ ์ค ํํ๊ฐ ์ง์์ ์ผ๋ก ๋ณํ๊ธฐ ๋๋ฌธ์ ๊ณ ํด์๋ ์ด๊ฐ ์ ๋ณด์ ์บก์ฒ์ ํ์ต์ด ํ์์ ์ด๋ค.
- Approach: ์๊ฒฉ ์กฐ์ข
๋ฐฉ์์ผ๋ก Inspire Hand(1,062๊ฐ ๊ณ ํด์๋ ์ผ์)์ egocentric ๋น์ ์นด๋ฉ๋ผ๋ฅผ ์ฅ์ฐฉํ ์ธํ๋ก๋ด์ ํตํด ํ์ฌ๊ณผ ์คํ์ง ๊ฐ์ ๋ถ๋๋ฌ์ด ๋ฌผ์ฒด๋ฅผ ๊ฐํ ์๋ ฅ/์ฝํ ์๋ ฅ ์กฐ๊ฑด์์ ์กฐ์ํ๋ ๋ฐ์ดํฐ๋ฅผ ์์งํ์๋ค.
Achievement
Fig. 3(a) visualizes the tactile signals collected across the four
- ์ฒซ ์ธํ๋ก๋ด ์ด๊ฐ-๋น์ -ํ๋ ๋ฐ์ดํฐ์
: ๋ถ๋๋ฌ์ด ๋ฌผ์ฒด๋ฅผ ๋ค์ํ ์ ์ด ์กฐ๊ฑด ํ์์ ์บก์ฒํ 101.9K ํ๋ ์์ ๋ค์ค๋ชจ๋ฌ ๋ฐ์ดํฐ์
์ ์ ์
- ๊ณ ๋ฐ๋ ์ด๊ฐ ์ตํฉ ์ํคํ
์ฒ: ๋ฐ์ง๋ ์ด๊ฐ ์ ๋ณด์ ํจ์จ์ ์ตํฉ์ ์ํ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ ๋์
์ผ๋ก ์ ์ด ๊ธฐ๋ฐ ์กฐ์ ์ฑ๋ฅ ํฅ์
- ์ด๊ฐ ์ ํธ ํน์ฑ ๋ถ์: ๋ถ๋๋ฌ์ด ๋ฌผ์ฒด ์กฐ์ ์ ์ด๊ฐ ์ ํธ์ ์๊ฐ ๋ณ๋ ๋ถํฌ๊ฐ ๊ฒฝ์ง๋ ๋ฌผ์ฒด์ ๋ณธ์ง์ ์ผ๋ก ๋ค๋ฅด๋ฉฐ, ๊ณ ๋ฐ๋ ์ผ์ฑ์ด ํ์์์ ์ค์ฆ
How
Fig. 2. Comparison of tactile signal distributions captured from the dexter-
- Unitree ์ํฌํ๋ก์ฐ ํ์ฅ์ ํตํ ์ธํ๋ก๋ด ์๊ฒฉ ์กฐ์ข
์์คํ
๊ตฌ์ถ (head-mounted camera 848ร480, third-person RealSense D435, piezo-resistive tactile carpet)
- 2,124๊ฐ ๊ณ ๋ฐ๋ ์ผ์์ 42๊ฐ ์ ๋ฐ๋ ์ผ์(sparse representation) ๊ฐ ๋น๊ต ๋ถ์์ ํตํด ๊ณ ํด์๋ ์ด๊ฐ ์ ํธ์ ์ค์์ฑ ๊ฒ์ฆ
- t-SNE ์๋ฒ ๋ฉ์ ์ด์ฉํ ์ด๊ฐ ์ ํธ ๋ถํฌ ๋ถ์์ผ๋ก ์๋ ฅ ์กฐ๊ฑด๋ณ ํ์คํฌ ํน์ฑ ๋ถ๋ฅ
- ๋ถ๋๋ฌ์ด ๋ฌผ์ฒด(ํ์ฌ, ์คํ์ง) vs ๊ฒฝ์ง๋ ๋ฌผ์ฒด์ ๋ํ ์ด๊ฐ ํจํด ๋น๊ต ๋ถ์
- State-of-the-art imitation learning baseline์ ํตํ ์ด๊ฐ ์ผ์ฑ ํด์๋์ ์ค์๋ ํ๊ฐ
Originality
- ์ธํ๋ก๋ด์ anthropomorphic hands(Inspire Hand RH56-DFX)๋ก๋ถํฐ ๊ณ ๋ฐ๋ ์ด๊ฐ ์ ํธ(2,124๊ฐ ์ผ์)๋ฅผ ์์งํ ์ฒซ ์๋
- ๋ถ๋๋ฌ์ด ๋ฌผ์ฒด ์กฐ์์ ํนํ๋ ๋ฐ์ดํฐ์
์ผ๋ก, ์๋ ฅ ์กฐ๊ฑด ๋ณํ์ ๋ฐ๋ฅธ ์ด๊ฐ ์ ํธ์ ๋์ ๋ณํ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์บก์ฒ
- Dense vs. Sparse ์ด๊ฐ ํํ ๋น๊ต๋ฅผ ํตํด ๊ณ ํด์๋ ์ด๊ฐ ์ผ์ฑ์ ํ์์ฑ์ ์ ๋์ ์ผ๋ก ์
์ฆ
Limitation & Further Study
- ๋ฐ์ดํฐ์
์ด 2๊ฐ ์ ํ์ ๋ถ๋๋ฌ์ด ๋ฌผ์ฒด(ํ์ฌ, ์คํ์ง)๋ง ํฌํจํ์ฌ ๋ฌผ์ฒด ๋ค์์ฑ์ด ์ ํ์
- 3๋ช
์ ์๊ฒฉ ์กฐ์ข
์์ ์ํด ์์ง๋์ด ๊ฐ์ธ ์ฐจ์ด์ ์ํฅ ๊ฐ๋ฅ์ฑ
- ์ค์ ๋ก๋ด ์กฐ์์์์ ์ ์ฑ
ํ์ต ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๋ ์ค์ ๋ก๋ด ์คํ์ด ๋ถ์ฌํ๊ฑฐ๋ ์ ํ์
- ํ์ ์ฐ๊ตฌ๋ ๋ ๋ค์ํ ๋ถ๋๋ฌ์ด ๋ฌผ์ฒด, ๋ณต์กํ ์กฐ์ ํ์คํฌ, ๊ทธ๋ฆฌ๊ณ self-supervised ๋๋ unsupervised ํ์ต ๋ฐฉ๋ฒ์ ์ ์ฉ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ ์ด ๊ธฐ๋ฐ ์กฐ์ ์ฐ๊ตฌ์ ์ค์ํ ๊ฒฉ์ฐจ๋ฅผ ๋ฉ์ฐ๊ธฐ ์ํด ์ธํ๋ก๋ด ๊ธฐ๋ฐ์ ๊ณ ๋ฐ๋ ์๊ฐ-์ด๊ฐ-ํ๋ ๋ฐ์ดํฐ์
์ ์ฒ์์ผ๋ก ์ ์ํ๋ฉฐ, ๊ณ ํด์๋ ์ด๊ฐ ์ ํธ์ ํ์์ฑ์ ๋ช
ํํ๊ฒ ์
์ฆํ๋ ๊ฐ์น ์๋ ๊ธฐ์ฌ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์