Learning Visuotactile Skills with Two Multifingered Hands
์ ์: Toru Lin, Yu Zhang, Qiyang Li, Haozhi Qi, Brent Yi, Sergey Levine, Jitendra Malik | ๋ ์ง: 2024-04-25 | URL: https://arxiv.org/abs/2404.16823 📄 PDF
Essence
Fig. 1. An overview of our system setup and learned visuotactile skills on four tasks. (a) Our hardware and teleoperatio
VR ๊ธฐ๋ฐ ์ ๊ฐํ ํ
๋ ์คํผ๋ ์ด์
์์คํ
HATO์ ์ด๊ฐ ์ผ์๊ฐ ์ฅ์ฐฉ๋ ์์กฑ ์์ ํ์ฉํ์ฌ ์์ ๋ค์ค์ง ์กฐ์ ๋ก๋ด์ด ์๊ฐ-์ด๊ฐ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ธ๊ฐ ์์ค์ ๋ฏผ์ฒฉํ ์กฐ์ ๊ธฐ์ ์ ํ์ตํ๋ ์์คํ
์ ์ ์ํ๋ค.
Motivation
- Known: ๊ธฐ์กด ์์ ์กฐ์ ์์คํ
์ ๋จ์์ฑ ๋๋ฌธ์ ๋ณ๋ ฌ ๊ทธ๋ฆฌํผ๋ฅผ ์ฌ์ฉํ๋ฉฐ, imitation learning์ ํตํ ์กฐ์ ํ์ต์ด ํ๋ฐํ ์ฐ๊ตฌ๋๊ณ ์๋ค. ๊ทธ๋ฌ๋ ์ด๊ฐ ์ผ์ฑ์ด ์๋ ๋ค์ค์ง ์์ ๊ฐ์ถ ์์ ์์คํ
์ ๋งค์ฐ ๋๋ฌผ๋ค.
- Gap: ์์ ๋ค์ค์ง ์กฐ์์ ์ ํฉํ ์ ๊ฐํ ํ
๋ ์คํผ๋ ์ด์
์์คํ
์ด ์๊ณ , ์ด๊ฐ ์ผ์ฑ์ ๊ฐ์ถ ๋ค์ค์ง ์ ํ๋์จ์ด๋ ๋ถ์กฑํ๋ค. ๋ํ ์์ ๋ค์ค์ง ์กฐ์๊ณผ visuotactile learning์ ๊ต์งํฉ ์ฐ๊ตฌ๊ฐ ์๋ค.
- Why: ์ธ๊ฐ ์์ค์ ๋ฏผ์ฒฉํจ(dexterity)์ ๋ฌ์ฑํ๋ ค๋ฉด ์์ ํ๋ ฅ, ์ ์์ ํ์
, ๋๊ตฌ ์ฌ์ฉ ๋ฑ์ด ํ์์ ์ด๋ฉฐ, ์ด๊ฐ ํผ๋๋ฐฑ์ ๋ฏธ๋๋ฌ์ด ๋ฌผ์ฒด ์กฐ์์ด๋ ๊ณ ์ ๋ฐ ์์
์์ ์ค์ํ๋ค.
- Approach: ์๋ฃ์ฉ ์์กฑ ์(Psyonic Ability Hand)์ ์ฐ๊ตฌ์ฉ์ผ๋ก ์ฌ๋ชฉ์ ํํ๊ณ , VR ์ปจํธ๋กค๋ฌ(Meta Quest 2) ๊ธฐ๋ฐ์ ์ง๊ด์ ๋งคํ์ ํตํด HATO ์์คํ
์ ๊ฐ๋ฐํ์ผ๋ฉฐ, ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ ์ฒ๋ฆฌ์ end-to-end ์ ์ฑ
ํ์ต์ ์ํํ๋ค.
Achievement
Fig. 2. Illustration of learned skills on four different tasks. Our learned policies complete long-horizon and high-prec
- ์ ๊ฐํ ํ
๋ ์คํผ๋ ์ด์
์์คํ
: Meta Quest 2์ VR ์ปจํธ๋กค๋ฌ๋ฅผ ํ์ฉํ HATO๋ก 30๋ถ~2์๊ฐ์ ๋ฐ์ดํฐ๋ก ํจ๊ณผ์ ์ธ ์ ์ฑ
ํ์ต ๊ฐ๋ฅ
- ํ๋์จ์ด ํ์ : ์ด๊ฐ ์ผ์ ์ฅ์ฐฉ ์์กฑ ์์ ๋ก๋ด ์ฐ๊ตฌ์ฉ์ผ๋ก ์ฌ๋ชฉ์ ํํ์ฌ 6๊ฐ์ ์๊ฐ๋ฝ DoF์ 6๊ฐ์ fingertip ์ด๊ฐ ์ผ์ ์ ๊ณต
- ๋ณต์กํ ์์
์ฑ๊ณต: ์๊ฐ๋ฝ ํ๋ ฅ ํ์(๋ฏธ๋๋ฌ์ด ๋ฌผ์ฒด ์ ๋ฌ, ๋ธ๋ก ์คํ), ๋ํ ๋ฌผ์ฒด ์กฐ์(์์ธ ๋ถ๊ธฐ), ๋๊ตฌ ์ฌ์ฉ(์คํ
์ดํฌ ์๋น) ๋ฑ 4๊ฐ ์์
์ํ
- ablation study: ์ด๊ฐ๊ณผ ์๊ฐ์ด ์ ์ฑ
์ฑ๊ณต๋ฅ ๊ณผ ๊ฒฌ๊ณ ์ฑ์ ํฌ๊ฒ ํฅ์์ํค๋ฉฐ, ์๋ฐฑ ๊ฐ์ ์์ฐ๋ง์ผ๋ก ํจ๊ณผ์ ํ์ต ๊ฐ๋ฅํจ์ ์
์ฆ
How
Fig. 3. Fingertip Tactile Sensor Layout. There are six tactile
- Meta Quest 2 ์ปจํธ๋กค๋ฌ pose โ UR5e ํ์ end-effector pose ๋งคํ
- grip button โ 4๊ฐ ์๊ฐ๋ฝ ํ์ ๊ทธ๋์ค ์ ์ด, thumbstick โ ์์ง 2-DoF ๊ด์ ์์น ์ ์ด
- 3๊ฐ RGB-D ์นด๋ฉ๋ผ(์๋ชฉ 2๊ฐ, ์ 3๊ด์ 1๊ฐ) + ๊ฐ fingertip 6๊ฐ ์ด๊ฐ ์ผ์ + proprioception ์์ง
- Multimodal data processing ํ์ดํ๋ผ์ธ์ผ๋ก ์๊ฐ, ์ด๊ฐ, proprioception ์ ๋ ฌ ๋ฐ ์ฒ๋ฆฌ
- End-to-end behavior cloning์ผ๋ก vision + tactile input์ผ๋ก๋ถํฐ ์ ์ฑ
ํ์ต
Originality
- ์ฒ์์ ๊ต์งํฉ: ์์ ๋ค์ค์ง ์กฐ์ + imitation learning + visuotactile sensing์ ์กฐํฉ์ด ๊ธฐ์กด์ ์์
- ์์กฑ ์ฌ๋ชฉ์ ํ: ์๋ฃ์ฉ prosthetic hand๋ฅผ ๋ก๋ด ์ฐ๊ตฌ์ฉ์ผ๋ก ์ ํํ ์ฐฝ์์ ํ๋์จ์ด ํ์ฉ
- ์ง๊ด์ ํ
๋ ์คํผ๋ ์ด์
: ๊ธฐ์กด retargeting ๊ธฐ๋ฐ ์ ๊ทผ๊ณผ ๋ฌ๋ฆฌ ๊ทธ๋ฆฌํผ/์์ง ๋ถ๋ฆฌ ์ ์ด๋ก ๋ฎ์ ์ง์ฐ์๊ฐ๊ณผ ์ฌ์ฉ์ฑ ๊ฐ์
- ์ฒด๊ณ์ ablation: dataset size, sensing modality, visual preprocessing์ ์ํฅ์ ์ข
ํฉ์ ์ผ๋ก ๋ถ์
Limitation & Further Study
- ๋ฐ์ดํฐ ์์ง์ด ์ฌ์ ํ ์๋ ํ
๋ ์คํผ๋ ์ด์
์ ์์กดํ๋ฏ๋ก ํ์ฅ์ฑ ์ ํ
- 4๊ฐ ์์
๋ง ํ๊ฐ๋์์ผ๋ฉฐ, ๋ ๋ค์ํ ์ฅ๊ธฐ ์งํ ์์
์ ๋ํ ๊ฒ์ฆ ํ์
- ์ด๊ฐ ์ผ์์ temporal dynamics ํ์ฉ์ด ์ ํ์ ์ด๋ฉฐ, ๋ ์ ๊ตํ tactile representation ํ์ต ํ์
- ๋จ์ผ ์ ์ฑ
์ด ๋ชจ๋ ์์
์ ํด๊ฒฐํ์ง๋ ๋ชปํ๋ฉฐ, ์์
๋ณ ๋
๋ฆฝ์ ์ ์ฑ
ํ์ต ํ์
- Sim-to-real transfer๋ domain adaptation ๊ธฐ๋ฒ ๋ฏธ์ ์ฉ์ผ๋ก ์ค์ ๋ฐฐํฌ ๊ฒฌ๊ณ ์ฑ ํ๊ฐ ๋ถ์กฑ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์์ ๋ค์ค์ง ์กฐ์ ๋ถ์ผ์์ ํ๋์จ์ด ํ์ (์์กฑ ์ฌ๋ชฉ์ ํ)๊ณผ ์ ๊ทผ์ฑ ๋์ ํ
๋ ์คํผ๋ ์ด์
์์คํ
(HATO)์ ํตํด visuotactile learning์ ์๋ก์ด ๊ฒฝ๊ณ๋ฅผ ๊ฐ์ฒํ๋ค. ์ด๊ฐ ์ผ์ฑ์ ์ค์์ฑ์ ์ค์ฆ์ ์ผ๋ก ๋ณด์ฌ์ฃผ๊ณ ํจ์จ์ ๋ฐ์ดํฐ ์์ง ๋ฐ ์ ์ฑ
ํ์ต์ ๋ฌ์ฑํ์ฌ ๋ก๋ด ์กฐ์ ๋ถ์ผ์ ์๋นํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์