TACT: Humanoid Whole-body Contact Manipulation through Deep Imitation Learning with Tactile Modality
์ ์: Masaki Murooka, Takahiro Hoshi, Kensuke Fukumitsu, Shimpei Masuda, Marwan Hamze, Tomoya Sasaki, Mitsuharu Morisawa, Eiichi Yoshida | ๋ ์ง: 2025-06-18 | URL: https://arxiv.org/abs/2506.15146 📄 PDF
Essence
Fig. 2. Humanoid control system for whole-body contact manipulation with tactile feedback.
์ธ๊ฐํ ๋ก๋ด์ด ์ด๊ฐ ์ผ์๋ฅผ ํ์ฉํ ๋ชจ๋ฐฉ ํ์ต(imitation learning)์ ํตํด ์ ์ ์ ์ด ์กฐ์์ ์ํํ ์ ์๋๋ก ํ๋ TACT(tactile-modality extended ACT) ์ ์ด ์์คํ
์ ์ ์ํ์๋ค.
Motivation
- Known: ์ธ๊ฐํ ๋ก๋ด์ ๋๋ถ๋ถ ์กฐ์ ์ฐ๊ตฌ๋ ์๊ณผ ๋ฐ ๊ฐ์ ๋ง๋จ๋ถ ์ ์ด๋ง ๋ค๋ฃจ๋ฉฐ, ์ ์ ์ ์ด ์กฐ์์ ์ํ ๊ธฐ์กด ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ๊ณ์ฐ ๋น์ฉ์ด ๋๊ณ ๊ด๋ฒ์ ์ ์ด ์ธก์ ์ด ์ด๋ ต๋ค๋ ํ๊ณ๊ฐ ์๋ค.
- Gap: ์ธ๊ฐ์ฒ๋ผ ์ ์ ์ ํ์ฉํ ๊ท ํ์กํ ์ ์ด ์กฐ์์ ์ํํ๋ฉด์๋ ๋ถ์ฐ๋ ์ด๊ฐ ์ผ์ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ํ์ต ๊ธฐ๋ฐ ์ ์ด ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: ์ ์ ์ ์ด ์กฐ์์ ์์ ์ฑ ํฅ์๊ณผ ๋ถํ ๊ฐ์๋ผ๋ ์ฅ์ ์ด ์์ผ๋ฉฐ, ์ฌ์ธํ ์ ์ด์ด ํ์ํ ์ค์ํ ์์
์ํ์ ์ํด ํ์์ ์ด๋ค.
- Approach: Transformer ๊ธฐ๋ฐ ์ ์ฑ
์ธ ACT๋ฅผ ์ด๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ํ์ฅํ์ฌ ๋ค์ค ์ผ์(๊ด์ ์์น, ์๊ฐ, ์ด๊ฐ) ์
๋ ฅ์ ์ฒ๋ฆฌํ๊ณ , ๋ชจ๋ฐฉ ํ์ต์ผ๋ก ์ธ๊ฐ ํ
๋ ์คํผ๋ ์ด์
๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ตํ๋ฉฐ, ์ด๋ฅผ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ฌํ๊ฒํ
๋ฐ ๋ณดํ ์ ์ด์ ํตํฉํ์๋ค.
Achievement
Fig. 5. Experiment in which a humanoid holds up a paper box.
- ์ด๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ ํตํฉ: ACT๋ฅผ ํ์ฅํ์ฌ ์ฒ์์ผ๋ก ๋ถ์ฐ๋ ์ด๊ฐ ์ผ์ ๋ฐ์ดํฐ๋ฅผ ์ง์ Transformer ๊ธฐ๋ฐ ์ ์ฑ
์ ์
๋ ฅํ ์ ์๋๋ก ๊ตฌํ
- ๋ค์ธต ์ ์ด ์ํคํ
์ฒ: ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด์ ์ ๋ขฐ์ฑ๊ณผ ํ์ต ๊ธฐ๋ฐ ์ ์ด์ ์ ์ฐ์ฑ์ ๊ฒฐํฉํ ์ด์ธต ๊ตฌ์กฐ ๊ฐ๋ฐ
- ์ ์ ์ ์ด ์กฐ์ ์ค์ฆ: ์ํ ๊ท๋ชจ์ ์ธ๊ฐํ ๋ก๋ด RHP7 Kaleido๊ฐ ๊ท ํ์ ์ ์งํ๋ฉด์ ๋ณดํ๊ณผ ๋์์ ์ฌ์ธํ ์ ์ ์ ์ด ์กฐ์ ๋ฌ์ฑ
- ์ผ์ ์ตํฉ์ ํจ๊ณผ ๊ฒ์ฆ: ์๊ฐ๊ณผ ์ด๊ฐ ๋ชจ๋ฌ๋ฆฌํฐ์ ๋์ ์
๋ ฅ์ด ๊ด๋ฒ์ํ๊ณ ์ฌ์ธํ ์ ์ด ์กฐ์์ ๊ฒฌ๊ณ ์ฑ์ ํฅ์์ํด์ ์คํ์ผ๋ก ์ฆ๋ช
How
Fig. 4. Model structure of TACT (tactile-modality extended ACT).
- ์ธ๊ฐ ํ
๋ ์คํผ๋ ์ด์
๋ฐ์ดํฐ ์์ง: ํฌ์ฆ ์ถ์ ๊ธฐ๋ฅผ ์ฐฉ์ฉํ ์ธ๊ฐ์ ์์ธ๋ฅผ ๋ก๋ด์ผ๋ก ์ฌํ๊ฒํ
ํ๋ฉฐ ์์ง
- TACT ์ ์ฑ
์ํคํ
์ฒ: ์ด๊ฐ ์ผ์ ๊ฒฉ์์ ๊ณต๊ฐ ๊ตฌ์กฐ๋ฅผ Transformer๋ฅผ ํตํด ์์์ ์ผ๋ก ํ์ต
- ๋ค์ค ์ผ์ ์
๋ ฅ ์ฒ๋ฆฌ: ๊ด์ ์์น, ์นด๋ฉ๋ผ ์ด๋ฏธ์ง, ๋ถ์ฐ ์ด๊ฐ ์ธก์ ๊ฐ์ ์ผ์ ์๊ฐ ํธ๋ผ์ด์ฆ์ ๋ํด ์ฒ๋ฆฌ
- ์์์ธต ์ ์ด: ํ์ต ๊ธฐ๋ฐ TACT ์ ์ฑ
์ด ๋ฏธ๋ ๋์ ๋ช
๋ น ์์ฑ
- ํ์์ธต ์ ์ด: ๋ชจ๋ธ ๊ธฐ๋ฐ ์ฌํ๊ฒํ
๊ณผ ์์กฑ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ณดํ ์ ์ด๋ก ๊ท ํ ์ ์ง
- ๊ธฐํํ์ ์บ๋ฆฌ๋ธ๋ ์ด์
์ ๊ฑฐ: ๊ทธ๋ํ ์ ๊ฒฝ๋ง๊ณผ ๋ฌ๋ฆฌ ์ฌ์ ๊ณต๊ฐ ๋งต ๊ตฌ์ถ ์์ด Transformer์ ์๊ธฐ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ผ๋ก ์ผ์ ์
๊ฐ ์๊ด๊ด๊ณ ํ์ต
Originality
- ์ด๊ฐ ์ผ์ ๋ฐ์ดํฐ์ ์ง์ ํตํฉ: ๊ธฐ์กด ACT๋ฅผ ์ต์ด๋ก ๋ถ์ฐ ์ด๊ฐ ์ผ์ ์
๋ ฅ์ ์ฒ๋ฆฌํ๋๋ก ํ์ฅ
- ์ํ ๊ท๋ชจ ๋ก๋ด์ ์ ์ ์ ์ด ์กฐ์: ํ์ต ๊ธฐ๋ฐ ์ ์ฑ
์ผ๋ก ์ฌ์ ์ ์๋์ง ์์ ์ ์ด์ ์์์ ์ ์ ์กฐ์ ๋ฌ์ฑ
- ํ์ด๋ธ๋ฆฌ๋ ์ ์ด ๊ตฌ์กฐ: ์ ๋ขฐ์ฑ๊ณผ ์ ์ฐ์ฑ์ ๋ชจ๋ ํ๋ณดํ๋ ๋ชจ๋ธ ๊ธฐ๋ฐ-ํ์ต ๊ธฐ๋ฐ ํตํฉ ์์คํ
- ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ ์ฒ๋ฆฌ: ๊ด์ ์์น, ์๊ฐ, ์ด๊ฐ์ Transformer๋ก ํตํฉ ์ฒ๋ฆฌํ๋ ์ค๊ณ
Limitation & Further Study
- ๋ฐ์ดํฐ ์์ง ์์กด์ฑ: ํ
๋ ์คํผ๋ ์ด์
๊ธฐ๋ฐ ์์ง์ด๋ฏ๋ก ๋ฐ์ดํฐ ํ์ง๊ณผ ๋ค์์ฑ์ ์์กด
- ์ด๊ฐ ์ผ์ ๋ฐฐ์น ์ ์ฝ: ํ์ฌ ์๋ฐ์ ๋ง ์ผ์ ์ฅ์ฐฉ์ผ๋ก ์ ์ ์ ์ด ๊ฐ์ง ์ ํ
- ์ผ๋ฐํ ๋ฅ๋ ฅ ๋ฏธ๊ฒ์ฆ: ํ์ต ๋ฐ์ดํฐ์ ๋ค๋ฅธ ๊ฐ์ฒด ๋๋ ํ๊ฒฝ์์์ ์ฑ๋ฅ ํ๊ณ ๋
ผ์ ๋ถ์กฑ
- ๊ณ์ฐ ๋ณต์ก๋: ํ์ ์ฐ๊ตฌ์์ ์ค์๊ฐ ์ฒ๋ฆฌ๋ฅผ ์ํ ๋ชจ๋ธ ๊ฒฝ๋ํ ํ์
- ์ ๋์ ๋น๊ต ๋ถ์กฑ: ์๊ฐ/์ด๊ฐ ๋จ๋
์
๋ ฅ ๋๋น ์ฑ๋ฅ ํฅ์๋๋ฅผ ๋ ์์ธํ ๋ถ์ํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ์ฐ๊ตฌ๋ ์ด๊ฐ ์ผ์๋ฅผ Transformer ๊ธฐ๋ฐ ๋ชจ๋ฐฉ ํ์ต์ ์ฑ๊ณต์ ์ผ๋ก ํตํฉํ์ฌ ์ํ ๊ท๋ชจ ์ธ๊ฐํ ๋ก๋ด์ ์ฌ์ธํ ์ ์ ์ ์ด ์กฐ์์ ์ต์ด๋ก ์ค์ฆํ์ผ๋ฉฐ, ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด์ ํ์ต ๊ธฐ๋ฐ ์ ์ด์ ์ฐฝ์์ ๊ฒฐํฉ์ผ๋ก ์ ๋ขฐ์ฑ๊ณผ ์ ์ฐ์ฑ์ ๋์์ ํ๋ณดํ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์