Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation
์ ์: Han Xue, Jieji Ren, Wendi Chen, Gu Zhang, Yuan Fang, Guoying Gu, Huazhe Xu, Cewu Lu | ๋ ์ง: 2025-03-04 | URL: https://arxiv.org/abs/2503.02881 📄 PDF
Essence
Fig. 1: TactAR is a low-cost and versatile teleoperation system which can provide real-time tactile / force feedback via
๋ณธ ๋
ผ๋ฌธ์ ์ ์ด ๊ธฐ๋ฐ ์กฐ์ ์์
์ ์ํด AR ๊ธฐ๋ฐ ์ด๊ฐ ํผ๋๋ฐฑ ํ
๋ ์๋ ์์คํ
TactAR๊ณผ slow-fast ๊ณ์ธต ๊ตฌ์กฐ์ Reactive Diffusion Policy (RDP) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ์ฌ, ๊ณ ์ฃผํ ์ด๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ํ๋ฃจํ ์ ์ด์ ๋ณต์กํ ๊ถค์ ๋ชจ๋ธ๋ง์ ํตํฉํ๋ค.
Motivation
- Known: ์๊ฐ ๊ธฐ๋ฐ ๋ชจ๋ฐฉ ํ์ต(IL) ๋ฐฉ๋ฒ๋ค์ action chunking์ ํตํด ์ฅ์๊ฐ ์์ด์ ๋์ ์ค์ฐจ๋ฅผ ์ํํ๊ณ ๋ณต์กํ ๋น-๋ง๋ฅด์ฝํ ํ๋์ ๋ชจ๋ธ๋งํ ์ ์์ผ๋, ์ฒญํฌ ์คํ ์ค ํ๊ฒฝ ๋ณํ์ ์ฆ๊ฐ ๋์ํ์ง ๋ชปํ๊ณ ์ด๊ฐ ์
๋ ฅ์ด ๋ถ์ฌํ์ฌ ์ ๋ฐํ ์ ์ด ์์
์ ์ ํ๋๋ค.
- Gap: ๊ธฐ์กด ์๊ฐ-์ด๊ฐ ๋ชจ๋ฐฉ ํ์ต์ ๊ด์ธก ์์ค์์๋ง ์ด๊ฐ ์
๋ ฅ์ ํ์ฉํ๋ฉฐ action chunking์ ์์กดํ์ฌ ๊ณ ์ฃผํ ์ด๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ์ ๋น ๋ฅธ ๋ฐ์ ์ ์ด๊ฐ ๋ถ๊ฐ๋ฅํ๊ณ , ๋๋ถ๋ถ์ ํ
๋ ์๋ ์์คํ
์ ๋ฏธ์ธํ ์ด๊ฐ/ํ ํผ๋๋ฐฑ ์์ง์ ์ด๋ ค์์ด ์๋ค.
- Why: ์ ์ด ๊ธฐ๋ฐ ์ ๋ฐ ์์
(์ฑ์ ๊น๊ธฐ ๋ฑ)์ ์ธ๊ฐ์ ์์ธก ํ๋๊ณผ ๊ฐ๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ํ๋ฃจํ ๋ฏธ์กฐ์ ๋ ์ ์ด ๋ฉ์ปค๋์ฆ์ด ํ์ํ๋ฉฐ, ์ด๋ฅผ ๋ก๋ด์์ ๊ตฌํํ ์ ์๋ค๋ฉด ์ ์กฐ, ์๋ฃ ๋ฑ ๋ค์ํ ์ค์ ์์ฉ ๋ถ์ผ๋ฅผ ํ์ฅํ ์ ์๋ค.
- Approach: ๋ ๊ฐ์ง ํต์ฌ ์ ์์ผ๋ก ๊ตฌ์ฑ๋๋ค: (1) Meta Quest3๋ฅผ ์ด์ฉํ AR ๊ธฐ๋ฐ ์ค์๊ฐ ์ด๊ฐ/ํ ํผ๋๋ฐฑ ํ
๋ ์๋ ์์คํ
TactAR์ผ๋ก ๊ณ ํ์ง ๋ฐ์ดํฐ ์์ง, (2) latent diffusion policy(๋๋ฆฐ ๋คํธ์ํฌ, 1-2 Hz)๋ก ๊ณ ์์ค action chunk๋ฅผ ์์ธกํ๊ณ asymmetric tokenizer(๋น ๋ฅธ ๋คํธ์ํฌ, 20-30 Hz)๋ก ๊ณ ์ฃผํ ์ด๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ํ๋ฃจํ ์ ์ด๋ฅผ ์ํํ๋ slow-fast ๊ณ์ธต ๊ตฌ์กฐ์ RDP ์๊ณ ๋ฆฌ์ฆ.
Achievement
Fig. 1: TactAR is a low-cost and versatile teleoperation system which can provide real-time tactile / force feedback via
- TactAR ํ
๋ ์๋ ์์คํ
: Meta Quest3 ๊ธฐ๋ฐ ์ ๋น์ฉ($500) AR ์์คํ
์ผ๋ก GelSight Mini, MCTac, ๊ด์ ํ ํฌ ์ผ์ ๋ฑ ๋ค์ํ ์ผ์๋ฅผ ์ง์ํ๋ฉฐ 3D deformation field๋ฅผ ํตํฉ ํํ์ผ๋ก ์ค์๊ฐ ์ด๊ฐ/ํ ํผ๋๋ฐฑ ์ ๊ณต
- RDP ์๊ณ ๋ฆฌ์ฆ: slow-fast ๊ณ์ธต ๊ตฌ์กฐ๋ก action chunking์ ๋ณต์ก ๊ถค์ ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ๊ณผ ๊ณ ์ฃผํ ์ด๊ฐ ํผ๋๋ฐฑ ํ๋ฃจํ ์ ์ด๋ฅผ ํตํฉํ์ฌ ์ ์ด ๊ธฐ๋ฐ ์์
์์ ๊ธฐ์กด ๋ฐฉ๋ฒ ๋๋น 35% ์ด์ ์ฑ๋ฅ ํฅ์
- ๊ต์ฐจ ์ผ์ ์ ์ฉ์ฑ: ์๋ก ๋ค๋ฅธ ์ด๊ฐ/ํ ์ผ์(GelSight Mini, MCTac, ํ ํฌ ์ผ์)์ ๋ํด RDP์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ์ค์ฆ์ ์ผ๋ก ๊ฒ์ฆ
- ๋ณตํฉ ๋ฅ๋ ฅ ํ๊ฐ: ์ ๋ฐ๋, ์ ๋ฐํ ์ ์ ํ ์ ์ด, ์ธ๋์ ๋ํ ๋น ๋ฅธ ๋ฐ์, ์ํ ํ๋ ๋ฑ์ ํฌํจํ 3๊ฐ ๋์ ์ ์ ์ด ์์
์ผ๋ก ๊ด๋ฒ์ ํ๊ฐ
How
Fig. 2: Overview of TactAR teleoperation system. It can provide real-time tactile / force feedback via Augmented Reality
- TactAR ๊ตฌ์ฑ: Meta Quest3 VR ํค๋์
๊ณผ ์ปจํธ๋กค๋ฌ๋ก end-effector ํฌ์ฆ ์ ์ด, ์ด๊ฐ ์ผ์์ RGB ์นด๋ฉ๋ผ ์คํธ๋ฆผ ํตํฉ, 3D deformation field๋ฅผ AR์์ ๋ก๋ด end-effector์ ๋ถ์ฐฉํ์ฌ ์๊ฐํ
- 3D Deformation Field ํํ: ๊ดํ ์ด๊ฐ ์ผ์(GelSight Mini, MCTac)์ ์ ค ํ๋ฉด ๋ณํ๊ณผ ํ/ํ ํฌ ์ผ์์ ์ ๊ทํ๋ ์ถ๋ ฅ์ ํต์ผ๋ 3D ๋ณํ์ฅ์ผ๋ก ํํํ์ฌ ์ผ์ ์ข
๋ฅ์ ๋ฌด๊ดํ๊ฒ ์ ์ฉ
- ์๊ฐ ๋๊ธฐํ ๋ฐ ์คํธ๋ฆผ ์ฒ๋ฆฌ: ์ด๊ฐ(25-30 Hz), ํ/ํ ํฌ(120 Hz), ์ด๋ฏธ์ง(30 Hz), ์ก์
๋ช
๋ น(90 Hz) ๋ฑ ๋ค์ํ ์ฃผํ์์ ์ผ์ ์ ํธ๋ฅผ TCP ํฌ์ฆ ์ถ์ (120 Hz) ๊ธฐ์ค์ผ๋ก ๋๊ธฐํ
- Slow ์ ์ฑ
(LDP): latent diffusion model ๊ธฐ๋ฐ์ผ๋ก ์๊ฐ ๊ด์ธก์ผ๋ก๋ถํฐ latent space์์ ๊ณ ์์ค action chunk๋ฅผ 1-2 Hz ์ ์ฃผํ์์ ์์ธกํ์ฌ ๋ณต์กํ๊ณ ๋น-๋ง๋ฅด์ฝํ ํ๋ ๋ชจ๋ธ๋ง
- Fast ์ ์ฑ
(Asymmetric Tokenizer): ์์ธก๋ latent action chunk๋ฅผ ๊ณ ์ฃผํ(20-30 Hz) ์ด๊ฐ ํผ๋๋ฐฑ์ ๊ธฐ๋ฐํ์ฌ ํ๋ฃจํ๋ก ๋ฏธ์กฐ์ ํ๋ learnable impedance controller ์ญํ ๋ก ์ ๋ฐํ ํ ์ ์ด์ ๋น ๋ฅธ ๋ฐ์ ๋ฌ์ฑ
- Latent Action Chunk Correction: latent space์์ fast policy์ ์์ ์ ํธ๋ฅผ ๋์ ํ์ฌ slow policy์ ์์ธก chunk๋ฅผ ๋ณด์ ํ๋ ๋ฉ์ปค๋์ฆ
Originality
- AR ๊ธฐ๋ฐ ์ด๊ฐ ํผ๋๋ฐฑ ํ
๋ ์๋์ ํ์ : ๊ธฐ์กด ํ
๋ ์๋์ ์ด๊ฐ ํผ๋๋ฐฑ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด Meta Quest3์ AR ๊ณต๊ฐ์ 3D deformation field๋ฅผ ๋ ๋๋งํ๋ ์ ๊ฐ๋
์ ์ ๋น์ฉ ์์คํ
์ ์
- 3D Deformation Field์ ํตํฉ ํํ: ๊ดํ ๋ฐ ์ ๊ธฐ์ ์ด๊ฐ ์ผ์, ํ/ํ ํฌ ์ผ์๋ฅผ ํฌํจํ ์ด์ง์ ์ผ์๋ค์ ๋จ์ผ 3D ๋ณํ์ฅ์ผ๋ก ํํํ๋ ํต์ผ๋ ์ ๊ทผ์ผ๋ก ์ผ์ ๋
๋ฆฝ์ ํธํ์ฑ ๋ฌ์ฑ
- Slow-Fast ๊ณ์ธต ๊ตฌ์กฐ์ ์ฐฝ์์ ์ค๊ณ: ์ธ๊ฐ ์ ๊ฒฝ๊ณผํ์ feedforward ์์ธก๊ณผ ํ๋ฃจํ ๋ฏธ์กฐ์ ์ด๋ถ ์ ์ด ๊ตฌ์กฐ์์ ์๊ฐ์ ์ป์ด action chunking๊ณผ ๊ณ ์ฃผํ ํผ๋๋ฐฑ ์ ์ด๋ฅผ first principles ์์ค์์ ํตํฉ
- Asymmetric Tokenizer์ ๊ณ ์ฃผํ ํ๋ฃจํ ์ ์ด: ๊ธฐ์กด action chunking ๊ธฐ๋ฐ IL ๋ฐฉ๋ฒ๋ค์ด ์ฒญํฌ ์คํ ์ค ํผ๋๋ฐฑ์ ์๋ต ๋ถ๊ฐ๋ฅํ ์ ์ฝ์ ๊ทน๋ณตํ๊ธฐ ์ํด latent space์์์ ๋์ ์์ ๋ฉ์ปค๋์ฆ ์ ์
- ๊ต์ฐจ ์ผ์ ์ผ๋ฐํ์ฑ: ์๋ก ๋ค๋ฅธ ๋ฌผ๋ฆฌ์ ํน์ฑ์ ์ผ์(๊ดํ vs. ์ ๊ธฐ์, ์ ์ด vs. ํ)์ ๋ํด RDP์ ์ ํจ์ฑ์ ์ค์ฆ์ ์ผ๋ก ์ฆ๋ช
ํ์ฌ ์ค์ ๋ก๋ด ์์คํ
์ ์ฉ ๊ฐ๋ฅ์ฑ ์
์ฆ
Limitation & Further Study
- TactAR์ AR ์นด๋ฉ๋ผ ํด์๋: Meta Quest3์ ์นด๋ฉ๋ผ ํด์๋๊ฐ ์ ํ์ ์ด์ด์ ๋ฏธ์ธํ ํ๊ฒฝ ์๊ฐ ํน์ฑ์ ์บก์ฒํ๊ธฐ ์ด๋ ค์ธ ์ ์์ผ๋ฉฐ, ์ค์ธ ํ๊ฒฝ์ด๋ ๋ฐ์ ์กฐ๋ช
์์ AR ๋ ๋๋ง ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ
- RDP์ ๋๋ฆฐ ์ ์ฑ
-๋น ๋ฅธ ์ ์ฑ
๋๊ธฐํ: ๋ ๋คํธ์ํฌ ๊ฐ์ ์ ์ฌ ๊ณต๊ฐ ์์ ์ ํธ ์ ๋ฌ์ด ์ง์ฐ๋ ์ ์๊ณ , latent action chunk correction์ ์ต์ ์ค๊ณ์ ๋ํ ์ด๋ก ์ ๊ทผ๊ฑฐ ๋ถ์กฑ
- ๋ฐ์ดํฐ ์์ง ๊ท๋ชจ์ ์ ํ: ์ธ ๊ฐ์ง ์ ์ด ์์
์๋ง ํ๊ฐํ์์ผ๋ฉฐ, ๋ ๋์ ๋ฒ์์ ๋ณต์กํ ๋ค์ค ์ ์ด ์ํธ์์ฉ ์์
์ ๋ํ ์ฑ๋ฅ ๋ฏธ๊ฒ์ฆ
- ์ผ์ ๊ฐ์ ํน์ฑ ์ฐจ์ด ์ฒ๋ฆฌ: ๊ดํ ์ผ์์ ํ/ํ ํฌ ์ผ์ ๊ฐ์ ์ธก์ ์ ํธ์ ๋
ธ์ด์ฆ ํน์ฑ๊ณผ ์ฃผํ์ ์๋ต์ด ์์ดํ๋ฐ, 3D deformation field ํํ๋ง์ผ๋ก๋ ์ด๋ฌํ ์ฐจ์ด๋ฅผ ์์ ํ ํ์คํํ์ง ๋ชปํ ๊ฐ๋ฅ์ฑ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ์ค์๊ฐ ์๊ฐ-์ด๊ฐ ์ผ์ ์ตํฉ์ ์ํ ๋ ํจ์จ์ ์ธ ๋ฉํฐ๋ชจ๋ฌ ์ธ์ฝ๋ ๊ฐ๋ฐ, (2) sim-to-real ์ ์ด ํ์ต์ผ๋ก ๋ฐ์ดํฐ ์์ง ๋น์ฉ ๊ฐ์, (3) ๋์ ํ๊ฒฝ๊ณผ ๋ฏธ์ง์ ๊ฐ์ฒด์ ๋ํ RDP์ ์ ์์ฑ ์ฐ๊ตฌ, (4) ์ด์กฑ ์ด์กฑ ๋ก๋ด ๋ฑ ๋ ๋ณต์กํ ํ๋ซํผ์ผ๋ก์ ํ์ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ AR ๊ธฐ๋ฐ ์ ๋น์ฉ ์ด๊ฐ ํผ๋๋ฐฑ ํ
๋ ์๋ ์์คํ
๊ณผ slow-fast ๊ณ์ธต ๊ตฌ์กฐ์ ๋ฐ์ํ ํ์ฐ ์ ์ฑ
์ ์ ์ํ์ฌ ์ ์ด ๊ธฐ๋ฐ ์กฐ์์์ ์ค์๊ฐ ์ด๊ฐ ํผ๋๋ฐฑ ํ๋ฃจํ ์ ์ด์ ๋ณต์กํ ๊ถค์ ๋ชจ๋ธ๋ง์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ์์ผ๋ฉฐ, ๊ด๋ฒ์ํ ์คํ๊ณผ ๊ต์ฐจ ์ผ์ ๊ฒ์ฆ์ ํตํด ๋ก๋ด ์กฐ์ ํ์ต์ ์ค์ํ ์ง์ ์ ์ด๋ฃจ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์