์ ์: Erik Bauer, Elvis Nava, Robert K. Katzschmann | ๋ ์ง: 2025-06-17 | URL: https://arxiv.org/abs/2506.14608 📄 PDF
Fig. 1: Overview of our approach. Left: We construct a semantically aligned latent action space by training modality-spe
๋ก๋ด์ ๋ค์ํ end-effector ๊ฐ action space ์ด์ง์ฑ์ ๊ทน๋ณตํ๊ธฐ ์ํด contrastive learning์ผ๋ก ํ์ต๋ shared latent action space์์ diffusion policy๋ฅผ ํ์ตํ์ฌ cross-embodiment ์กฐ์์ ์คํํ๋ค.
Fig. 4: Success rates for three different tasks comparing single-embodiment diffusion policies to cross-embodied latent
Fig. 2: The three-stage process for learning the cross-embodiment latent action space. Stage 1: Aligned end-effector (EE
์ดํ: Cross-embodiment ๋ก๋ด ํ์ต์ action space ์ด์ง์ฑ ๋ฌธ์ ๋ฅผ learned latent representation์ผ๋ก ์ฐ์ํ๊ฒ ํด๊ฒฐํ๊ณ , contrastive learning๊ณผ diffusion policy๋ฅผ ์กฐํฉํ์ฌ ์ค์ ์ฑ๋ฅ ํฅ์์ ์ ์ฆํ ๊ฐ์น์๋ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง embodiment ๋ค์์ฑ ๋ฒ์ ํ๋์ alignment ๋ฉ์ปค๋์ฆ์ ๋ ๊น์ ๋ถ์์ด ํ์ ๊ณผ์ ์ด๋ค.