์ ์: Seonghyeon Ye, Joel Jang, Byeongguk Jeon, Sejune Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Bill Yuchen Lin, Lars Liden, Kimin Lee, Jianfeng Gao, Luke Zettlemoyer, Dieter Fox, Minjoon Seo | ๋ ์ง: 2024-10-15 | URL: https://arxiv.org/abs/2410.11758 📄 PDF
Figure 2: Overview of Latent Action Pretraining. (1) Latent Action Quantization: We first learn discrete
์ธํฐ๋ท ๊ท๋ชจ์ ๋ผ๋ฒจ ์๋ ๋น๋์ค์์ ๋ก๋ด ํ๋์ ํ์ตํ๊ธฐ ์ํด VQ-VAE ๊ธฐ๋ฐ ์ ์ฌ ํ๋ ์์ํ์ Vision-Language-Action ๋ชจ๋ธ ์ฌ์ ํ์ต์ ๊ฒฐํฉํ ๋น์ง๋ ํ์ต ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
Figure 3: Real-world Tabletop Manipulation Results. We evaluate on a total of 54 rollouts for each model
Figure 2: Overview of Latent Action Pretraining. (1) Latent Action Quantization: We first learn discrete
์ดํ: ๋ก๋ด ํ์ต์ ์ฃผ์ ์ ์ฝ์ธ ํ๋ ๋ ์ด๋ธ ์์กด์ฑ์ ์ ๊ฑฐํ๋ ํ์ ์ ์ ๊ทผ์ผ๋ก, ๋น์ง๋ ํ์ต์ ํตํด ์ธํฐ๋ท ๊ท๋ชจ ๋ฐ์ดํฐ ํ์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ์ํ ๊ธฐ์ ๊ธฐ์ ์ ๋ฅ๊ฐํ๋ ์ค์ ์ฑ๋ฅ ํฅ์์ ์ ์ฆํ ๋งค์ฐ ์ค์ํ ์ฐ๊ตฌ์ด๋ค.