์ ์: Mohit Shridhar, Lucas Manuelli, Dieter Fox | ๋ ์ง: 2021-09-24 | URL: https://arxiv.org/abs/2109.12098 📄 PDF
Figure 2. CLIPORT Two-Stream Architecture. An overview of the semantic and spatial streams. The semantic stream uses a f
CLIPort๋ CLIP์ ์๋ฏธ๋ก ์ ์ดํด(what)์ Transporter์ ๊ณต๊ฐ์ ์ ๋ฐ์ฑ(where)์ ๊ฒฐํฉํ ๋ ์คํธ๋ฆผ ์ํคํ ์ฒ๋ฅผ ํตํด, ์์ฐ์ด ๋ช ๋ น์ผ๋ก ์กฐ๊ฑดํ๋ ๋ก๋ด ์กฐ์ ์์ด์ ํธ๋ฅผ ์ ์ํ๋ค.
Figure 1. Language-Conditioned Manipulation Tasks: CLIPORT is a broad framework applicable to a wide range of language-c
Figure 2. CLIPORT Two-Stream Architecture. An overview of the semantic and spatial streams. The semantic stream uses a f
์ดํ: CLIPort๋ ๋๊ท๋ชจ ์ฌ์ ํ์ต vision-language ๋ชจ๋ธ์ ์ ๋ฐ ๋ก๋ด ์กฐ์๊ณผ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ์ธ์ด-์กฐ๊ฑดํ ๋ฉํฐํ์คํฌ ํ์ต์ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ์ผ๋ฉฐ, ์ค์ ๋ก๋ด์์์ ๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ์๋ฏธ๋ก ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ก๋ด ์กฐ์ ๋ถ์ผ์ ์๋นํ ์ค์ง์ ๊ธฐ์ฌ๋ฅผ ํ๋ค.