์ ์: Russell Mendonca, Shikhar Bahl, Deepak Pathak | ๋ ์ง: 2023-08-21 | URL: https://arxiv.org/abs/2308.10901 📄 PDF
Fig. 2: Overview of SWIM. We first pre-train the world model on a large set of human videos. We finetune this on many ro
๋ณธ ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ๊ฐ ๋น๋์ค ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ตํ ๊ตฌ์กฐํ๋ world model์ ๋ก๋ด์ ์กฐ์ ์์ ์ ๋ฏธ์ธ์กฐ์ ํ์ฌ, 30๋ถ ์ด๋ด์ ์ค์ ์ํธ์์ฉ์ผ๋ก ๋ณต์กํ ์กฐ์ ๊ธฐ์ ์ ํ์ตํ ์ ์๋ SWIM ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Fig. 4: We evaluate SWIM on six different real-world manipulation tasks on two different robot systems (shown on the lef
Fig. 3: World Model Training: Images and actions are encoded into
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ํํํ์ ์ผ๋ก ๋ถ๋ณ์ธ ๊ตฌ์กฐํ ํ๋ ๊ณต๊ฐ์ด๋ผ๋ ์ฐฝ์์ ์ธ ์์ด๋์ด๋ก ๋๊ท๋ชจ ์ธ๊ฐ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ์ค์ ๋ก๋ด ํ์ต์ ์ฑ๊ณต์ ์ผ๋ก ์ฐ๊ฒฐํ์์ผ๋ฉฐ, ๊ด๋ฒ์ํ ์คํ์ ํตํด ์ํ ํจ์จ์ฑ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ชจ๋ ์ ์ฆํ์ฌ ๋ก๋ด ์กฐ์ ํ์ต ๋ถ์ผ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ์๋ค.