์ ์: Kevin Black, Noah Brown, Danny Driess, Adnan Esmail, Michael Equi, Chelsea Finn, Niccolo Fusai, Lachy Groom, Karol Hausman, Brian Ichter, Szymon Jakubczak, Tim Jones, Liyiming Ke, Sergey Levine, Adrian Li-Bell, Mohith Mothukuri, Suraj Nair, Karl Pertsch, Lucy Xiaoyang Shi, James Tanner, Quan Vuong, Anna Walling, Haohuan Wang, Ury Zhilinsky | ๋ ์ง: 2024-10-31 | URL: https://arxiv.org/abs/2410.24164 📄 PDF
Fig. 1: Our generalist robot policy uses a pre-trained vision-language model (VLM) backbone, as well as a diverse cross-
ฯ0๋ ์ฌ์ ํ์ต๋ vision-language model (VLM)์ ๊ธฐ๋ฐ์ผ๋ก flow matching์ ํตํด ์ฐ์์ ์ธ ๋ก๋ด ํ๋์ ์์ฑํ๋ generalist robot policy๋ฅผ ์ ์ํ๋ค. ๋ค์ํ ๋ก๋ด ํ๋ซํผ์์ 10,000์๊ฐ ์ด์์ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ตํ ํ ๋ฏธ์ธ์กฐ์ ์ ํตํด ์ธํ๋ฌผ ์ ๊ธฐ, ํ ์ด๋ธ ์ฒญ์, ๋ฐ์ค ์กฐ๋ฆฝ ๋ฑ ๋ณต์กํ ์์์ ์ ์ํํ ์ ์๋ค.
Fig. 2: ฯ0 controls a mobile manipulator to fold laundry. Our model is pre-trained on diverse data from 7 distinct robot
Fig. 3: Overview of our framework. We start with a pre-training mixture, which consists of both our own dexterous
์ดํ: ฯ0๋ flow matching์ VLM ๊ธฐ๋ฐ ๋ก๋ด ์ ์ฑ ์ ์ฒ์ ์ ์ฉํ๊ณ cross-embodiment ํ์ต์ผ๋ก ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ ํตํฉํ์ฌ generalist robot foundation model์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํ๋ค. 10,000์๊ฐ ์ด์์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ๊ตํ ํ์ต ๋ ์ํผ๋ฅผ ํตํด ์ค์ ์ธ๊ณ์์ ๋ณต์กํ ์์์ ์ ์ํ ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋ก๋ด ํ์ต์ ํ์ฅ์ฑ๊ณผ ์ค์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํค๋ ์ค์ํ ๊ธฐ์ฌ์ด๋ค.