์ ์: Haritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah | ๋ ์ง: 2024-09-09 | URL: https://arxiv.org/abs/2409.05865 📄 PDF
Figure 1: Robot Utility Models are trained on a diverse set of environments and objects, and then
Robot Utility Models (RUM)์ ๋ค์ํ ํ๊ฒฝ์์ ์์งํ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก ํ์ตํ์ฌ ์๋ก์ด ํ๊ฒฝ์์ ํ์ธํ๋ ์์ด ์ฆ์ ๋ฐฐํฌ ๊ฐ๋ฅํ ๋ก๋ด ์ ์ฑ ํ๋ ์์ํฌ์ด๋ค. 90% ์ฑ๊ณต๋ฅ ๋ก ๋ฏธ์ง์ ํ๊ฒฝ๊ณผ ๊ฐ์ฒด์ ๋ํด zero-shot ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ๋ค.
Figure 1: Robot Utility Models are trained on a diverse set of environments and objects, and then
Figure 2: Stick-v2, our data collection tool (left: real photo, right: render), is built out of an iPhone
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ๋ก๋ด ์ ์ฑ ์ zero-shot ์ผ๋ฐํ๋ผ๋ ์ค์ํ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ธ ์์ง๋์ด๋ง ์ ๊ทผ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ์ค์ฉ์ ์ธ ๋ฐ์ดํฐ ์์ง ๋๊ตฌ, ํจ๊ณผ์ ์ธ ํ์ต ๋ฐ ๋ฐฐํฌ ํ์ดํ๋ผ์ธ, ํ์ ์ ์ธ mLLM ๊ธฐ๋ฐ ์คํจ ๋ณต๊ตฌ ๋ฉ์ปค๋์ฆ์ ์ ์ํ๋ค. 2,950ํ์ ์ค์ ๋ก๋ด ๋กค์์๊ณผ ์คํ์์ฑ๋ ๋ฆฌ์์ค๋ฅผ ํตํด ๊ฐ๋ ฅํ ์ค์ฆ์ ๊ธฐ์ฌ๋ฅผ ์ด๋ฃจ์์ผ๋, ๋ค์ํ ์์ /๋ก๋ด ํ๋ซํผ์ผ๋ก์ ํ์ฅ์ฑ๊ณผ ์์ธํ ์คํจ ๋ถ์์ด ํฅํ ๊ณผ์ ๋ก ๋จ์์๋ค.