์ ์: Pranav Atreya, Karl Pertsch, Tony Lee, Moo Jin Kim, Arhan Jain, Artur Kuramshin, Clemens Eppner, Cyrus Neary, Edward Hu, Fabio Ramos, Jonathan Tremblay, Kanav Arora, Kirsty Ellis, Luca Macesanu, Marcel Torne Villasevil, Matthew Leonard, Meedeum Cho, Ozgur Aslan, Shivin Dass, Jie Wang, William Reger, Xingfang Yuan, Xuning Yang, Abhishek Gupta, Dinesh Jayaraman, Glen Berseth, Kostas Daniilidis, Roberto Martin-Martin, Youngwoon Lee, Percy Liang, Chelsea Finn, Sergey Levine | ๋ ์ง: 2025-06-22 | URL: https://arxiv.org/abs/2506.18123 📄 PDF
Figure 1: We present RoboArena, a distributed real-world evaluation framework for generalist robot
RoboArena๋ ๋ถ์ฐ๋ ํ๊ฐ์ ๋คํธ์ํฌ๋ฅผ ํตํด ์ค์ ํ๊ฒฝ์์ ์ผ๋ฐํ๋ ๋ก๋ด ์ ์ฑ ์ pairwise ๋น๊ตํ๊ณ ์ง๊ณํ์ฌ ์ ์ฑ ์์๋ฅผ ๋์ถํ๋ ํฌ๋ผ์ฐ๋์์ฑ ๊ธฐ๋ฐ ํ๊ฐ ํ๋ ์์ํฌ์ด๋ค. 600ํ ์ด์์ ์ค์ ๋ก๋ด ํ๊ฐ๋ฅผ ํตํด ์ค์ ์ง์ค์ ํ๊ฐ๋ณด๋ค ์ ํํ ์ ์ฑ ์์๋ฅผ ์ ๊ณตํจ์ ์ ์ฆํ๋ค.
Figure 1: We present RoboArena, a distributed real-world evaluation framework for generalist robot
Figure 2: Pipeline for extracting qualitative policy characteristics from RoboArenaโs rich evaluation
์ดํ: RoboArena๋ ์ผ๋ฐํ ๋ก๋ด ์ ์ฑ ์ ํ๊ฐ๋ผ๋ ์ค์ํ ๋ฌธ์ ์ ๋ํด ํ์ ์ ์ธ ๋ถ์ฐ ํฌ๋ผ์ฐ๋์์ฑ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ฉฐ, 600ํ์ ์ค์ ๋ก๋ด ํ๊ฐ๋ฅผ ํตํด ๋ฐฉ๋ฒ์ ํจ๊ณผ์ฑ์ ์ ์ฆํ๋ค. ์คํ ์ปค๋ฎค๋ํฐ ํ๋ซํผ์ผ๋ก์ ๋ก๋ด ์ ์ฑ ๋ฒค์น๋งํน ์ํ๊ณ์ ์๋นํ ๊ธฐ์ฌ๋ฅผ ํ ์ ์๋ ํ๊ธฐ์ ์ธ ์ฐ๊ตฌ์ด๋ค.