์ ์: Yujia Qin, Yining Ye, Junjie Fang, Haoming Wang, Shihao Liang | ๋ ์ง: 2025 | DOI: 10.48550/arXiv.2501.12326 📄 PDF
UI-TARS๊ฐ ํญ๊ณตํธ ๊ฒ์์ ๋๋ ๋ฐ๋ชจ ์ฌ๋ก
์คํฌ๋ฆฐ์ท๋ง์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๋ง์ฐ์ค, ํค๋ณด๋ ์กฐ์ ๋ฑ ์ธ๊ฐ ๊ฐ์ ์ํธ์์ฉ์ ์ํํ๋ ๋ค์ดํฐ๋ธ GUI ์์ด์ ํธ ๋ชจ๋ธ๋ก, ์์ฉ ๋ชจ๋ธ(GPT-4o)์ ๊ธฐ๋ฐํ ํ๋ ์์ํฌ๋ค์ ๋ฐ์ด๋๋ ์๋-ํฌ-์๋(end-to-end) ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
GUI ์์ด์ ํธ์ ์งํ ๊ฒฝ๋ก
ํต์ฌ ์ญ๋ ๋ฐ ํ๊ฐ ๊ฐ์
UI-TARS์ ์ํคํ ์ฒ ๊ฐ์ ๋ฐ ํต์ฌ ์ญ๋
์ง๊ฐ ๋ฐ ๊ทธ๋ผ์ด๋ฉ ๋ฐ์ดํฐ ์์
์ดํ: UI-TARS๋ GUI ์์ด์ ํธ ๋ถ์ผ์ ํจ๋ฌ๋ค์ ์ ํ์ ์ ์ํ๋ ์ค์ํ ๋ ผ๋ฌธ์ผ๋ก, ์๋-ํฌ-์๋ ๋ค์ดํฐ๋ธ ๋ชจ๋ธ์ด ๋ชจ๋์ ํ๋ ์์ํฌ๋ฅผ ์ค์ ๋ก ๋ฅ๊ฐํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, ํนํ ์๋ํ๋ ๋ฐ์ดํฐ ์์ง๊ณผ ๋ฐ์ฑ ๊ธฐ๋ฐ ํ์ต ๋ฉ์ปค๋์ฆ์ ํฅํ ์ ์ฌํ ๊ตฌ์ฒดํ(embodied) AI ๋ถ์ผ์ ๋ฐ์ ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.