UI-TARS: Pioneering Automated GUI Interaction with Native Agents

์ €์ž: Yujia Qin, Yining Ye, Junjie Fang, Haoming Wang, Shihao Liang | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2501.12326 📄 PDF


Essence

Figure 1

UI-TARS๊ฐ€ ํ•ญ๊ณตํŽธ ๊ฒ€์ƒ‰์„ ๋•๋Š” ๋ฐ๋ชจ ์‚ฌ๋ก€

์Šคํฌ๋ฆฐ์ƒท๋งŒ์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ๋งˆ์šฐ์Šค, ํ‚ค๋ณด๋“œ ์กฐ์ž‘ ๋“ฑ ์ธ๊ฐ„ ๊ฐ™์€ ์ƒํ˜ธ์ž‘์šฉ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋„ค์ดํ‹ฐ๋ธŒ GUI ์—์ด์ „ํŠธ ๋ชจ๋ธ๋กœ, ์ƒ์šฉ ๋ชจ๋ธ(GPT-4o)์— ๊ธฐ๋ฐ˜ํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋“ค์„ ๋›ฐ์–ด๋„˜๋Š” ์—”๋“œ-ํˆฌ-์—”๋“œ(end-to-end) ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

Motivation

Achievement

Figure 2

GUI ์—์ด์ „ํŠธ์˜ ์ง„ํ™” ๊ฒฝ๋กœ

Figure 3

ํ•ต์‹ฌ ์—ญ๋Ÿ‰ ๋ฐ ํ‰๊ฐ€ ๊ฐœ์š”

  1. ๋ฒค์น˜๋งˆํฌ ์šฐ์ˆ˜ ์„ฑ๋Šฅ: OSWorld์—์„œ 50์Šคํ… ๊ธฐ์ค€ 24.6์ (Claude 22.0 ์ดˆ๊ณผ), AndroidWorld์—์„œ 46.6์ (GPT-4o 34.5 ์ดˆ๊ณผ) ๋‹ฌ์„ฑ, 10๊ฐœ ์ด์ƒ์˜ GUI ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ์—์„œ SOTA(State-of-the-Art) ์„ฑ๋Šฅ ๋‹ฌ์„ฑ
  2. ํ†ตํ•ฉ ์•„ํ‚คํ…์ฒ˜: ์ง€๊ฐ, ํ–‰๋™ ๋ชจ๋ธ๋ง, System-2 ์ถ”๋ก , ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํ•˜๋‚˜์˜ ์—”๋“œ-ํˆฌ-์—”๋“œ ๋ชจ๋ธ๋กœ ํ†ตํ•ฉํ•˜์—ฌ ๋ชจ๋“ˆ์‹ ํ”„๋ ˆ์ž„์›Œํฌ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ
  3. ์ž๋™ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ์ •์ œ: ์ˆ˜๋ฐฑ ๋Œ€์˜ ๊ฐ€์ƒ ๋จธ์‹ ์„ ํ™œ์šฉํ•œ ์ž๋™ ๊ถค์ (trace) ์ˆ˜์ง‘ ๋ฐ ๋‹ค๋‹จ๊ณ„ ํ•„ํ„ฐ๋ง์œผ๋กœ ๋Œ€๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ

How

Figure 4

UI-TARS์˜ ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์š” ๋ฐ ํ•ต์‹ฌ ์—ญ๋Ÿ‰

Figure 5

์ง€๊ฐ ๋ฐ ๊ทธ๋ผ์šด๋”ฉ ๋ฐ์ดํ„ฐ ์˜ˆ์‹œ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: UI-TARS๋Š” GUI ์—์ด์ „ํŠธ ๋ถ„์•ผ์˜ ํŒจ๋Ÿฌ๋‹ค์ž„ ์ „ํ™˜์„ ์ œ์‹œํ•˜๋Š” ์ค‘์š”ํ•œ ๋…ผ๋ฌธ์œผ๋กœ, ์—”๋“œ-ํˆฌ-์—”๋“œ ๋„ค์ดํ‹ฐ๋ธŒ ๋ชจ๋ธ์ด ๋ชจ๋“ˆ์‹ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‹ค์ œ๋กœ ๋Šฅ๊ฐ€ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, ํŠนํžˆ ์ž๋™ํ™”๋œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๊ณผ ๋ฐ˜์„ฑ ๊ธฐ๋ฐ˜ ํ•™์Šต ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ํ–ฅํ›„ ์œ ์‚ฌํ•œ ๊ตฌ์ฒดํ™”(embodied) AI ๋ถ„์•ผ์˜ ๋ฐœ์ „์— ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
799 ๋…ผ๋ฌธ์€ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ธฐ๋ฐ˜ ์ถ”๋ก  ํ™˜๊ฒฝ ๊ตฌ์ถ•์˜ ํ•„์š”์„ฑ๊ณผ ์‹ค์ œ์  ์„ค๊ณ„ ๋ฐฉ์•ˆ์„ ๊ฒ€ํ† ํ•ด, GUI ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํ‚น ์‹œ์Šคํ…œ์˜ ์—”๋“œํˆฌ์—”๋“œ ํ‰๊ฐ€์— ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
InfiAgent-DABench ๋…ผ๋ฌธ์€ GUI ์ด์™ธ์˜ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์—์ด์ „ํŠธ๋“ค์˜ ์ž๋™ํ™” ๋ฐ ํ‰๊ฐ€ ์ž‘์—…์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
061๋ฒˆ ๋…ผ๋ฌธ์€ ์ปดํ“จํ„ฐ ์‚ฌ์šฉ ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜๋Š” ๋ฒ”์šฉ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ, 849๋ฒˆ์˜ UI-TARS์™€ ์œ ์‚ฌํ•œ ์—”๋“œ-ํˆฌ-์—”๋“œ GUI ์ƒํ˜ธ์ž‘์šฉ ๋ฌธ์ œ์— ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Perplexity ๊ธฐ๋ฐ˜ AI ๋ธŒ๋ผ์šฐ์ €์˜ ๋Œ€๊ทœ๋ชจ ์‚ฌ์šฉ ์‚ฌ๋ก€ ๋ถ„์„๊ณผ ๋‹ฌ๋ฆฌ UI-TARS๋Š” ์ž…๋ ฅ ์ธํ„ฐํŽ˜์ด์Šค์™€ GUI ์ƒํ˜ธ์ž‘์šฉ ๊ธฐ์ˆ  ์ž์ฒด์˜ ํ–ฅ์ƒ์— ์ดˆ์ ์„ ๋งž์ถ˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Opendevin์€ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ GUI ์ž๋™ํ™”์—์„œ ์˜คํ”ˆ ํ”Œ๋žซํผ ์ง€ํ–ฅ์„ฑ, ์ƒํ˜ธ์ž‘์šฉ ๋ฒ”์œ„ ๋“ฑ ํ›„์† ํ™•์žฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
412๋ฒˆ HuggingGPT๋Š” ์—ฌ๋Ÿฌ AI ์ž‘์—…์„ ์ž๋™ํ™”ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, 849๋ฒˆ์—์„œ ๊ฐ•์กฐํ•œ GUI ์—์ด์ „ํŠธ์™€ ์‹ค์ œ ๋„๊ตฌ ํ†ตํ•ฉ ๋ฐ ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ์—ฐ๊ณ„ํ•ด ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •