D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI
๐ง Audio Overview ์์ฑ
์ ์ : Suhwan Choi, Jaeyoon Jung, Haebin Seong, Minchan Kim, Minyeong Kim, Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung Lee | ๋ ์ง : 2025-10-07 | URL : https://arxiv.org/abs/2510.05684 📄 PDF
Essence
Figure 1: Overview of D2E framework. (1) The OWA Toolkit captures 335.6 hours of rich desktop demon-
D2E๋ ๋ฐ์คํฌํฑ ํ๊ฒฝ(๊ฒ์ ๋ฑ)์์ ์์งํ ๋๊ท๋ชจ ๋น์ -์ก์
๋ฐ์ดํฐ๋ฅผ ์ฌ์ ํ์ต ์๋ฃ๋ก ์ฌ์ฉํ์ฌ ๋ก๋ด ์กฐ์ ๋ฐ ๋ค๋น๊ฒ์ด์
๊ฐ์ ๊ตฌ์ฒดํ๋ AI ์์
์ผ๋ก ์ ์ด ํ์ตํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Motivation
Known : LLM์ ์ธํฐ๋ท ๊ท๋ชจ์ ํ
์คํธ ๋ฐ์ดํฐ๋ก ํ์ต๋์ด ๊ฐํ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์์ผ๋, ๊ตฌ์ฒดํ๋ AI(embodied AI)๋ ๋ฌผ๋ฆฌ์ ๊ถค์ ์์ง์ ๋์ ๋น์ฉ์ผ๋ก ์ธํด ๋ฐ์ดํฐ ๊ท๋ชจ์ ํ๊ณ๋ฅผ ๊ฒช๊ณ ์๋ค. VPT๋ SIMA ๊ฐ์ ์ ํ ์ฐ๊ตฌ๋ค์ด ๋ฐ์คํฌํฑ ์ํธ์์ฉ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์์ผ๋ ๋๋ฉ์ธ ํน์ ์ ์ด๊ฑฐ๋ ๋ฐ์ดํฐ๊ฐ ๋น๊ณต๊ฐ์๋ค.
Gap : ๋ฐ์คํฌํฑ ๋ฐ์ดํฐ๊ฐ ๋ก๋ด ์์
์ผ๋ก ์ค์ง์ ์ผ๋ก ์ ์ด๋ ์ ์์์ ์
์ฆํ๋ ์์ ํ ํ์ดํ๋ผ์ธ๊ณผ ๊ณต๊ฐ ์๋ฃ๊ฐ ๋ถ์ฌํ์ผ๋ฉฐ, ๋ค์ค ๊ฒ์์ ๊ฑธ์น ์ผ๋ฐํ ๊ฐ๋ฅํ ์ญ๋์ญํ ๋ชจ๋ธ(generalist IDM)๋ ์์๋ค.
Why : ๋ฐ์คํฌํฑ ํ๊ฒฝ์ ๋ฌผ๋ฆฌ ๋ก๋ด ๋ฐ์ดํฐ๋ณด๋ค ์ ๋น์ฉ์ผ๋ก ์์ญ์ต ์๊ฐ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ์์งํ ์ ์์ผ๋ฉฐ, ๊ฐ๊ฐ ์ด๋ ์์ ํจํด์ด ์ค์ ๋ก๋ด ์์
์ผ๋ก ์ ์ด๋ ์ ์์์ ๋ณด์ด๋ฉด ๊ตฌ์ฒดํ AI์ ๋ฐ์ดํฐ ํ์ฅ์ฑ ๋ฌธ์ ๋ฅผ ํ๊ธฐ์ ์ผ๋ก ํด๊ฒฐํ ์ ์๋ค.
Approach : ๋ฐ์คํฌํฑ ๋ฐ์ดํฐ ์์ง์ ์ํ OWA Toolkit, ๋ค์ค ๊ฒ์ ์ผ๋ฐํ๋ฅผ ์ํ timestamp ๊ธฐ๋ฐ NEP-ฯ๋ฅผ ์ฌ์ฉํ๋ Generalist-IDM, ๊ทธ๋ฆฌ๊ณ ๋ฐ์คํฌํฑ ํํ์ ๋ก๋ด ์์
์ผ๋ก ์ ์ดํ๋ VAPT ์ธ ๊ฐ์ง ํต์ฌ ์์๋ก ๊ตฌ์ฑ๋ ํตํฉ ํ์ดํ๋ผ์์ ์ ์ํ๋ค.
Achievement
Figure 1: Overview of D2E framework. (1) The OWA Toolkit captures 335.6 hours of rich desktop demon-
OWA Toolkit : 31๊ฐ ๊ฒ์์์ 335์๊ฐ์ ๋๊ธฐํ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ(ํ๋ฉด, ํค๋ณด๋, ๋ง์ฐ์ค)๋ฅผ ์์งํ๊ณ , OWAMcap ํ์์ผ๋ก 152๋ฐฐ ์์ถ์ ๋ฌ์ฑํ์ฌ ๊ธฐ์กด ํ์ ๋๋น ํจ์จ์ฑ์ ๋ํญ ํฅ์.
Generalist-IDM : timestamp ๊ธฐ๋ฐ ์ด๋ฒคํธ ์์ธก(NEP-ฯ)์ผ๋ก ๋ฏธํ์ต ๊ฒ์์ ๊ฐํ ์์ ์ฌ๊ฒฉ ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ์ฌ 1,000์๊ฐ ์ด์์ YouTube ๊ฒ์ํ๋ ์ด ์์์ ์๋ ์์ฌ ๋ ์ด๋ธ๋ง ๊ฐ๋ฅ.
VAPT ๊ธฐ์ด ๋ชจ๋ธ : 1.3K์๊ฐ์ ๋ฐ์คํฌํฑ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋ 10์ต ๋งค๊ฐ๋ณ์ ๋ชจ๋ธ์ด LIBERO ์กฐ์ 96.6% ์ฑ๊ณต๋ฅ , CANVAS ๋ค๋น๊ฒ์ด์
83.3% ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์ฌ 3.3B, 7B ๋ชจ๋ธ์ ๋ฅ๊ฐ.
How
Figure 2: OWA Toolkitโs recording and storage architecture. (Left) ocap recorder captures perfectly
OWA Toolkit์ ocap ๋ ์ฝ๋ : Windows API์ GStreamer ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉด(60 Hz FHD/QHD), ํค๋ณด๋, ๋ง์ฐ์ค ์ด๋ฒคํธ๋ฅผ ๋๋
ธ์ด ์ ๋ฐ๋๋ก ๋๊ธฐํํ์ฌ ๋ฉํฐ๋ชจ๋ฌ ์คํธ๋ฆผ ๊ธฐ๋ก
OWAMcap ํฌ๋งท : MCAP ํ์ค ์ปจํ
์ด๋์ H.265 ์ฝ๋ฑ ๊ธฐ๋ฐ ๋น๋์ค(217๋ฐฐ ์์ถ), PNG/JPEG ์คํฌ๋ฆฐ์ท, ๋ฉํ๋ฐ์ดํฐ๋ฅผ ํตํฉํ์ฌ ์ ์ฅ์ ํจ์จ์ฑ ๊ทน๋ํ
Generalist-IDM์ NEP-ฯ ์ํคํ
์ฒ : ๊ณ ์ ๋ tick ๊ธฐ๋ฐ ์์ธก ๋์ ๋ค์ ์ด๋ฒคํธ์ ๊ทธ ๋ฐ์ timestamp๋ฅผ ํจ๊ป ์์ธกํ์ฌ sparse ์ด๋ฒคํธ ํ๊ฒฝ์์ ํจ์จ์ ์ธ in-context ์ ์(์: ๋ง์ฐ์ค ์ค์ผ์ผ ๋ณด์ ) ๊ฐ๋ฅ
VAPT ์ ์ด ํ์ต : OWA ์์ง ๋ฐ์ดํฐ(259์๊ฐ ์ธ๊ฐ ๋ฐ๋ชจ)์ Generalist-IDM ์์ฌ ๋ ์ด๋ธ(1,000์๊ฐ+)์ ๊ฒฐํฉํ์ฌ vision-action ์ฌ์ ํ์ต์ ์ํํ ํ LIBERO, CANVAS ๋ฒค์น๋งํฌ์ ๋ฏธ์ธ์กฐ์
Originality
์ฒซ ์์ ํ ํ์ดํ๋ผ์ธ : ๋ฐ์คํฌํฑ ๋ฐ์ดํฐ ์์ง(OWA)๋ถํฐ ์ธํฐ๋ท ๊ท๋ชจ ์์ฌ ๋ ์ด๋ธ๋ง(Generalist-IDM), ๋ก๋ด ์ ์ด(VAPT)๊น์ง ์ ์ฒด ํ๋ก์ธ์ค๋ฅผ ๊ณต๊ฐ ์๋ฃ๋ก ์ ์ํ ์ต์ด์ ์ฐ๊ตฌ.
Generalist-IDM์ ํ์ : ๊ธฐ์กด์ domain-specific Specialist IDM(VPT ์คํ์ผ)์ ๋์ด ๋ค์ค ๊ฒ์ ๋ฒ์ฃผ์์ ์๋ํ๋ ์ผ๋ฐํ๋ ์ญ๋์ญํ ๋ชจ๋ธ์ ๋์
ํ๊ณ , timestamp ๊ธฐ๋ฐ NEP-ฯ๋ก sparse ์ด๋ฒคํธ ์์ธก ํจ์จํ.
๋ฐ์ดํฐ ์์ถ ๋ฐ ์คํ ๋ฆฌ์ง ์ต์ ํ : ๊ธฐ์กด ํฌ๋งท ๋๋น 152๋ฐฐ ์์ถ๊ณผ TorchCodec ๋๋น 41๋ฐฐ ๋ฎ์ ๋์คํฌ ์ฝ๊ธฐ ์๋๋ฅผ ๋ฌ์ฑํ์ฌ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ์ค์ง์ ๋ณ๋ชฉ ํด๊ฒฐ.
๋ฐ์คํฌํฑ-๋ก๋ด ์ ์ด ๊ฒ์ฆ : ๋ฐ์คํฌํฑ ์ํธ์์ฉ์ ๊ฐ๊ฐ ์ด๋ ์์ ํจํด์ด ๋ฌผ๋ฆฌ ๋ก๋ด ์กฐ์, ๋ค๋น๊ฒ์ด์
์ผ๋ก ์ง์ ์ ์ด ๊ฐ๋ฅํจ์ ๋ฒค์น๋งํฌ๋ก ์ต์ด ์ค์ฆ.
Limitation & Further Study
๊ฒ์ ๋ค์์ฑ ์ ํ : 31๊ฐ ๊ฒ์์ ์ฌ์ ํ ์ ์ฒด ๋ฐ์คํฌํฑ ์ ํ๋ฆฌ์ผ์ด์
๊ณต๊ฐ์ ๊ทนํ ์์ ๋ถ๋ถ์ด๋ฉฐ, ์ ์๋ ๊ฒ์๋ค์ด ํน์ ์ฅ๋ฅด(์ก์
/์ ๋ต)์ ํธํฅ๋ ๊ฐ๋ฅ์ฑ.
Generalist-IDM์ ์์ฌ ๋ ์ด๋ธ ํ์ง : YouTube ๋ฐ์ดํฐ์ ์๋ ๋ ์ด๋ธ๋ง์ด human-annotated ๋ฐ์ดํฐ๋ณด๋ค ๋
ธ์ด์ฆ๊ฐ ๋ง์ ์ ์์ผ๋ฉฐ, ์ด๊ฒ์ด ์ต์ข
๋ชจ๋ธ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ ํํ ์ํฅ ๋ถ์ ๋ถ์กฑ.
๋ก๋ด ์ ์ด์ ์ ํ๋ ๋๋ฉ์ธ : LIBERO์ CANVAS๋ง์ผ๋ก ์ ์ด ์ฑ๋ฅ์ ๊ฒ์ฆํ์ผ๋ฉฐ, ๋ค๋ฅธ ์ ํ์ ๋ก๋ด ์์
(manipulation ์ธ ์์
) ๋๋ ์ค์ ๋ก๋ด ํ๋์จ์ด ๋ค์์ฑ์ ๋ํ ๊ฒ์ฆ ํ์.
์ปดํจํธ ๋น์ฉ ๋ถ์ ๋ถ์ฌ : Generalist-IDM ํ์ต์ 192 H100-hours(์ฝ $800)๊ฐ ์์๋๋ค๊ณ ์ธ๊ธํ์ผ๋, ์ ์ฒด D2E ํ์ดํ๋ผ์ธ์ ํ์ต ๋น์ฉ๊ณผ ์ฐ์
์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ํ ์์ธ ๋ถ์ ๋ถ์กฑ.
ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ : (1) ์น ์ค์ผ์ผ ๋ฐ์คํฌํฑ ๋ฐ์ดํฐ๋ก์ ํ์ฅ, (2) ๋ค์ํ ๋ก๋ด ํํ ๋ฐ ํ๊ฒฝ์ผ๋ก์ ์ ์ด ์ฑ๋ฅ ๊ฒ์ฆ, (3) human-in-the-loop ์์ฌ ๋ ์ด๋ธ๋ง ํ์ง ๊ฐ์ ์ ๋ต.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : D2E๋ ๋ฐ์คํฌํฑ ํ๊ฒฝ์ ๊ตฌ์ฒดํ AI์ ์ค์ง์ ์ฌ์ ํ์ต ์๋ฃ๋ก ํ๋ฆฝํ๋ ์ข
ํฉ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ๊ณต๊ฐ ์๋ฃ์ ํจ์จ์ ๋๊ตฌ(OWA, Generalist-IDM, VAPT)๋ฅผ ํตํด ์ฌํ์ฑ๊ณผ ์ค์ฉ์ฑ์ ๋ด๋ณดํ๋ค. ๋ฐ์ดํฐ ์์ง ๋น์ฉ ๋๋น ๋ก๋ด ์ฑ๋ฅ์ ์ฐ์ํ ๋ฌ์ฑ์ AI ๊ตฌ์ฒดํ ์ฐ๊ตฌ์ ํ์ฅ์ฑ ๋ฌธ์ ์ ํ๊ธฐ์ ํด๊ฒฐ์ฑ
์ ์ ๊ณตํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com