์ ์: Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song | ๋ ์ง: 2025-02-28 | URL: https://arxiv.org/abs/2503.00200 📄 PDF
Fig. 1: Unified Video Action Model. (a) UVA features a joint video-action latent representation and decoupled video-acti
UVA๋ ๋น๋์ค ์์ฑ๊ณผ ์ก์ ์์ธก์ ํตํฉ์ ์ผ๋ก ํ์ตํ๋ ๋ชจ๋ธ๋ก, ๊ณต์ ๋ ์ ์ฌ ํํ๊ณผ ๋ถ๋ฆฌ๋ ํ์ฐ ํค๋๋ฅผ ํตํด ๋์ ์ ํ๋์ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ๋์์ ๋ฌ์ฑํ๋ค.
Fig. 1: Unified Video Action Model. (a) UVA features a joint video-action latent representation and decoupled video-acti
Fig. 2: Network Architecture. Given historical observations {Otโh+1, . . . , Ot} and corresponding action chunks {Atโh,
์ดํ: UVA๋ ๋น๋์ค์ ์ก์ ํ์ต์ ์ค๋ ํธ๋ ์ด๋์คํ๋ฅผ ํตํฉ ์ ์ฌ ํํ๊ณผ ๋ถ๋ฆฌ๋ ๋์ฝ๋ฉ์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๋ฉฐ, ๋ง์คํฌ ํ๋ จ์ ํตํ ๋ค๋ชฉ์ ํ์ฉ์ผ๋ก ๋ก๋ด ํ์ต ํ๋ ์์ํฌ์ ์ค์ฉ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.