์ ์: Ajay Sridhar, Dhruv Shah, Catherine Glossop, Sergey Levine | ๋ ์ง: 2023-10-11 | URL: https://arxiv.org/abs/2310.07896 📄 PDF
Fig. 1: NoMaD is the first flexibly conditioned diffusion model of robot actions that can perform both goal-conditioned
NoMaD๋ goal masking์ ํ์ฉํ unified diffusion policy๋ก ๋ก๋ด์ ๋ชฉํ ์งํฅ ๋ค๋น๊ฒ์ด์ ๊ณผ ๋ชฉํ ๋ฌด๊ด ํ์์ ๋จ์ผ ๋ชจ๋ธ๋ก ์ฒ๋ฆฌํ๋ฉฐ, Transformer ๊ธฐ๋ฐ ์ ์ฑ ๊ณผ diffusion model decoder๋ฅผ ๊ฒฐํฉํ์ฌ ๋ฏธ์ง์ ํ๊ฒฝ์์ ํจ๊ณผ์ ์ธ ๋ค๋น๊ฒ์ด์ ์ ๊ตฌํํ๋ค.
Fig. 2: Model Architecture. NoMaD uses two EfficientNet encoders ฯ, ฯ to generate input tokens to a Transformer decoder.
์ดํ: NoMaD๋ goal masking๊ณผ diffusion policy๋ฅผ ๊ฒฐํฉํ์ฌ exploration๊ณผ goal-seeking์ ํตํฉํ ํ์ ์ ์ํคํ ์ฒ๋ฅผ ์ ์ํ๋ฉฐ, ViNT ๋๋น 25% ์ด์์ ์ฑ๋ฅ ํฅ์๊ณผ 15๋ฐฐ ํจ์จ์ฑ ๊ฐ์ ์ ์ค์ ๋ก๋ด์์ ๋ฌ์ฑํ์ฌ ๋ก๋ด ๋ค๋น๊ฒ์ด์ ๋ถ์ผ์ ์๋นํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.