์ ์: Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik | ๋ ์ง: 2024-02-29 | URL: https://arxiv.org/abs/2402.19469 📄 PDF
Figure 2: Humanoid locomotion as next token prediction. We collect a dataset on trajectories from various sources, such
์ด ๋ ผ๋ฌธ์ ์ธ๊ฐํ ๋ก๋ด์ ๋ณดํ ์ ์ด๋ฅผ ์ธ์ด ๋ชจ๋ธ๋ง์ next token prediction ๋ฌธ์ ๋ก ์ฌํด์ํ ์ฐ๊ตฌ์ด๋ค. causal transformer๋ฅผ ์ด์ฉํด sensorimotor trajectories๋ฅผ ์๋ํ๊ท์ ์ผ๋ก ์์ธกํ๋, ๋ถ์์ ํ ๋ชจ๋ฌ๋ฆฌํฐ(์: ์ก์ ์๋ ๋น๋์ค)๋ ํ์ฉํ ์ ์๋๋ก ์ค๊ณํ๋ค.
Figure 4: Training dataset. To train our model, we construct a dataset of trajectories coming from four different source
์ ๋ก์ท ์ค์ ํ๊ฒฝ ๋ฐฐํฌ: San Francisco์ ๋ค์ํ ์งํ์์ ํ์ต๋ ์ ์ฑ ์ด ์ถ๊ฐ ํ๋ จ ์์ด ๋ณดํ ์ฑ๊ณต. ๋ฐ์ดํฐ ํจ์จ์ฑ: 27์๊ฐ์ ๋ณดํ ๋ฐ์ดํฐ๋ง์ผ๋ก ์ค์ ํ๊ฒฝ ์ ์ ๊ฐ๋ฅ. ๋ช ๋ น ์ผ๋ฐํ: ํ์ต ์ค ๋ณด์ง ๋ชปํ ํ์ง ๋ณดํ ๋ฑ์ ์๋ก์ด ๋ช ๋ น์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ์ ์ฆ. ๋ถ์์ ๋ฐ์ดํฐ ํ์ฉ: ๋ชจ์ ์บก์ฒ ๋ฐ์ดํฐ, YouTube ์ธ๊ฐ ๋น๋์ค ๋ฑ ์ด์ง์ ์์ค๋ฅผ ํตํฉ ํ์ต. ์๋ฎฌ๋ ์ด์ ์ฑ๋ฅ: ๊ฐํํ์ต ๊ธฐ๋ฐ ์ต์ ๊ธฐ๋ฒ๊ณผ ๋น๊ต ๊ฐ๋ฅํ ์ฑ๋ฅ ๋ฌ์ฑ.
Figure 3: A general framework for training with different data sources. Our data modeling allows us to train our
โข sensorimotor ๊ถค์ T = (oโ,aโ,oโ,aโ,...,oโ,aโ)๋ฅผ K๊ฐ ํ ํฐ์ผ๋ก ํ ํฐํ
โข ์๋ํ๊ท ํ๋ฅ ๋ชจ๋ธ: p(t) = โ p(tโ|tโโโ,...,tโ)
โข ์์ ๋ก๊ทธ ์ฐ๋๋ก ํ๋ จํ๋, Gaussian ๋ถํฌ ๊ฐ์ ํ์ MSE ์์ค ์ฌ์ฉ
โข ์์ ํ ๊ถค์ (neural network policy, model-based controller)๊ณผ ๋ถ์์ ํ ๊ถค์ (motion capture, YouTube)์ mask token์ผ๋ก ํตํฉ
โข ํ ์คํธ ์ ์๋ํ๊ท์ ์ผ๋ก ์ก์ ์คํ ํ ๊ฐ๊ฐ ์์ธก์ ๋ฌด์
โข ๋ค์ํ ๋ฐ์ดํฐ ์์ค๋ฅผ ๊ฒฐํฉ ํ๋ จ(joint training) ๋๋ ๋จ๊ณ์ ์ฌ์ ํ๋ จ(pre-training)
โข ๋ก๋ณดํฑ ์ ์ด๋ฅผ next token prediction์ผ๋ก ๋ช ํํ ์ฌ๊ตฌ์ฑํ์ฌ NLP์ ์ฑ๊ณต ์ฌ๋ก๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ด์
โข ๊ฐ์ง์ ๋ชจํฐ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ํจ๊ป ๋ชจ๋ธ๋ง(์กฐ๊ฑด๋ถ ์ก์ ๋ถํฌ ๋์ ๊ฒฐํฉ ๋ถํฌ ํ์ต)
โข mask token์ ํตํ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ ๋ถ์์ ์ฑ ์ฒ๋ฆฌ ๋ฐฉ์์ด ๊ฐ๋จํ๋ฉด์๋ ํจ๊ณผ์
โข ์ธํฐ๋ท ๋น๋์ค ๊ฐ์ ์์ ํ ๋ค๋ฅธ ํํ์ ๋ฐ์ดํฐ๋ฅผ ๋ก๋ณดํฑ ์ ์ฑ ํ์ต์ ์ฒด๊ณ์ ์ผ๋ก ํตํฉ
โข 27์๊ฐ์ ํ์ต ๋ฐ์ดํฐ๋ก๋ ๋ณต์กํ ์๋๋ฆฌ์ค์ ๋ํ ๊ฒฌ๊ณ ์ฑ์ด ์ถฉ๋ถํ์ง ๋ฏธ์. ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ค์ํ ๋ก๋ด ํํ(์ฌ์กฑ ๋ก๋ด, ์กฐ์ ๋ก๋ด)๋ก์ ํ์ฅ ํ์, (2) ๋์ ํ๊ฒฝ์ด๋ ์ฅ์ ๋ฌผ ํํผ ๊ฐ์ ๋ ๋ณต์กํ ๊ณผ์ ์ ๋ํ ์ฑ๋ฅ ํ๊ฐ, (3) ์ค์ ํ๊ฒฝ์์์ ์ฌํ๋ จ(adaptation) ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ, (4) ๋ชจ๋ฌ๋ฆฌํฐ ๋ถ์์ ์ฑ์ด ๊ทน์ฌํ ๊ฒฝ์ฐ์ ์ฑ๋ฅ ๋ถ์
์ดํ: ์ด ๋ ผ๋ฌธ์ ์ธ์ด ๋ชจ๋ธ๋ง ํจ๋ฌ๋ค์์ ๋ก๋ด ์ ์ด์ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉํ ๊ฐ๋ ฅํ ์ฐ๊ตฌ์ด๋ค. ์ ๋ก์ท ์ค์ ํ๊ฒฝ ๋ฐฐํฌ, ๋ถ์์ ํ ๋ฐ์ดํฐ์ ์ฐฝ์์ ํ์ฉ, ๋ค์ํ ์์ค ํตํฉ ๋ฑ์์ ๋ช ํํ ๊ธฐ์ฌ๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ, ๊ธฐ์ ์ ์ผ๋ก๋ ๊ฑด์ ํ๊ณ ์คํ ๊ฒฐ๊ณผ๋ ์ค๋๋ ฅ ์๋ค.