Humanoid Locomotion as Next Token Prediction
์ ์: Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik | ๋ ์ง: 2024-02-29 | URL: https://arxiv.org/abs/2402.19469 📄 PDF
Essence
Figure 2: Humanoid locomotion as next token prediction. We collect a dataset on trajectories from various sources, such
Humanoid ๋ก๋ด ์ ์ด๋ฅผ ์ธ์ด ๋ชจ๋ธ์ next token prediction์ฒ๋ผ ๋ค๋ฃจ์ด, causal transformer๋ฅผ ํตํด sensorimotor ๊ถค์ ์ ์๋ ํ๊ท์ ์ผ๋ก ์์ธกํ๋ค. ์๋ฎฌ๋ ์ด์
, ๋ชจ์
์บก์ฒ, ์ ํ๋ธ ์์ ๋ฑ ๋ค์ํ ์์ค์ ๋ถ์์ ํ ๋ฐ์ดํฐ๋ก ํ์ตํ์ฌ ์ค์ humanoid ๋ก๋ด์ด zero-shot์ผ๋ก ์ํ๋์์ค์ฝ์์ ๋ณดํํ ์ ์๊ฒ ํ๋ค.
Motivation
- Known: Transformer ๋ชจ๋ธ์ด ์ธ์ด, ์๊ฐ ๋ฐ์ดํฐ ๋ฑ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ์์ ๊ฐ๋ ฅํ ์์ฑ ๋ฅ๋ ฅ์ ๋ณด์์ผ๋ฉฐ, ์ต๊ทผ ๊ฐํํ์ต ๊ธฐ๋ฐ humanoid ์ ์ด๋ ์ฑ๊ณต์ ์ด๋ค. ํ์ง๋ง sensorimotor ํํ ํ์ต์ ํตํ ์ค์ humanoid ์ ์ด๋ ๊ฑฐ์ ํ๊ตฌ๋์ง ์์๋ค.
- Gap: ๊ธฐ์กด humanoid ์ ์ด๋ ๊ฐํํ์ต์ด๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด์ ์์กดํ๋ฉฐ, ๋ค์ํ ์์ค(ํนํ ์ก์
์ ๋ณด๊ฐ ์๋ ์ธ๊ฐ ์์)์ ๋ถ์์ ํ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ ๋ฐฉ์์ด ๋ถ์กฑํ๋ค. ์์ฑ ๋ชจ๋ธ ๊ธฐ๋ฐ์ sensorimotor ๊ถค์ ๋ชจ๋ธ๋ง์ด ์ค์ humanoid ์ ์ด์ ํจ๊ณผ์ ์ธ์ง ๊ฒ์ฆ๋์ง ์์๋ค.
- Why: ๋๊ท๋ชจ ์ธํฐ๋ท ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ตํ๋ ์ธ์ด ๋ชจ๋ธ์ ์ฑ๊ณต ์ฌ๋ก๋ฅผ ๋ก๋ด ์ ์ด์ ํ์ฅํ ์ ์๋ค๋ฉด, ๋ ํ๋ถํ ๋ฐ์ดํฐ๋ก๋ถํฐ ๊ฐ์ธํ ์ ์ด ์ ์ฑ
์ ํ์ตํ ์ ์๋ค. ์ด๋ ๋ก๋ด ์ ์ด์ ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ ๊ฐ์์ํค๊ณ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์์ํฌ ์ ์๋ค.
- Approach: Sensorimotor ๊ถค์ ์ ํ ํฐํํ๊ณ causal transformer๋ฅผ ํตํด ์๋ ํ๊ท์ ์ผ๋ก ๋ค์ ํ ํฐ์ ์์ธกํ๋ค. ๋ถ์์ ํ ๋ฐ์ดํฐ(์ก์
์ด ์๋ ์์)๋ฅผ mask token์ผ๋ก ์ฒ๋ฆฌํ์ฌ ๋์ผํ ํ์ต ํ๋ ์์ํฌ๋ก ํตํฉํ๊ณ , ๋ค์ํ ์์ค(์ ์ฑ
, ์ ์ด๊ธฐ, ๋ชจ์
์บก์ฒ, ์ ํ๋ธ)์ ๊ถค์ ์ผ๋ก ํ์ตํ๋ค.
Achievement
Figure 1: A humanoid that walks in San Francisco. We deploy our policy to various locations in San Francisco over
- Zero-shot ์ค์ ๋ฐฐํฌ: ํ์ตํ์ง ์์ ํ๊ฒฝ์ธ ์ํ๋์์ค์ฝ์ ๋ค์ํ ์งํ(๋ณด๋, ์ฝํฌ๋ฆฌํธ, ์์คํํธ ๋ฑ)์์ ์ค์ humanoid ๋ก๋ด์ด ์ฑ๊ณต์ ์ผ๋ก ๋ณดํํจ์ ์์ฐํ๋ค.
- ๊ทน์๋ ๋ฐ์ดํฐ๋ก์ ์ ์ดํ์ต: 27์๊ฐ์ ๋ณดํ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ์ค์ ํ๊ฒฝ์ ์ ์ด ๊ฐ๋ฅํ ์ ์ฑ
์ ํ์ตํ ์ ์์์ ์
์ฆํ๋ค.
- ๋ช
๋ น ์ผ๋ฐํ: ํ์ต ์ค ๋ณด์ง ๋ชปํ ์ญ๋ฐฉํฅ ๋ณดํ ๋ฑ์ ์๋ก์ด ๋ช
๋ น์ผ๋ก ์ผ๋ฐํ ๊ฐ๋ฅํจ์ ๋ณด์๋ค.
- ๋ถ์์ ๋ฐ์ดํฐ ํ์ฉ: ์ก์
์ ๋ณด๊ฐ ์๋ ์ ํ๋ธ ์ธ๊ฐ ์์๋ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ ์ ์์ผ๋ฉฐ, ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ๊ฐํํ์ต ๊ธฐ๋ฒ๊ณผ ๋๋ฑํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
How
Figure 2: Humanoid locomotion as next token prediction. We collect a dataset on trajectories from various sources, such
- Sensorimotor ๊ถค์ ์ ํ ํฐ ์ํ์ค๋ก ๋ณํ: T = (oโ, aโ, oโ, aโ, ..., oโ, aโ) โ t = (tโ, tโ, ..., tโ)
- Causal transformer๋ฅผ ํตํ ์๋ ํ๊ท ์์ธก: p(t) = โโ p(tโ|tโโโ, ..., tโ)
- Gaussian ๋ถํฌ ๊ฐ์ ํ์ MSE ์์ค ์ต์ํ: L = (1/K)โโ(tฬโ - tโ)ยฒ
- Missing modality ์ฒ๋ฆฌ: ์ก์
์ด ์๋ ๊ถค์ ์ mask token [M] ์ฝ์
ํ์ฌ ํต์ผ๋ ํ์์ผ๋ก ๋ณํ (oโ, [M], oโ, [M], ...)
- ๋ค์ค ์์ค ๋ฐ์ดํฐ ํตํฉ: ์ ๊ฒฝ๋ง ์ ์ฑ
, ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด๊ธฐ, ๋ชจ์
์บก์ฒ, ์ ํ๋ธ ์์์ ๊ถค์ ์ inverse kinematics๋ก retargetํ์ฌ ๋จ์ผ dataset ๊ตฌ์ฑ
- Test time์์ ์๋ ํ๊ท์ ์ก์
์คํ: ๋ชจ๋ธ์ด ์์ธกํ ์ก์
๋ง ์ฌ์ฉํ๊ณ sensory ์์ธก์ ๋ฌด์
Originality
- Language modeling ํจ๋ฌ๋ค์์ ํ์ฅ: ์ธ์ด์ next token prediction์ humanoid ์ ์ด์ sensorimotor ๊ถค์ ์ ์ง์ ์ ์ฉํ ์๋ก์ด ๊ด์
- Missing modality ์ฒ๋ฆฌ์ ์ฐ์ํ ํด๋ฒ: Mask token์ ํตํด ๋ถ์์ ํ ๋ฐ์ดํฐ(ํนํ ์ธํฐ๋ท ์์)๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ํ์ต ํ๋ ์์ํฌ์ ํตํฉ
- ๋ค์ํ ์ด์ง์ ๋ฐ์ดํฐ ์์ค์ ํตํฉ: ๊ฐํํ์ต ์ ์ฑ
, ์ ํต ์ ์ด๊ธฐ, ์ธ๊ฐ ๋ชจ์
์บก์ฒ, ์ ํ๋ธ ์์์ ๋จ์ผ framework๋ก ํตํฉํ์ฌ ํ์ต
- Joint distribution ๋ชจ๋ธ๋ง: ์กฐ๊ฑด๋ถ ์ก์
๋ถํฌ๊ฐ ์๋ ์ ์ฒด sensorimotor ๊ฒฐํฉ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ์ฌ ๋ ํ๋ถํ ์ธ๊ณ ๋ชจ๋ธ ํ์ต
Limitation & Further Study
- ๋ฐ์ดํฐ ์์ค์ ์ ํ์ฑ: ์ฃผ๋ก ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ์ ์ ํ๋ ์ธ๊ฐ ์์์ ๊ธฐ๋ฐํ๋ฉฐ, ๋ ๋ค์ํ ์ค์ ํ๊ฒฝ ๋ฐ์ดํฐ์ ํ๋ณด ํ์
- ์ผ๋ฐํ ๋ฒ์: ์ํ๋์์ค์ฝ ํ๊ฒฝ์์์ ๋ณดํ๋ง ์์ฐ๋์์ผ๋ฉฐ, ๋ค๋ฅธ ๋์๋ ๊ทนํ ํ๊ฒฝ, ๊ณ๋จ/๊ฒฝ์ฌ๋ก ๋ฑ ๋ณต์กํ ์งํ์์์ ์ฑ๋ฅ ๋ฏธํ๊ฐ
- ํ ํฐํ ๋ฐฉ์์ ๋จ์์ฑ: ๋จ์ ํ๊ท ๋ฐฉ์์ ์ฌ์ฉํ์ฌ quantization์ด๋ vector quantization ๋ฑ ๋ ๊ณ ๊ธ ํ ํฐํ์ ํจ๊ณผ ๋ฏธํ์
- ๋น๊ต ์คํ์ ์ ํ: ์ฃผ๋ก ์๋ฎฌ๋ ์ด์
์์์ ๋น๊ต ๋ถ์์ด๋ฉฐ, ์ค์ ํ๊ฒฝ์์์ ๋ค๋ฅธ ์ต์ ๊ธฐ๋ฒ(์: ๋ค๋ฅธ ๊ฐํํ์ต ๋ฐฉ์)๊ณผ์ ์ง์ ๋น๊ต ๋ถ์กฑ
- Scaling ํน์ฑ์ ๋ฏธํกํ ๋ถ์: Transformer์ scaling law๊ฐ sensorimotor ๋๋ฉ์ธ์์ ์ด๋ป๊ฒ ์๋ํ๋์ง ์ ํ์ ์ผ๋ก๋ง ๋ถ์
- ํ์์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๋ ํฐ ๊ท๋ชจ์ ์ธํฐ๋ท ์ธ๊ฐ ์์ ๋ฐ์ดํฐ ํ์ฉ, (2) ๋ค๋ฅธ humanoid ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ์ ์ด, (3) ์กฐ์(manipulation) ๋ฑ ๋ค๋ฅธ ๋ก๋ด ๊ณผ์ ๋ก์ ํ์ฅ, (4) ๋ชจ๋ฌ๋ฆฌํฐ ๊ฐ ์ ๋ ฌ ์ ๋ต์ ๊ฐ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ธ์ด ๋ชจ๋ธ์ next token prediction ํจ๋ฌ๋ค์์ humanoid ์ ์ด์ ์ฐฝ์์ ์ผ๋ก ์ ์ฉํ์ฌ, ๋ถ์์ ํ ๋ค์ค ์์ค ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ชจ๋ธ์ด ์ค์ ํ๊ฒฝ์์ zero-shot ๋ณดํ์ ๊ฐ๋ฅํ๊ฒ ํจ์ ์
์ฆํ๋ค. ์์ฑ ๋ชจ๋ธ ๊ธฐ๋ฐ์ ๋ก๋ด ์ ์ด ํ์ต์ ๋ํ ์ ๋งํ ๋ฐฉํฅ์ ์ ์ํ๋ฉฐ, ์ค์ ๋ฐฐํฌ ๊ฒฐ๊ณผ๋ ๋งค์ฐ ์ธ์์ ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์