Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos
์ ์: Yi Chen, Yuying Ge, Weiliang Tang, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu | ๋ ์ง: 2024-12-05 | URL: https://arxiv.org/abs/2412.04445 📄 PDF
Essence
Figure 2. Overview of Motoโs three training stages: (1) The Latent Motion Tokenizer encodes key visual motions between v
์ด ๋
ผ๋ฌธ์ ๋น๋์ค์์ ๋น์ง๋ ํ์ต์ผ๋ก latent motion token์ ํ์ตํ์ฌ ๋ก๋ด ์กฐ์ ํ์คํฌ๋ฅผ ์ํ ์ฌ์ ํ์ต์ ์ค๊ฐ ํํ์ผ๋ก ์ฌ์ฉํ๊ณ , Moto-GPT๋ฅผ ํตํด motion token์ ์๋ํ๊ท ์์ธก์ผ๋ก motion prior๋ฅผ ํ์ตํ ํ co-fine-tuning์ผ๋ก ์ค์ ๋ก๋ด ์ ์ด๋ก ์ ์ดํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
Motivation
- Known: LLM์ ์๋ํ๊ท ์ฌ์ ํ์ต์ด NLP์์ ์ฑ๊ณตํ์ผ๋ฉฐ, ์ต๊ทผ ๋ก๋ด ํ์ต์์๋ vision-language-action ๋ชจ๋ธ์ด๋ ๋น๋์ค ์ฌ์ ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ์ด ์๋๋๊ณ ์๋ค.
- Gap: ๊ธฐ์กด ๋น๋์ค ์ฌ์ ํ์ต์ ์ ์ ํ๋ ์์ด๋ ํฝ์
๋ ๋ฒจ ํ ํฐ์ ์ด์ ์ ๋ง์ถ์์ผ๋, ๋ก๋ด ์กฐ์์ ์ง์ ์ ์ผ๋ก ์ ์ฉํ motion ์์ค์ ํํ ํ์ต๊ณผ ๊ทธ ์ ์ด ๋ฉ์ปค๋์ฆ์ด ๋ถ์กฑํ๋ค.
- Why: ํ๋ถํ ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ action ๋ผ๋ฒจ ์์ด motion ์ง์์ ํ์ตํ๊ณ ์ด๋ฅผ ๋ก๋ด ์ ์ด๋ก ํจ๊ณผ์ ์ผ๋ก ์ ์ดํ ์ ์๋ค๋ฉด ๋ฐ์ดํฐ ๋น์ฉ ๋ฌธ์ ๋ฅผ ํฌ๊ฒ ์ํํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
- Approach: VQ-VAE ๊ธฐ๋ฐ Latent Motion Tokenizer๋ก ์ฐ์ ํ๋ ์ ๊ฐ์ ๋์์ ์์ถ๋ discrete token์ผ๋ก ๋ณํํ๊ณ , GPT ๊ธฐ๋ฐ Moto-GPT๋ฅผ motion token์ ๋ค์ ํ ํฐ ์์ธก์ผ๋ก ์ฌ์ ํ์ตํ ํ, action query token์ ์ฝ์
ํ๋ co-fine-tuning์ผ๋ก ๋ก๋ด ์ก์
์์ธก์ผ๋ก ์ ์ดํ๋ค.
Achievement
Figure 1. The overview of Moto, which utilizes Latent Motion Tokens as a bridging โlanguageโ for autoregressive pretrain
- Latent Motion Token ํํ: VQ-VAE ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋ latent motion token์ด ์๋ฏธ๋ก ์ ์ผ๋ก ํด์ ๊ฐ๋ฅํ๋ฉฐ human-to-robot ๊ฐ cross-embodiment ์ ์ด ๋ฅ๋ ฅ์ ๋ณด์
- Motion Prior ํ์ต: ์ฌ์ ํ์ต๋ Moto-GPT๊ฐ ํausible motion trajectory ์์ธก๊ณผ output likelihood๋ฅผ ํตํ trajectory rationality ํ๊ฐ ๋ฅ๋ ฅ์ ํ๋
- ๋ก๋ด ์ ์ด ์ฑ๋ฅ: ์ฌ์ ํ์ต๋ motion prior๋ฅผ ํฌํจํ Moto-GPT๊ฐ CALVIN ๋ฒค์น๋งํฌ์์ ์ ์๋ฏธํ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑ, ํนํ ์ ํ๋ ํ์ต ๋ฐ์ดํฐ ์ํฉ์์ ์ฐ์ํ ๊ฒฌ๊ณ ์ฑ๊ณผ ํจ์จ์ฑ ์์ฐ
How
Figure 2. Overview of Motoโs three training stages: (1) The Latent Motion Tokenizer encodes key visual motions between v
- Latent Motion Tokenizer ํ์ต: VQ-VAE ์ธ์ฝ๋๊ฐ ์ฐ์๋ ๋ ํ๋ ์์ ์
๋ ฅ๋ฐ์ discrete token์ผ๋ก ์์ถํ๊ณ , ๋์ฝ๋๊ฐ ์ฒซ ๋ฒ์งธ ํ๋ ์๊ณผ ํ ํฐ์ผ๋ก๋ถํฐ ๋ ๋ฒ์งธ ํ๋ ์์ ์ฌ๊ตฌ์ฑํ๋๋ก ์ ๊ทํํ์ฌ ํ๋ ์ ๊ฐ ๋ณํ(๋์)๋ฅผ ์บก์ฒ
- Moto-GPT ์ฌ์ ํ์ต: ํ ํฐํ๋ motion trajectory ์ํ์ค์ ๋ํด initial frame๊ณผ text instruction์ ์กฐ๊ฑด์ผ๋ก ํ์ฌ next latent motion token์ ์์ธกํ๋ autoregressive ํ์ต
- Co-fine-tuning ์ ์ด: action query token์ ๊ฐ ์๊ฐ ๋จ๊ณ์ motion token chunk ์์ ์ฝ์
ํ๊ณ , learnable module์ด action query์ ์ถ๋ ฅ์ผ๋ก ์ ์์ค ์ก์
์ ์์ธกํ๋ฉด์ ๋์์ motion token์ ๋ํด์๋ ๊ธฐ์กด์ next-token prediction ๋ชฉ์ ํจ์๋ฅผ ์ ์ง
Originality
- Motion token์ด๋ผ๋ hardware-agnostic ์ค๊ฐ ํํ์ ๋์
ํ์ฌ ๋น๋์ค ์ฌ์ ํ์ต๊ณผ ๋ก๋ด ์ ์ด ๊ฐ์ ์๋ฏธ๋ก ์ ๊ฐ๊ทน์ ํจ๊ณผ์ ์ผ๋ก ์ฐ๊ฒฐ
- Unsupervised Latent Motion Tokenizer์ autoregressive Moto-GPT์ ์กฐํฉ์ผ๋ก action ๋ผ๋ฒจ ์์ด๋ motion prior๋ฅผ ๋๊ท๋ชจ๋ก ํ์ต ๊ฐ๋ฅ
- Co-fine-tuning ๋ฉ์ปค๋์ฆ์ผ๋ก ํ์ต๋ motion token ํํ์ ์ ์งํ๋ฉด์ ๋์์ ๋ก๋ด ์ก์
์์ธก์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์ฐ์ํ ์ค๊ณ
Limitation & Further Study
- Latent Motion Tokenizer์ ์ฑ๋ฅ์ด VQ-VAE ๊ธฐ๋ฐ ์ํคํ
์ฒ์ ์์กดํ๋ฏ๋ก, ๋ณต์กํ ๋ค์ค ๊ฐ์ฒด ์ธํฐ๋์
์ด๋ ๋น ๋ฅธ ๋์์์์ ์ ํ ๊ฐ๋ฅ์ฑ
- Co-fine-tuning ์ action ๋ผ๋ฒจ์ด ํ์ํ๋ฏ๋ก ์์ ํ ๋น์ง๋ ํ์ต์ด ์๋๋ฉฐ, ์ค์ ๋ก๋ด ํ๊ฒฝ์ผ๋ก์ ์๋ฎฌ-ํฌ-๋ฆฌ์ผ ์ ์ด ์ฑ๋ฅ์ด ์ถฉ๋ถํ ๊ฒ์ฆ๋์ง ์์
- ํ์ฌ ํ๊ฐ๊ฐ ์ฃผ๋ก CALVIN ๋ฒค์น๋งํฌ์ ์ง์ค๋์ด ์์ผ๋ฏ๋ก, ๋ ๋ค์ํ ๋ก๋ด ํ๋ซํผ๊ณผ ์กฐ์ ๋ณต์ก๋์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฒ์ฆ์ด ํ์
- ํ์ ์ฐ๊ตฌ๋ก๋ ๋ ํฐ ๊ท๋ชจ์ ๋น๋์ค ๋ฐ์ดํฐ(Internet-scale)๋ก ์ฌ์ ํ์ต ์ ์ฑ๋ฅ ํฅ์ ์ ๋ํ, ์ค์ ๋ก๋ด์์์ ์ง์ ๊ฒ์ฆ, ๊ทธ๋ฆฌ๊ณ ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ(depth, proprioception) ํตํฉ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ latent motion token์ ํตํด ๋น๋์ค ์ฌ์ ํ์ต๊ณผ ๋ก๋ด ์ ์ด๋ฅผ ์ฐ์ํ๊ฒ ์ฐ๊ฒฐํ๋ ์ฐฝ์์ ์ธ ์ ๊ทผ์ ์ ์ํ๋ฉฐ, motion prior์ ํ์ต๊ณผ ์ ์ด์ ๋ํ ๋ช
ํํ ๊ฒ์ฆ์ ์ ๊ณตํ๋ค. ๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ํด์ ๊ฐ๋ฅ์ฑ ์ธก๋ฉด์์ ๋ก๋ด ํ์ต์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ์ง๋ง, ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ๊ด๋ฒ์ํ ๊ฒ์ฆ๊ณผ ๋ค์ํ ์กฐ์ ๋ณต์ก๋์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ์ฆ๋ช
์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์