Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers
์ ์: Lirui Wang, Xinlei Chen, Jialiang Zhao, Kaiming He | ๋ ์ง: 2024.09 | DOI: N/A 📄 PDF
Essence
์ด ๋
ผ๋ฌธ์ heterogeneous robot embodiments ๋ฐ tasks์ ๊ฑธ์ณ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ตํ์ฌ ๋ก๋ด ์ ์ฑ
์ generalization ์ฑ๋ฅ์ ํฅ์์ํค๋ Heterogeneous Pre-trained Transformers (HPT)๋ฅผ ์ ์ํ๋ค. ์๋ก ๋ค๋ฅธ ์ผ์์ ๊ตฌ๋๊ธฐ๋ฅผ ๊ฐ์ง ๋ค์ํ ๋ก๋ด embodiments์ proprioception๊ณผ vision ์ ๋ณด๋ฅผ shared latent space๋ก ์ ๋ ฌํ์ฌ task-agnostic, embodiment-agnosticํ ๊ธฐ์ด ๋ชจ๋ธ์ ํ์ตํ๋ค.
Motivation
- Known: ๊ธฐ์กด ๋ก๋ด ํ์ต ๋ฐฉ๋ฒ๋ค์ ํน์ embodiment๊ณผ task์ ๋ํด ๋ณ๋์ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ํ๋ จํ๋ฉฐ, ์ด๋ ๋น์ฉ์ด ํฌ๊ณ overfitting์ ์ทจ์ฝํ๋ค. ์์ฐ์ด์ฒ๋ฆฌ์ ์ปดํจํฐ ๋น์ ์์ ๋๊ท๋ชจ diverse ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ตํ foundation models์ ๋ฐ์ด๋ generalization ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
- Gap: ๋ก๋ด ๋ถ์ผ์์ heterogeneous embodiments (๋ค์ํ ๋ก๋ด ํ๋์จ์ด, ์ผ์ ๋ฐฐ์น, ํ๊ฒฝ)์ ์ฐจ์ด๋ฅผ ๊ทน๋ณตํ๋ฉด์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์กฑํ๋ค. ํนํ proprioception๊ณผ vision ์์ชฝ ๋ชจ๋๋ฅผ heterogeneous pre-training์ ํฌํจ์ํค๋ ์ฐ๊ตฌ๊ฐ ์ ํ์ ์ด๋ค.
- Why: ๋ก๋ด ํ์ต์ ํ์ฅ์ฑ๊ณผ generalization ์ฑ๋ฅ์ embodiments ๊ฐ ๊ณต์ ๋ ํํ์ ํ์ตํ ์ ์์ ๋ ํฌ๊ฒ ํฅ์๋ ์ ์๋ค. ๋๊ท๋ชจ diverse ๋ฐ์ดํฐ(์ค์ ๋ก๋ด, ์๋ฎฌ๋ ์ด์
, ์ธ๊ฐ ๋น๋์ค ๋ฑ)์์ task-agnosticํ๊ณ embodiment-agnosticํ ์ ์ฑ
ํํ์ ํ์ตํ๋ ๊ฒ์ ์๋ก์ด embodiments๊ณผ tasks์ ๋ํ ์ ์์ ํจ์จํํ๊ณ ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์๋ค.
- Approach: HPT๋ modular architecture๋ก ์ค๊ณ๋์ด embodiment-specific tokenizers (stems), shared Transformer trunk, task-specific action decoders (heads)๋ก ๊ตฌ์ฑ๋๋ค. ๊ฐ embodiment์ proprioception๊ณผ vision ์
๋ ฅ์ ๊ณ ์ ๊ธธ์ด์ token ์ํ์ค๋ก ๋ณํํ์ฌ shared latent space๋ก ์ ๋ ฌํ๊ณ , ๊ณต์ ๋ trunk๋ ์ด๋ฌํ tokens๋ฅผ ์ฒ๋ฆฌํ์ฌ ๋ค์ํ tasks์ ๋ก๋ด ์ ์ด๋ก ๋งคํํ๋ค. 52๊ฐ ์ด์์ datasets๊ณผ 10์ต ์ด์์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋๊ท๋ชจ ์ฌ์ ํ์ต์ ์ํํ๊ณ , supervised learning์ผ๋ก ํ๋ จํ๋ฉฐ, transfer learning์ ํตํด ์๋ก์ด embodiments์ผ๋ก ์ ์ดํ๋ค.
Achievement
Figure 5: Data Scaling. We run scaling HPT experiments along dataset sizes and the number of datasets. Each
ํ์ฅ์ฑ ๊ฒ์ฆ: ๋ฐ์ดํฐ์
๊ท๋ชจ, ํ๋ จ ์ํฌํฌ, ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ๋ฅธ scaling laws๋ฅผ ์ค์ฆ์ ์ผ๋ก ์
์ฆํ์ฌ ๋ก๋ด ์ ์ฑ
ํ์ต์์๋ foundation models๊ณผ ์ ์ฌํ scaling ํ๋์ด ์กด์ฌํจ์ ๋ณด์๋ค. ์ฑ๋ฅ ํฅ์: ์ฌ๋ฌ ์๋ฎฌ๋ ์ด์
๋ฒค์น๋งํฌ(CALVIN, BRIDGE, Metaworld ๋ฑ)์ ์ค์ ๋ก๋ด dexterous tasks์์ from-scratch baselines ๋๋น 20% ์ด์์ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ค. ๋ฐ์ดํฐ ํจ์จ์ฑ: ์ฌ์ ํ์ต๋ ํํ์ด ์๋ก์ด embodiments๋ก์ transfer ์ ํ์ํ ๋ฐ์ดํฐ๋๊ณผ ํ๋ จ ์๊ฐ์ ๋ํญ ๊ฐ์์ํจ๋ค. ๊ด๋ฒ์ํ ๋ฐ์ดํฐ ํตํฉ: ์ค์ ๋ก๋ด ๋ฐ์ดํฐ, ์๋ฎฌ๋ ์ด์
, ์ธ๊ฐ ๋น๋์ค ๋ฑ ์ด์ง์ ์ธ embodiment ๋๋ฉ์ธ์ 52๊ฐ datasets์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ๋ค.
How
Figure 5: Data Scaling. We run scaling HPT experiments along dataset sizes and the number of datasets. Each
- Embodiment-specific tokenizers (stems)๋ฅผ ์ค๊ณํ์ฌ ์๋ก ๋ค๋ฅธ ๋ก๋ด ์ผ์๋ค์ proprioception๊ณผ vision ์
๋ ฅ์ ๊ณ ์ ๊ธธ์ด token ์ํ์ค๋ก ์ ๋ ฌ
- Shared Transformer trunk๋ฅผ ๋ชจ๋ embodiments์ ๊ฑธ์ณ supervised learning์ผ๋ก ์ฌ์ ํ์ต
- Task-specific action decoders (heads)๋ฅผ ํตํด ๋ค์ํ downstream tasks๋ก์ ์ ์์ ๊ฐ๋ฅํ๊ฒ ํจ
- ๋๊ท๋ชจ heterogeneous datasets (52๊ฐ)์์ systematic scaling experiments ์ํํ์ฌ model size, data quantity, training compute์ ๋ฐ๋ฅธ ์ฑ๋ฅ ํฅ์ ๊ฒ์ฆ
- Transfer learning์ ํตํด ์๋ก์ด embodiments์ minimalํ ์๋ก์ด stem/head pair๋ง ํ์ต
Originality
- Multimodal alignment ๊ฐ๋
์ ๋ก๋ด embodiments ๊ฐ knowledge transfer์ ์ฒ์์ผ๋ก ๋๊ท๋ชจ๋ก ์ ์ฉํ์ฌ heterogeneous pre-training ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
- Proprioception๊ณผ vision ์์ชฝ์ ํฌํจํ end-to-end heterogeneous pre-training์ผ๋ก, ๊ธฐ์กด vision-only ๋๋ language-based approaches์ ์ฐจ๋ณํ๋๋ค.
- 52๊ฐ datasets๋ฅผ ํตํฉํ ๋๊ท๋ชจ ์คํ์ผ๋ก, ๋ก๋ด ๋๋ฉ์ธ์์ scaling laws์ ์กด์ฌ๋ฅผ ์ฒ์ ์ฒด๊ณ์ ์ผ๋ก ์
์ฆํ๋ค.
- Embodiment-agnostic shared representation ํ์ต์ ํตํด ์๋ก์ด ๋ก๋ด์ผ๋ก์ generalization์ ๊ทผ๋ณธ์ ์ผ๋ก ๊ฐ์ ํ๋ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํ๋ค.
Limitation & Further Study
- Tokenizer ์ค๊ณ์ ์ผ๋ฐ์ฑ: ํ์ฌ proprioception tokenizer๊ฐ ํน์ ๋ก๋ด ๊ตฌ์ฑ(degrees of freedom, action spaces)์ ๋ง์ถฐ ์ค๊ณ๋์ด ๊ทน๋๋ก ์ด์ง์ ์ธ embodiments์ผ๋ก์ ํ์ฅ์ฑ์ด ์ ํ๋ ์ ์๋ค.
- ํฉ์ฑ ๋ฐ์ดํฐ์ ํ๊ณ: ์๋ฎฌ๋ ์ด์
๋ฐ์ดํฐ์ ์ค์ ๋ก๋ด ๋ฐ์ดํฐ ๊ฐ์ domain gap ํด๊ฒฐ์ด ๋ฏธํกํ๋ฉฐ, sim-to-real transfer ์ฑ๋ฅ์ด ๋ช
ํํ ๋ณด๊ณ ๋์ง ์์๋ค.
- ๊ณ์ฐ ๋น์ฉ: ๋๊ท๋ชจ ๋ชจ๋ธ(10์ต ํ๋ผ๋ฏธํฐ)๊ณผ 52๊ฐ datasets์ ์ฌ์ ํ์ต์ ์์๋๋ ๊ณ์ฐ ์์์ด ์๋นํ์ฌ ์ฌํ๊ณผ ํ์ฉ์ ์ฅ๋ฒฝ์ด ์์ ์ ์๋ค.
- ์ ์ฑ์ ๋ถ์ ๋ถ์กฑ: Shared representation space์ ํน์ฑ์ด๋ embodiments ๊ฐ knowledge transfer์ ๋ฉ์ปค๋์ฆ์ ๋ํ ๊น์ด ์๋ ๋ถ์(์: representation visualization, attention pattern ๋ถ์)์ด ์ ํ์ ์ด๋ค.
- ํ์ ์ฐ๊ตฌ: Curriculum learning, adaptive tokenization, online adaptation ๋ฑ ๋ค์ํ heterogeneous learning ์ ๋ต์ ํ์์ด ํ์ํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ๋ก๋ด ํ์ต์ ์ค์ํ ๊ณผ์ ์ธ heterogeneous embodiments ๊ฐ knowledge transfer๋ฅผ multimodal alignment์ ๋๊ท๋ชจ ์ฌ์ ํ์ต์ผ๋ก ํด๊ฒฐํ๋ ์ค์ง์ ์ด๊ณ ์ฒด๊ณ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. 52๊ฐ datasets์ ํตํ ๊ด๋ฒ์ํ ์คํ๊ณผ scaling laws์ ์
์ฆ์ ๋ก๋ด ๋๋ฉ์ธ์์์ ๊ท์คํ ๊ธฐ์ฌ์ด๋ค. ๋ค๋ง tokenizer ์ค๊ณ์ ์ผ๋ฐ์ฑ, sim-to-real gap, ํํ ๊ณต๊ฐ์ ๋ํ ๊น์ด ์๋ ๋ถ์ ๋ฑ์์ ๊ฐ์ ์ฌ์ง๊ฐ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์