VIMA: General Robot Manipulation with Multimodal Prompts
์ ์: Yunfan Jiang, Agrim Gupta, Zichen Zhang, Guanzhi Wang, Yongqiang Dou, Yanjun Chen, Li Fei-Fei, Anima Anandkumar, Yuke Zhu, Linxi Fan | ๋ ์ง: 2022-10-06 | URL: https://arxiv.org/abs/2210.03094 📄 PDF
Essence
Figure 1: Multimodal prompts for task specification. We observe that many robot manipulation tasks can be expressed as
๋ฉํฐ๋ชจ๋ฌ ํ๋กฌํํธ(ํ
์คํธ์ ์ด๋ฏธ์ง ํผํฉ)๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ ๋ก๋ด ์กฐ์ ์์
์ ํต์ผ๋ ์ํ์ค ๋ชจ๋ธ๋ง ๋ฌธ์ ๋ก ํํํ๊ณ , ์ด๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ transformer ๊ธฐ๋ฐ ๋ก๋ด ์์ด์ ํธ VIMA๋ฅผ ์ ์ํ๋ค.
Motivation
- Known: NLP์์ prompt ๊ธฐ๋ฐ ํ์ต์ด ์ฑ๊ณต์ ์ธ ํจ๋ฌ๋ค์์ผ๋ก ํ๋ฆฝ๋์์ผ๋ฉฐ, ๋ก๋ด ์กฐ์ ์์
์ ์ผ๋ฐ์ ์ผ๋ก ํนํ๋ ๋ชจ๋ธ๋ค๋ก ๊ฐ๊ฐ ๋ค๋ฃจ์ด์ง๋ค.
- Gap: ๋ก๋ด ํ์ต์์ ๋ค์ํ ํํ์ ์์
๋ช
์ธ(์ธ์ด ์ง์, ์๊ฐ์ ๋ชฉํ, ์์ฐ ๋ชจ๋ฐฉ)๋ฅผ ๋จ์ผ ํตํฉ ์ธํฐํ์ด์ค๋ก ํํํ๊ณ ์ฒ๋ฆฌํ ์ ์๋ ์ผ๋ฐ์ ์ธ ์ ๊ทผ๋ฒ์ด ๋ถ์กฑํ๋ค.
- Why: ์ผ๋ฐํ๋ ๋ก๋ด ์์ด์ ํธ๋ ์ง๊ด์ ์ด๊ณ ์ ์ฐํ ์์
๋ช
์ธ ์ธํฐํ์ด์ค๊ฐ ํ์ํ๋ฉฐ, ์ด๋ ๋ณต์ ์์
ํ์ต๊ณผ zero-shot ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: ๋ฉํฐ๋ชจ๋ฌ ํ๋กฌํํธ๋ก ํํ ๊ฐ๋ฅํ 6๊ฐ์ง ์์
์นดํ
๊ณ ๋ฆฌ๋ฅผ ์ ์ํ๊ณ , ์ด์ ๋์ํ๋ VIMA-BENCH ๋ฒค์น๋งํฌ์ encoder-decoder transformer ๊ธฐ๋ฐ VIMA ๋ชจ๋ธ์ ๊ฐ๋ฐํ๋ค.
Achievement
Figure 4: Scaling model and data. Top: We compare performance of different methods with model sizes ranging from 2M
- ๋ฉํฐ๋ชจ๋ฌ ํ๋กฌํํธ ์ ์ํ: ๊ฐ๋จํ ๊ฐ์ฒด ์กฐ์, ์๊ฐ์ ๋ชฉํ ๋๋ฌ, ์๋ก์ด ๊ฐ๋
ํ์ต, ๋น๋์ค ๋ชจ๋ฐฉ, ์๊ฐ์ ์ ์ฝ ๋ง์กฑ, ์๊ฐ์ ์ถ๋ก ๋ฑ 6๊ฐ์ง ์์
์ ํ์ ํต์ผ๋ ํ๋กฌํํธ ํ์์ผ๋ก ํํ
- VIMA-BENCH ๋ฒค์น๋งํฌ: 600K+ ์ ๋ฌธ๊ฐ ๊ถค์ , 17๊ฐ์ง ๊ธฐ๋ณธ ์์
์ผ๋ก๋ถํฐ ์์ฒ ๊ฐ์ ์ ์ฐจ์ ์ผ๋ก ์์ฑ๋ ์ธ์คํด์ค, 4๋จ๊ณ ํ๊ฐ ํ๋กํ ์ฝ(๊ฐ์ฒด ๋ฐฐ์น โ ์๋ก์ด ์กฐํฉ โ ์๋ก์ด ๊ฐ์ฒด โ ์๋ก์ด ์์
) ์ ๊ณต
- VIMA ๋ชจ๋ธ์ ์ฑ๋ฅ: ๋์ผํ ํ์ต ๋ฐ์ดํฐ์์ ๊ฒฝ์ ๋ชจ๋ธ ๋๋น ์ต๋ 2.9๋ฐฐ ์์
์ฑ๊ณต๋ฅ ๋ฌ์ฑ, 10๋ฐฐ ์ ์ ๋ฐ์ดํฐ๋ก๋ 2.7๋ฐฐ ์ฐ์ํ ์ฑ๋ฅ ๋ฌ์ฑ
- ๋ชจ๋ธ ํ์ฅ์ฑ: 2M์์ 200M ํ๋ผ๋ฏธํฐ ๋ฒ์์ 7๊ฐ์ง ๋ชจ๋ธ์์ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์ ์
์ฆ
How
Figure 3: VIMA Architecture. We encode the multimodal prompts with a pre-trained T5 model, and condition the
- Pre-trained ์ธ์ด ๋ชจ๋ธ๋ก ๋ฉํฐ๋ชจ๋ฌ ํ๋กฌํํธ(ํ
์คํธ์ ์ด๋ฏธ์ง ํ ํฐ์ ๊ต์ฐจ) ์ธ์ฝ๋ฉ
- ๊ฐ์ฒด ์ค์ฌ ์ ๊ทผ: ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ฒด ๋จ์๋ก ํ์ฑํ์ฌ ๊ฐ์ฒด ํ ํฐ ์ํ์ค๋ก ๋ณํ (off-the-shelf ๋ฐ ๋๋ฉ์ธ ๋ฏธ์ธ์กฐ์ detector ์ฌ์ฉ)
- Transformer decoder: cross-attention๊ณผ causal self-attention์ ๋ฒ๊ฐ์ ์ฌ์ฉํ์ฌ ํ๋กฌํํธ ๊ธฐ๋ฐ ์กฐ๊ฑด๋ถ ํ์ต ์ํ
- ์๋ํ๊ท์ ํ๋ ์ถ๋ ฅ: ๊ฐ ํ๊ฒฝ ์ํธ์์ฉ ๋จ๊ณ์์ ๋ชจํฐ ์ก์
์์ฑ
- ์ด๋ฏธ์ง ํจ์น ํ ํฐ, image Perceiver, decoder-only ์กฐ๊ฑด๋ถ ๋ฑ ๋์ ์ค๊ณ์ ๋น๊ต ๋ถ์
Originality
- ๋ก๋ด ์กฐ์ ์์
์ ์ํ ๋ฉํฐ๋ชจ๋ฌ ํ๋กฌํํธ ๊ฐ๋
์ ์ฒซ ์ ์ - NLP์ prompt ํจ๋ฌ๋ค์์ ๋ก๋ด ํ์ต์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ์ ์ฉ
- 4๋จ๊ณ ํ๊ฐ ํ๋กํ ์ฝ์ ์ค๊ณ - ์ ์ง์ ์ผ๋ก ๊ฐํ๋๋ zero-shot ์ผ๋ฐํ ๋ฅ๋ ฅ ์ธก์ ์ ์ํ ์ฒด๊ณ์ ํ๊ฐ ๋ฐฉ์
- ๊ฐ์ฒด ์ค์ฌ token ํํ - raw ์ด๋ฏธ์ง ํจ์น ๋์ ์๋ฏธ์๋ ๊ฐ์ฒด ๋จ์๋ก ํ์ฑํ์ฌ model scalability ๋ฐ data efficiency ํฅ์
- ๋จ์ผ ํตํฉ ๋ชจ๋ธ๋ก ์ฌ๋ฌ ์์
ํ์ ์ง์ - ๊ธฐ์กด์ task-specific ์ํคํ
์ฒ ๋์ sequence modeling ๋ฌธ์ ๋ก ํต์ผ
Limitation & Further Study
- ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ ๊ธฐ๋ฐ ํ๊ฐ๋ก ์ค์ ๋ก๋ด ํ๋์จ์ด ์ ์ด(sim-to-real transfer)์ ๊ฒ์ฆ ๋ถ์กฑ
- ๊ฐ์ฒด ๊ฐ์ง(object detection)์ ์์กดํ๋ฏ๋ก ๊ฐ์ง ์ค๋ฅ์ ๋์ ํจ๊ณผ์ ๋ํ ๋ถ์ ๋ฏธํก
- ํ์ฌ ๋ฒค์น๋งํฌ๋ ํ์ ์กฐ์(tabletop manipulation) ์์
์ ์ ํ๋์ด ์์ผ๋ฉฐ, ๋ ๋ณต์กํ ํ๊ฒฝ์ผ๋ก์ ํ์ฅ์ฑ ๋ฏธ์ง์
- ๋ฉํฐ๋ชจ๋ฌ ํ๋กฌํํธ ๊ธธ์ด ์ ์ฝ๊ณผ ๊ธด ์ง์์ ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ๋ํ ๋
ผ์ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ: ์ค์ ๋ก๋ด ํ๊ฒฝ์์์ ๊ฒ์ฆ, ๋ ๋ณต์กํ ๋์ ํ๊ฒฝ ์ ์ฉ, prompt ํ ํฐ ํจ์จ์ฑ ๊ฐ์ , ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ์ ๋ฉ์ปค๋์ฆ ํตํฉ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ฉํฐ๋ชจ๋ฌ ํ๋กฌํํธ๋ฅผ ํตํด ๋ค์ํ ๋ก๋ด ์กฐ์ ์์
์ ํต์ผ๋ ํ๋ ์์ํฌ๋ก ํํํ ํ๊ธฐ์ ์ ๊ทผ๋ฒ์ผ๋ก, ์ฒด๊ณ์ ์ธ ๋ฒค์น๋งํฌ์ ํจ๊ป ๋์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค. ๋ก๋ด ํ์ต์ task specification ๋ฌธ์ ์ ๋ํ ์ฐฝ์์ ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ฉฐ ๊ฐ๋ฐฉํ ์ฌํ ์๋ฃ๋ฅผ ํตํด ์ปค๋ฎค๋ํฐ ๊ธฐ์ฌ๋ ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์