DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution
์ ์: Yang Yue, Yulin Wang, Bingyi Kang, Yizeng Han, Shenzhi Wang, Shiji Song, Jiashi Feng, Gao Huang | ๋ ์ง: 2024-11-04 | URL: https://arxiv.org/abs/2411.02359 📄 PDF
Essence
Figure 1: Left: Dynamic inference of DeeR. For inference, we adaptively activate an appropriate size of MLLM
DeeR-VLA๋ ๋ฉํฐ๋ชจ๋ฌ ๋ํ ์ธ์ด ๋ชจ๋ธ(MLLM)์ ๋์ ์กฐ๊ธฐ ์ข
๋ฃ ํ๋ ์์ํฌ๋ก, ๋ก๋ด์ ๊ฐ ์ํฉ์ ๋ฐ๋ผ ํ์ฑํ๋๋ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์๋์ผ๋ก ์กฐ์ ํ์ฌ ๊ณ์ฐ ํจ์จ์ฑ์ 5.2-6.5๋ฐฐ ํฅ์์ํต๋๋ค.
Motivation
- Known: MLLMs์ ๋ณต์กํ ์๊ฐ-์ธ์ด ์ดํด ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ RT-2์ RoboFlamingo ๊ฐ์ end-to-end ๋ก๋ด ์ ์ด ์์คํ
์ด ์ ์๋์์ผ๋, ์์ญ์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ก ์ธํ ๋์ ๊ณ์ฐ ๋น์ฉ๊ณผ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ๊ฐ ์ค์ ๋ก๋ด ๋ฐฐํฌ์ ๋ณ๋ชฉ์ด ๋ฉ๋๋ค.
- Gap: ๋ก๋ด ์ ์ด ์๋๋ฆฌ์ค์ ๋๋ถ๋ถ์ ๊ฐ๋จํ ์ํฉ์ด๋ผ๋ ๊ด์ฐฐ์๋ ๋ถ๊ตฌํ๊ณ , ๊ธฐ์กด MLLM ๊ธฐ๋ฐ ๋ก๋ด ์ ์ด๋ ๋ชจ๋ ์ํฉ์์ ์ ์ฒด ๋ชจ๋ธ์ ํ์ฑํํ์ฌ ๊ณ์ฐ ์์์ ๋ญ๋นํฉ๋๋ค. ์ํฉ์ ๋ณต์ก๋์ ๋ฐ๋ผ ๋์ ์ผ๋ก ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์ด ๋ถ์ฌํฉ๋๋ค.
- Why: ๋ก๋ด ํ๋ซํผ์ ์ ํ๋ ๊ณ์ฐ ๋ฅ๋ ฅ, ๋ฉ๋ชจ๋ฆฌ, ๋ฐฐํฐ๋ฆฌ ์ฉ๋์ ๊ฐ์ง๋ฉด์๋ ์ค์๊ฐ ์๋ต์ด ํ์ํ๊ธฐ ๋๋ฌธ์, MLLM์ ํจ์จ์ ์ธ ๋ฐฐํฌ๋ ์ค์ ๊ตฌํ ๊ฐ๋ฅํ ๋ก๋ด ์์คํ
๊ฐ๋ฐ์ ํ์์ ์
๋๋ค.
- Approach: DeeR๋ multi-exit ์ํคํ
์ฒ๋ฅผ ๊ฐ์ถ MLLM์ ํ์ฉํ์ฌ ๊ฐ ์์ ์์ ์ ์ ํ ๊น์ด์ ๊ณ์ธต๋ง ํ์ฑํํ๊ณ , ํ๊ท ๊ณ์ฐ ๋น์ฉ, ํผํฌ ๊ณ์ฐ ๋น์ฉ, GPU ๋ฉ๋ชจ๋ฆฌ ๋ฑ์ ์ ์ฝ ์กฐ๊ฑด์ ๋ฐ๋ฅธ ์กฐ๊ธฐ ์ข
๋ฃ ๊ธฐ์ค์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ ์ํฉ๋๋ค.
Achievement
Figure 3: Results atop OpenFlamingo 3B. Upper: Avg. successful len v.s. avg. LLM GFLOPs. Bottom:
- ๊ณ์ฐ ํจ์จ์ฑ ํฅ์: CALVIN ๋ฒค์น๋งํฌ์์ LLM ๊ณ์ฐ ๋น์ฉ 5.2-6.5๋ฐฐ ๊ฐ์ ๋ฌ์ฑ
- ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ: GPU ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋ 2-6๋ฐฐ ๊ฐ์๋ก 2GB ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ ํ์์๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ ์ ์ง
- ์ฑ๋ฅ ์ ์ง: ๊ณ์ฐ ๋น์ฉ ๊ฐ์์๋ ๋ถ๊ตฌํ๊ณ ์๋ณธ ๋ชจ๋ธ๊ณผ ๋๋ฑํ ์์
์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ์จ๋ผ์ธ ์กฐ์ ๊ฐ๋ฅ์ฑ: ๊ณ ์ ๋ ๋ฉ์ธ ๋ชจ๋ธ ์์์ ์ข
๋ฃ ๊ธฐ์ค๋ง ์์ ํ์ฌ ๊ณ์ฐ ๋น์ฉ์ ๋์ ์ผ๋ก ์กฐ์ ๊ฐ๋ฅ
How
Figure 2: Multi-exit MLLM architecture for robot.
- Multi-exit ์ํคํ
์ฒ: MLLM์ ์ค๊ฐ ๊ณ์ธต๋ค์ ์ถ๋ ฅ ํค๋๋ฅผ ์ถ๊ฐํ์ฌ ์กฐ๊ธฐ ์ข
๋ฃ ๊ฐ๋ฅํ๊ฒ ๊ตฌ์กฐํ
- Action consistency ๊ธฐ๋ฐ ์ข
๋ฃ ์งํ: Softmax ์ถ๋ ฅ์ด ์๋ action ์์ฑ ์์
์ ์ ํฉํ ์๋ก์ด ์ข
๋ฃ ํ์ ๋ฉํธ๋ฆญ ๊ฐ๋ฐ
- ์ ์ฝ ์กฐ๊ฑด ๊ธฐ๋ฐ ์ข
๋ฃ ๊ธฐ์ค ๋์ถ: ํ๊ท ๊ณ์ฐ ๋น์ฉ(์ ๋ ฅ ์๋น), ํผํฌ ๊ณ์ฐ ๋น์ฉ(๋ ์ดํด์), GPU ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋ ๋ฑ ๋ค์ํ ์ ์ฝ์ ๋ฐ๋ฅธ ์๊ณ๊ฐ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ
- ์๊ฐ ์ ๋ณด ํตํฉ ํ์ต: Temporal information์ multi-exit ์ํคํ
์ฒ์ ํตํฉํ์ฌ ๋ก๋ด ์ ์ด๋ฅผ ์ํ ์์ฐจ์ ์์ฌ๊ฒฐ์ ๊ฐ์
- ์จ๋ผ์ธ ํ๊ฒฝ ์ํธ์์ฉ์ ํตํ ๋งค๊ฐ๋ณ์ํ: ์ค์ ๋ก๋ด ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ํตํด ์ข
๋ฃ ๊ธฐ์ค ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฒฐ์
Originality
- ๊ธฐ์กด ์ด๋ฏธ์ง ๋ถ๋ฅ๋ NLP์ early exit ๋ฐฉ๋ฒ๊ณผ ๋ฌ๋ฆฌ, action ์์ฑ์ ์ํ multi-exit MLLM ์ค๊ณ๋ก ์๋ก์ด ๋๋ฉ์ธ ์ ์ฉ
- Softmax confidence๋ entropy ๋์ action consistency๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์ข
๋ฃ ๋ฉํธ๋ฆญ ์ ์ (๊ธฐ์กด ๋ฉํธ๋ฆญ์ด action ์ถ๋ ฅ์๋ ๋ถ์ ํฉ)
- ์จ๋ผ์ธ ํ๊ฒฝ ์ํธ์์ฉ์ ํตํด ์ข
๋ฃ ๊ธฐ์ค์ ๋์ถํ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ์ด์ early-exit ์ฐ๊ตฌ์์ ํ์๋์ง ์์ ์๋ก์ด ์ ๋ต ์ ์
- Temporal information์ multi-exit ๊ตฌ์กฐ์ ํตํฉํ๋ ๋ง์ถคํ ํ์ต ๋ฐฉ๋ฒ ๊ฐ๋ฐ
Limitation & Further Study
- CALVIN ๋ฒค์น๋งํฌ์์๋ง ํ๊ฐ๋์ด ๋ค์ํ ๋ก๋ด ์์
๋๋ฉ์ธ์์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
- Multi-exit ์ํคํ
์ฒ์ ์ถ๊ฐ ํ์ต ๋น์ฉ๊ณผ ๋ฉ์ธ ๋ชจ๋ธ ๋๋น ์ ํ๋ ์ ํ ๋ถ์ ๋ถ์ฌ
- Action consistency ๋ฉํธ๋ฆญ์ด ์ํฉ์ ์ค์ ๋ณต์ก๋๋ฅผ ์๋ฒฝํ ๋ฐ์ํ๋์ง์ ๋ํ ๊ฒ์ฆ ๋ถ์กฑ
- ์ค์ ๋ก๋ด ํ๋์จ์ด(CPU, ์ฃ์ง ๋๋ฐ์ด์ค)์์์ ๋ฐฐํฌ ๊ฒ์ฆ์ด GPU ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ์
- ํ์ ์ฐ๊ตฌ: ๋ค์ํ ๋ก๋ด ํ๋ซํผ๊ณผ ์์
๋๋ฉ์ธ์ผ๋ก ํ์ฅ, ์ข
๋ฃ ์งํ์ ์ด๋ก ์ ๊ธฐ์ด ๊ฐํ, ์ค์ ํ๋์จ์ด ๋ฐฐํฌ ๊ฒ์ฆ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: DeeR-VLA๋ ๋ก๋ด ์ ์ด๋ฅผ ์ํ MLLM ํจ์จํ์์ ์ค์ง์ ์ด๊ณ ํ์ ์ ์ธ ์ ๊ทผ์ ์ ์ํ๋ฉฐ, 5๋ฐฐ ์ด์์ ๊ณ์ฐ ๋น์ฉ ๊ฐ์๋ฅผ ๋ฌ์ฑํ๋ฉด์๋ ์ฑ๋ฅ์ ์ ์งํ๋ ๊ธฐ์ ์ ์ฑ๊ณผ๋ ์ค์ ๋ก๋ด ๋ฐฐํฌ ๊ฐ๋ฅ์ฑ์ ํฌ๊ฒ ํฅ์์ํต๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์