Vision-Language Foundation Models as Effective Robot Imitators
์ ์: Xinghang Li, Minghuan Liu, Hanbo Zhang, Cunjun Yu, Jie Xu, Hongtao Wu, Chilam Cheang, Ya Jing, Weinan Zhang, Huaping Liu, Hang Li, Tao Kong | ๋ ์ง: 2023-11-02 | URL: https://arxiv.org/abs/2311.01378 📄 PDF
Essence
Figure 1: Comparison among RoboFlamingo and existing vision-language manipulation solutions.
RoboFlamingo๋ ๊ณต๊ฐ ์์ค VLM์ธ OpenFlamingo๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ๋ก๋ด ์กฐ์ ์ ์ฑ
์ ๊ตฌ์ถํ๋ ํ๋ ์์ํฌ๋ก, ์๊ฐ-์ธ์ด ์ดํด์ ์์ฌ๊ฒฐ์ ์ ๋ถ๋ฆฌํ๊ณ ์ต์ํ์ ๋ฏธ์ธ์กฐ์ ์ผ๋ก ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: Vision-Language Foundation Model(VLM)์ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ ์ดํด์ ๋ฐ์ด๋๊ณ , ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ LLM ๊ธฐ๋ฐ ๊ณํ ๋๋ ์ ์ฒด ๋ชจ๋ธ์ ๊ณต๋ ๋ฏธ์ธ์กฐ์ ๋ฐฉ์์ผ๋ก ๋ก๋ด ์ ์ด์ ํ์ฉํ๊ณ ์๋ค.
- Gap: ๊ธฐ์กด VLM ๊ธฐ๋ฐ ๋ก๋ด ์ ์ด ๋ฐฉ๋ฒ๋ค์ ๋์ ๊ณ์ฐ ๋น์ฉ, ๋น๊ณต๊ฐ ๋ชจ๋ธ ์์กด์ฑ, ๋๊ท๋ชจ ๋ฐ์ดํฐ ํ์๋ก ์ธํด ์ผ๋ฐ ์ฐ๊ตฌ์์ ์ ๊ทผ์ด ์ด๋ ต๋ค.
- Why: ์ ๋น์ฉ์ด๋ฉด์๋ ๋์ ์ฑ๋ฅ์ ๋ก๋ด ์กฐ์ ์ ์ฑ
์ ์ฝ๊ฒ ๊ฐ๋ฐํ ์ ์๋ ์๋ฃจ์
์ด ํ์ํ๋ฉฐ, ์ด๋ ๋น์ ๋ฌธ๊ฐ๋ ์์ ์ ๋ก๋ด ์ ์ฑ
์ ๋ฏธ์ธ์กฐ์ ํ ์ ์๋๋ก ๋ฏผ์ฃผํํ๋ค.
- Approach: RoboFlamingo๋ ์ฌ์ ํ์ต๋ VLM์ ๋จ๊ณ๋ณ ์๊ฐ-์ธ์ด ์ดํด์๋ง ํ์ฉํ๊ณ , ๋ช
์์ ์ ์ฑ
ํค๋๋ฅผ ํตํด ์์ฐจ ์ ๋ณด๋ฅผ ๋ชจ๋ธ๋งํ๋ฉฐ, ์ธ์ด ์กฐ๊ฑด๋ถ ์กฐ์ ๋ฐ์ดํฐ์
์์๋ง ๋ชจ๋ฐฉ ํ์ต์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ๋ค.
Achievement
Figure 3: Ablation studies on the ABCD โD setting.
- CALVIN ๋ฒค์น๋งํฌ ์ฑ๊ณผ: ์ด์ ์ต์ฒจ๋จ ๋ฐฉ๋ฒ ๋๋น 2๋ฐฐ์ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑ
- ํจ์จ์ฑ: ๋จ์ผ GPU ์๋ฒ์์ ํ๋ จ ๋ฐ ํ๊ฐ ๊ฐ๋ฅํ ์ ๋น์ฉ ์๋ฃจ์
- ์ ์ฐ์ฑ: ๊ฐ๋ฐฉ ๋ฃจํ ์ ์ด ๋ฐ ์ ์ฑ๋ฅ ํ๋ซํผ ๋ฐฐํฌ์ ์ ํฉํ ๊ตฌ์กฐ
- ์ผ๋ฐํ: ์ ๋ก์ท ์ค์ ๋ฐ ์๋ก์ด ํ๊ฒฝ์์์ ์ฐ์ํ ์ผ๋ฐํ ์ฑ๋ฅ
- ์ธ์ฌ์ดํธ: ๋ค์ํ ์ฌ์ ํ์ต๋ VLM์ ์กฐ์ ์์
์ฑ๋ฅ ๋น๊ต ๋ถ์
How
Figure 2: The illustration of the proposed RoboFlamingo framework. The Flamingo backbone models
- OpenFlamingo ๊ธฐ๋ฐ์ ์ฌ์ ํ์ต๋ ๋น์ ๋ฐ ์ธ์ด ์ธ์ฝ๋ ํ์ฉ
- ๊ฐ ์์ฌ๊ฒฐ์ ๋จ๊ณ์์ ๊ด์ฐฐ๊ณผ ์ง์๋ฅผ ๋
๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌ
- ๋ช
์์ ์ ์ฑ
ํค๋(MLP/RNN/Transformer)๋ก ์๊ฐ ์ํ์ค ์ ๋ณด ๋ชจ๋ธ๋ง
- ์ธ์ด ์กฐ๊ฑด๋ถ ์กฐ์ ๋ฐ์ดํฐ์
(CALVIN)์์๋ง ๋ชจ๋ฐฉ ํ์ต ์ ์ฉ
- ์ก์
์ ์์น ๋ณํ(ฮ Pos X/Y/Z), ํ์ ๋ณํ(ฮ Rot X/Y/Z), ๊ทธ๋ฆฌํผ ์ํ๋ก ๋ถํด
Originality
- VLM์ ์๊ฐ-์ธ์ด ์ดํด ๋ฅ๋ ฅ๊ณผ ๋ก๋ด ์ ์ฑ
ํ์ต์ ๋ช
ํํ ๋ถ๋ฆฌํ๋ ๊ตฌ์กฐ์ ์ฐฝ์
- ๊ธฐ์กด RT-2, PaLM-E ๋ฑ๊ณผ ๋ฌ๋ฆฌ ๊ณต๊ฐ ์์ค ๋ชจ๋ธ ๊ธฐ๋ฐ์ผ๋ก ์ ๋น์ฉ ์๋ฃจ์
์ ์
- ๋๊ท๋ชจ ์น ๋ฐ์ดํฐ ๊ณต๋ ๋ฏธ์ธ์กฐ์ ์์ด๋ ์ต์ฒจ๋จ ์ฑ๋ฅ ๋ฌ์ฑํ๋ ๋ฐฉ์์ ์ ์
- ์์ฐจ ์ ๋ณด ๋ชจ๋ธ๋ง์ ์ํ ๋ช
์์ ์ ์ฑ
ํค๋ ๋์
์ผ๋ก ๊ฐ๋ฐฉ ๋ฃจํ ์ ์ด ๊ฐ๋ฅํ๊ฒ ํจ
Limitation & Further Study
- CALVIN ๋ฒค์น๋งํฌ๋ผ๋ ์ ํ๋ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์๋ง ๊ฒ์ฆ๋์ด ์ค์ ๋ก๋ด ํ๋์จ์ด์์์ ์ฑ๋ฅ ํ์ธ ํ์
- ๊ธด ์ํ์ ์์
(long-horizon task) ์ฑ๋ฅ์ ํ๊ณ์ ๊ฐ์ ๋ฐฉ์ ๋ถ์ฌ
- ์์ดํ VLM ๋ฐฑ๋ณธ(MPT-3B-IFT, OpenFlamingo ๋ฑ) ๊ฐ ์์ธํ ๋น๊ต ๋ถ์ ๋ฏธํก
- ๋๋ฉ์ธ ์ ์(domain adaptation) ๋ฐ ์๋ฎฌ๋ ์ด์
-ํ์ค ๊ฐ๊ทน(sim-to-real gap) ํด๊ฒฐ ์ ๋ต ์ ์ ํ์
- ํฅํ ์ฐ๊ตฌ๋ก ๋ ํฐ ๊ท๋ชจ์ ๋ฐ์ดํฐ์
๊ณผ ์ค์ ๋ก๋ด ์คํ, ๋ค์ค ๋ก๋ด ํ๋ซํผ ์ ์ฉ ๊ฒํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: RoboFlamingo๋ ๊ณต๊ฐ ์์ค VLM์ ํ์ฉํ์ฌ ์ ๋น์ฉ์ด๋ฉด์๋ ๋์ ์ฑ๋ฅ์ ๋ก๋ด ์กฐ์ ์ ์ฑ
์ ๊ตฌํํ ์ ์๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, ์๊ฐ-์ธ์ด ์ดํด์ ์ ์ฑ
ํ์ต์ ๋ถ๋ฆฌ๋ผ๋ ๋ช
ํํ ์ค๊ณ ์ฒ ํ์ผ๋ก ๋ก๋ด ๊ณตํ์ ๋ฏผ์ฃผํ์ ๊ธฐ์ฌํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์