Robotic Skill Acquisition via Instruction Augmentation with Vision-Language Models
์ ์: Ted Xiao, Harris Chan, Pierre Sermanet, Ayzaan Wahid, Anthony Brohan, Karol Hausman, Sergey Levine, Jonathan Tompson | ๋ ์ง: 2022-11-21 | URL: https://arxiv.org/abs/2211.11736 📄 PDF
Essence
Fig. 1: DIAL consists of three steps: (1) Contrastive fine-tuning of a vision-language model (VLM) such as CLIP [39] on
Vision-Language Model (CLIP)์ ๋ฏธ์ธ์กฐ์ ํ์ฌ ์ฃผ์์ด ์๋ ๋๊ท๋ชจ ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ์
์ ์๋์ผ๋ก ์์ฐ์ด ๋ช
๋ น์ด๋ฅผ ์์ฑํ๊ณ , ์ด๋ฅผ ํตํด ์ธ์ด ์กฐ๊ฑด๋ถ ์ ์ฑ
์ ํ์ตํ๋ DIAL ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
Motivation
- Known: ์ต๊ทผ VLM (CLIP, ViLD)์ด ๋ก๋ด ์์
์ ์ ์ฉ๋์ด ํํ ํ์ต๊ณผ ์ฅ๋ฉด ๊ธฐ์ ์ ํ์ฉ๋๊ณ ์์ผ๋ฉฐ, ์ธ์ด ์กฐ๊ฑด๋ถ ๋ก๋ด ์ ์ฑ
์ ๋ณดํต ์์์
์ผ๋ก ์ฃผ์๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์ ์์กดํ๋ค.
- Gap: ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ํด ๋น์ฉ ๋ง์ด ๋๋ ์ธ๊ฐ ์ฃผ์์ด ํ์ํ๋ฐ, ๋๋ถ๋ถ์ ์ค์ ๋ก๋ด ๋ฐ์ดํฐ๋ ์ธ์ด ์ค๋ช
์ด ๋ถ์กฑํ๋ค. ์ด๋ฅผ ์๋์ผ๋ก ํด๊ฒฐํ ์ ์๋ ํ์ฅ ๊ฐ๋ฅํ ๋ฐฉ๋ฒ์ด ๋ถ์ฌํ๋ค.
- Why: ์๋ ์ฃผ์ ๋ฐฉ๋ฒ์ ๋๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ์
์ ํ์ฉ์ ๊ทน๋ํํ์ฌ ๋ผ๋ฒจ๋ง ๋น์ฉ์ ์ ๊ฐํ๊ณ , ๋ฏธ์ฃผ์ ๋ฐ์ดํฐ์์๋ ์๋ก์ด ๋ฅ๋ ฅ์ ํ์ตํ ์ ์๋๋ก ํ๋ค.
- Approach: CLIP์ ์๋์ ํฌ๋ผ์ฐ๋์์ฑ ์ฃผ์ ๋ฐ์ดํฐ๋ก ๋ฏธ์ธ์กฐ์ ํ ํ, ์ด๋ฅผ ๋๊ท๋ชจ ๋ฏธ์ฃผ์ ๋ฐ์ดํฐ์
์ ์ ์ฉํ์ฌ ์ฝํ ์ฃผ์์ ์์ฑํ๊ณ , ์์ฑ๋ ์ฃผ์ ๋ฐ์ดํฐ๋ก behavior cloning์ ํตํด ์ธ์ด ์กฐ๊ฑด๋ถ ์ ์ฑ
์ ํ์ตํ๋ค.
Achievement
Fig. 5: Given the same starting scene, DIAL follows the instructions of (a) pick can which is on the right of
- ์๋ ์ฃผ์ ์์ฑ: CLIP ๊ธฐ๋ฐ VLM์ ๋ฏธ์ธ์กฐ์ ํ์ฌ 80,000๊ฐ ์์ฐ ์ค 96.5%์ ๋ฏธ์ฃผ์ ๋ฐ์ดํฐ์ ์๋์ผ๋ก ์์ฐ์ด ๋ช
๋ น์ด ์์ฑ
- ์๋ก์ด ๋ฅ๋ ฅ ์ต๋: ์๋ณธ ๋ฐ์ดํฐ์
์ ์๋ 60๊ฐ์ ์๋ก์ด ๋ช
๋ น์ด์ ๋ํด 41% ์ด์์ ์ฑ๋ฅ ํฅ์ ๋ฌ์ฑ
- ํ์ฅ์ฑ: ๋๊ท๋ชจ ์ค์ ๋ก๋ด ํ๊ฐ 1,300ํ ์ด์์ ํตํด ๋ฐฉ๋ฒ์ ์ค์ฉ์ฑ ๊ฒ์ฆ
How
Fig. 1: DIAL consists of three steps: (1) Contrastive fine-tuning of a vision-language model (VLM) such as CLIP [39] on
- CLIP์ vision encoder์ text encoder๋ฅผ ์์ ํฌ๋ผ์ฐ๋์์ฑ ์ฃผ์ ๋ฐ์ดํฐ์
(2,800๊ฐ ์์ฐ)์ ๋ํด contrastive loss๋ก ๋ฏธ์ธ์กฐ์
- ๋ฏธ์ธ์กฐ์ ๋ VLM์ ์ด์ฉํ์ฌ ํฐ ๋ฏธ์ฃผ์ ๋ฐ์ดํฐ์
(77,200๊ฐ ์์ฐ)์ ๋ํด ๋ค์ํ ์์ฐ์ด ๋ช
๋ น์ด ์์ฑ
- ์๋ณธ ๋ฐ ์ฌ์ฃผ์๋ ๋ฐ์ดํฐ๋ฅผ ๊ฒฐํฉํ์ฌ behavior cloning์ ํตํด ์ธ์ด ์กฐ๊ฑด๋ถ ์ ์ฑ
ํ์ต
- ํ์ต๋ ์ ์ฑ
์ ์๋ณธ ๋ฐ์ดํฐ์
์ ์๋ ์๋ก์ด ๋ช
๋ น์ด์ ๋ํด ํ๊ฐ
Originality
- VLM์ ๋ณด์ ๋ชจ๋ธ์ด๋ ์์ด์ ํธ ์ํคํ
์ฒ ์ฑ๋ถ์ผ๋ก ์ฌ์ฉํ๋ ๋์ ๋ฐ์ดํฐ์
์ฃผ์ ๋๊ตฌ๋ก ํ์ฉํ๋ ์๋ก์ด ๊ด์ ์ ์
- Hindsight relabeling ๊ฐ๋
์ VLM ๊ธฐ๋ฐ ์๋ ์ฃผ์์ผ๋ก ํ์ฅํ์ฌ ์ค์ ๋ก๋ด ํ๊ฒฝ์ ์ ์ฉ
- ๋ฏธ์ธ์กฐ์ ๋ VLM์ ํตํด ์ธํฐ๋ท ๊ท๋ชจ์ ์ฌ์ ํ์ต ์ง์์ ๋ก๋ด ๋ฐ์ดํฐ์ ํจ๊ณผ์ ์ผ๋ก ์ ์ด
Limitation & Further Study
- ๋ฏธ์ธ์กฐ์ ์ ํ์ํ ์ด๊ธฐ ํฌ๋ผ์ฐ๋์์ฑ ์ฃผ์ ๋ฐ์ดํฐ (2,800๊ฐ)์ ์์ง ๋น์ฉ ์ฌ์ ํ ํ์
- VLM์ ์ค๋ฅ๊ฐ ๋์ ๋ ์ ์์ผ๋ฉฐ, ์์ฑ๋ ์ฃผ์์ ํ์ง ๊ฒ์ฆ ๋ฉ์ปค๋์ฆ ๋ถ์กฑ
- ํน์ ๋ก๋ด ํ๊ฒฝ(ํ
์ด๋ธํ ์กฐ์)์์๋ง ํ๊ฐ๋์์ผ๋ฏ๋ก ๋ค๋ฅธ ๋๋ฉ์ธ ์ ์ฉ์ฑ ๋ฏธํ์ธ
- ํ์ ์ฐ๊ตฌ: (1) ๋ ์ ์ ์ด๊ธฐ ์ฃผ์์ผ๋ก ์์ํ๋ ๋ฐฉ๋ฒ, (2) ์์ฑ๋ ์ฃผ์์ ์ ๋ขฐ๋ ํ๊ฐ ๊ธฐ๋ฒ, (3) ๋ค์ํ ๋ก๋ด ํ๋ซํผ๊ณผ ์์
์ ๋ํ ํ์ฅ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: VLM์ ๋ฐ์ดํฐ ์ฃผ์ ๋๊ตฌ๋ก ํ์ฉํ๋ ์ค์ฉ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, 1,300ํ ์ด์์ ์ค์ ๋ก๋ด ํ๊ฐ๋ฅผ ํตํด ํจ๊ณผ๋ฅผ ์
์ฆํ๋ค. ๋ก๋ด ํ์ต์ ๋น์ฉ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ ๊ฐ์น ์๋ ๊ธฐ์ฌ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์