Transferring Foundation Models for Generalizable Robotic Manipulation
์ ์: Jiange Yang, Wenhui Tan, Chuhao Jin, Keling Yao, Bei Liu, Jianlong Fu, Ruihua Song, Gangshan Wu, Limin Wang | ๋ ์ง: 2023-06-09 | URL: https://arxiv.org/abs/2306.05716 📄 PDF
Essence
Figure 2. Our model comprises four components: (1) GPT-4 reasons target objects based on human demands. (2) A multi-moda
์ธํฐ๋ท ๊ท๋ชจ์ ๊ธฐ์ด ๋ชจ๋ธ(foundation models)์์ ์์ฑ๋ ์ธ์ด-์ถ๋ก ๊ธฐ๋ฐ ๋ถํ ๋ง์คํฌ๋ฅผ ํ์ฉํ์ฌ ๋ก๋ด ์กฐ์ ์์
์ ์กฐ๊ฑดํํจ์ผ๋ก์จ ์ํ ํจ์จ์ ์ธ ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ๋ ํจ๋ฌ๋ค์์ ์ ์ํ๋ค.
Motivation
- Known: RT-1 ๊ฐ์ ๊ธฐ์กด ์ ๊ทผ๋ฒ์ ๋๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ ์์ง์ ์์กดํ์ง๋ง ๋ฐ์ดํฐ ๋ค์์ฑ ๋ถ์กฑ์ผ๋ก ์๋ก์ด ๊ฐ์ฒด์ ํ๊ฒฝ์์์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ ํ๋๋ค.
- Gap: ๊ธฐ์กด ๋ก๋ด ์กฐ์ ๋ฐฉ๋ฒ์ ๋น์ฉ์ด ๋ง์ด ๋๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ง์ด ํ์ํ๊ณ ์ถฉ๋ถํ ๋ฐ์ดํฐ ๋ค์์ฑ์ ๊ฐ์ง ๋ชปํด ๋ฏธ์ง์ ๊ฐ์ฒด์ ํ๊ฒฝ์์ ์ฑ๋ฅ ์ ํ๊ฐ ๋ฐ์ํ๋ค.
- Why: ์ค์ ํ๊ฒฝ์์ ์๋ ๊ฐ๋ฅํ ๋ฒ์ฉ ๋ก๋ด ์์ด์ ํธ๋ฅผ ๊ฐ๋ฐํ๋ ๊ฒ์ ๋ก๋ด๊ณตํ์ ์ค๋ ๊ณผ์ ์ด๋ฉฐ, ๊ธฐ์ด ๋ชจ๋ธ์ ์ง์์ ํ์ฉํ๋ฉด ๋ฐ์ดํฐ ํจ์จ์ฑ์ ํฌ๊ฒ ๊ฐ์ ํ ์ ์๋ค.
- Approach: GPT-4๋ก ์ธ์ด ๋ช
๋ น์ ํด์ํ์ฌ ๊ฐ์ฒด ํ๋กฌํํธ ์์ฑ, SAM์ ํตํด ์ธ์ด-์ถ๋ก ๋ถํ ๋ง์คํฌ ์์ฑ, ๊ทธ๋ฆฌ๊ณ ์ด ๋ง์คํฌ๋ฅผ ํ์ฉํ๋ two-stream ์ ์ฑ
๋ชจ๋ธ(TPM)์ ์ค๊ณํ์ฌ ๋ก๋ด ํ๋์ ์์ธกํ๋ค.
Achievement
Figure 1. A demonstration of our task. Receiving human instruction โI want to take a showerโ, our model can reason out t
- ๊ธฐ์ด ๋ชจ๋ธ ํ์ฉ ํจ๋ฌ๋ค์: ์ธํฐ๋ท ๊ท๋ชจ ๋น์ ๊ธฐ์ด ๋ชจ๋ธ์ ์๋ฏธ๋ก ์ , ๊ธฐํํ์ , ์๊ฐ์ ์๊ด ์ ๋ณด๋ฅผ ๋ก๋ด ์กฐ์์ ํตํฉํ๋ ์๋ก์ด ์ ๊ทผ๋ฒ์ ์ ์
- Two-stream ์ ์ฑ
๋ชจ๋ธ: ์ ์ญ RGB ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋ ๊น์ ๋ถ์ง์ ์ง์ญ ๊ฐ์ฒด ๊ด๋ จ RGB-M ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋ ์์ ๋ถ์ง๋ก ๊ตฌ์ฑ๋์ด robust 3D ์ง๊ฐ์ ์คํ
- ์ํ ํจ์จ์ ์ผ๋ฐํ: 1000๊ฐ ์์ฐ(40๊ฐ ๊ฐ์ฒด)์ผ๋ก ํ๋ จํ์ฌ ๋ฏธ์ง์ ๊ฐ์ฒด, ์๋ฏธ๋ก ์ ์นดํ
๊ณ ๋ฆฌ, ์์ํ์ง ๋ชปํ ๋ฐฐ๊ฒฝ์์ ํจ๊ณผ์ ์ผ๋ก ์ผ๋ฐํ
- ๋ค์ค ๋ก๋ด ํ๋ซํผ ๊ฒ์ฆ: Franka Emika ๋ก๋ด๊ณผ ์ ๋น์ฉ ์ด์กฑ ๋ก๋ด์์ ์ค์ฆํ์ฌ ์ฌ๋ฌ ์กฐ์ ๊ธฐ์ (drawer ์ด๊ธฐ, picking-placing, stacking ๋ฑ)์ ํ์ฅ ๊ฐ๋ฅํจ์ ์
์ฆ
How
Figure 2. Our model comprises four components: (1) GPT-4 reasons target objects based on human demands. (2) A multi-moda
- ์ธ์ด-์ถ๋ก ๋ง์คํฌ ์์ฑ: GPT-4๋ฅผ ํ์ฉํด ์์ฐ์ด ๋ช
๋ น์์ ๋ชฉํ ๊ฐ์ฒด ํ๋กฌํํธ ์ถ์ถ
- ๊ฐ์ฒด ํ์ง ๋ฐ ์ถ์ : open-vocabulary detection๊ณผ tracking ๋ชจ๋ธ๋ก ์ํ๋ ๊ฐ์ฒด ์๋ณ ๋ฐ ์์น ํ์
- ๋ถํ ๋ง์คํฌ ์์ฑ: SAM(Segment Anything Model) ๊ธฐ์ด ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๋ชฉํ ๊ฐ์ฒด์ ๊ณ ์ ๋ฐ ๋ถํ ๋ง์คํฌ ์์ฑ
- Two-stream ์ ์ฑ
๋ชจ๋ธ ์ํคํ
์ฒ: ๊น์ ๋ถ์ง(์ ์ญ RGB)์ ์์ ๋ถ์ง(์ง์ญ RGB-M)๋ก ๊ตฌ์ฑํ๊ณ attention mechanism์ผ๋ก multi-view ํน์ฑ๊ณผ ๋ก๋ด proprioception ์ํ ์ตํฉ
- Imitation learning ๊ธฐ๋ฐ ํ๋ จ: end-to-end ๋ฐฉ์์ผ๋ก ๋ง์คํฌ ์กฐ๊ฑดํ ์ ์ฑ
์ ํ์ตํ์ฌ depth ์บ๋ฆฌ๋ธ๋ ์ด์
๋ถํ์
- ํ๋ฃจํ ํ๋ ์์ธก: ์์ ์ด๋ฏธ์ง ์
๋ ฅ์ผ๋ก๋ถํฐ ์ฐ์ ๋ก๋ด ํ๋์ ๋์ ์ผ๋ก ์ถ๋ ฅํ๋ closed-loop ๋ฐฉ์ ์ฑํ
Originality
- ๊ธฐ์ด ๋ชจ๋ธ ํตํฉ์ ์๋ก์ด ๋ฐฉ์: ๊ธฐ์กด์ prompt ๊ธฐ๋ฐ ๋ถํ ๊ณผ ์ ๊ตฌ๋ฆ ๊ตฌ์ฑ ๋ฐฉ์ ๋์ , ์ ๊ตํ detection-tracking-segmentation ํ์ดํ๋ผ์ธ์ผ๋ก ๋ ์ ๋ฐํ ๊ฐ์ฒด ํํ ์ ๊ณต
- ์ธ์ด-์ถ๋ก ๋ง์คํฌ ๋ชจ๋ฌ๋ฆฌํฐ: SAM์ผ๋ก ์์ฑ๋ ๋ถํ ๋ง์คํฌ๋ฅผ ์ง์ ์ ์ฑ
์กฐ๊ฑด์ผ๋ก ํ์ฉํ์ฌ ์ธ์ด์ ๋ชจํธ์ฑ์ ์ํํ๊ณ ๊ธฐํํ์ ์ ๋ณด๋ฅผ ๋ช
์์ ์ผ๋ก ์ ๊ณต
- Local-global ์ด์ค ์ง๊ฐ ๊ตฌ์กฐ: ๋จ์ RGB ์ธ์ฝ๋ฉ์ด ์๋ ์ ์ญ-์ง์ญ ์ ๋ณด๋ฅผ ๋์์ ์ฒ๋ฆฌํ๋ two-stream ์ํคํ
์ฒ๋ก ๊ณต๊ฐ ๊ด๊ณ ์ดํด ๊ฐํ
- ์ค์ ํ๊ฒฝ์์์ scalable ์์คํ
: ๊น์ด ์ ๋ณด ๋ถํ์, ์๋ฒฝํ ๊ฐ์ฒด ๋ง์คํฌ ๋ถ์๊ตฌ, ํ๋ฃจํ ๋ฐฉ์์ผ๋ก ํ์ค์ ์ ์ฝ ๊ทน๋ณต
Limitation & Further Study
- ํ๋ จ ๋ฐ์ดํฐ ๊ท๋ชจ: 1000๊ฐ ์์ฐ์ผ๋ก ํ๋ จํ์ฌ ๋ ๋ณต์กํ ๋ค์ค ๊ฐ์ฒด ์ํธ์์ฉ์ด๋ ๋์ญํ์ ์ ์ฝ์ด ๊ฐํ ์์
์ ์ผ๋ฐํ ๋ฅ๋ ฅ ๋ฏธ๊ฒ์ฆ
- ๊ธฐ์ด ๋ชจ๋ธ ์ฑ๋ฅ ์์กด์ฑ: SAM, open-vocabulary detection ๋ฑ ๊ธฐ์ด ๋ชจ๋ธ์ ์ค๋ฅ๊ฐ ๋์ ๋์ด ์ต์ข
์ฑ๋ฅ ํ๊ณ ๋ฐ์ ๊ฐ๋ฅ
- ์์
๋ฒ์ ์ ํ: pick-and-place ๊ณ์ด ์์
์ ์ค์ ์ผ๋ก ๋ ๋ณต์กํ ์กฐ์(์ฌ์ธํ ๊ทธ๋์คํ, ํ ์ ์ด ํ์ ์์
) ๋ฏธํ๊ฐ
- ๋น๊ต ํ๊ฐ ์ ํ: RT-1 ๋ฑ ์ต์ baseline๊ณผ์ ์ง์ ์ ๋์ ๋น๊ต ๋ถ์กฑ, ์ฃผ๋ก ablation ์ค์ฌ์ ํ๊ฐ
- ํ์ ์ฐ๊ตฌ: (1) ๋ ํฐ ๊ท๋ชจ ๋ค์ํ ์ค์ ํ๊ฒฝ ๋ฐ์ดํฐ๋ก ์ผ๋ฐํ ๊ฐํ, (2) ์ ์ฑ
๋ชจ๋ธ์ ์์ฑ ๋ชจ๋ธ๋ง ํ์, (3) reinforcement learning ๊ฒฐํฉ์ผ๋ก ํ์ต ํจ์จ์ฑ ์ฆ๋
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๊ธฐ์ด ๋ชจ๋ธ์ ์ง์์ ์ฒด๊ณ์ ์ผ๋ก ๋ก๋ด ์กฐ์์ ํตํฉํ๋ ์ค์ง์ ์ธ ํจ๋ฌ๋ค์์ ์ ์ํ์์ผ๋ฉฐ, ์ธ์ด-์ถ๋ก ๋ง์คํฌ๋ผ๋ ์๋ก์ด ์กฐ๊ฑดํ ๋ชจ๋ฌ๋ฆฌํฐ์ two-stream ์ ์ฑ
๋ชจ๋ธ๋ก ์ํ ํจ์จ์ ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์