Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model
์ ์: Siyuan Huang, Zhengkai Jiang, Hao Dong, Yu Qiao, Peng Gao, Hongsheng Li | ๋ ์ง: 2023-05-18 | URL: https://arxiv.org/abs/2305.11176 📄 PDF
Essence
Figure 1:
๋ณธ ๋
ผ๋ฌธ์ Large Language Model(LLM)์ ํ์ฉํ์ฌ ์์ฐ์ธ์ด ๋ฐ ์๊ฐ์ ์ง์์ฌํญ์ ๋ก๋ด ์กฐ์ ์์
์ ์์ฐจ์ ํ๋์ผ๋ก ๋งคํํ๋ Instruct2Act ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. SAM๊ณผ CLIP ๊ฐ์ ๊ธฐ์ด ๋ชจ๋ธ๋ค์ API๋ก ํ์ฉํ์ฌ ์ธ์, ๊ณํ, ํ๋ ๋ฃจํ๋ฅผ ๊ตฌํํ๋ Python ํ๋ก๊ทธ๋จ์ ์์ฑํ๋ค.
Motivation
- Known: LLM(GPT-3, ChatGPT, LLaMA ๋ฑ)์ ๋ฐ์ด๋ ์์ฐ์ธ์ด ์ดํด ๋ฐ ์ ๋ก์ท ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ ํ๊ณ ์๋ค. Visual ChatGPT, VISPROG ๋ฑ์ ์ ํ ์ฐ๊ตฌ๋ค์ LLM๊ณผ ์๊ฐ ๊ธฐ์ด ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ ๋ณต์กํ ์๊ฐ ์์
์ ํด๊ฒฐํด์๋ค.
- Gap: ๊ธฐ์กด CaP์ ๊ฐ์ ๋ฐฉ์๋ค์ ์ง์ ์ ์ฑ
์ฝ๋๋ฅผ ์์ฑํ์ฌ ๋์ ์ ๋ฐ๋ ์๊ตฌ๋ก ์ธํด ๋ณต์กํ ์ง์์ฌํญ ํด์์ ์ด๋ ค์์ ๊ฒช๋๋ค. ๋ค์ํ ์์์ ์ง์์ฌํญ์ ํตํฉ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ฉด์ ๋์ ์ ํ๋๋ฅผ ์ ์งํ ์ ์๋ ๋ก๋ด ์์คํ
์ด ๋ถ์กฑํ๋ค.
- Why: ์ผ๋ฐ์ ๋ชฉ์ ์ ๋ก๋ด ์์คํ
์ ์ง๊ฐ, ๊ณํ, ์ ์ด๋ฅผ ํตํฉํด์ผ ํ๋ฉฐ, ์ด๋ฅผ ์ํด ๊ธฐ์ด ๋ชจ๋ธ์ ๊ฐ๋ ฅํ ๋ฅ๋ ฅ๊ณผ ๋ก๋ด์ ์ ๋ฐํ ์ ์ด ๋ฅ๋ ฅ์ ๊ฒฐํฉํ๋ ๊ฒ์ด ์ค์ํ๋ค. ๋ค์ํ ์
๋ ฅ ์์์ ์ง์ํ๋ ์ ์ฐํ ์์คํ
์ ๋ก๋ด์ ์ค์ฉ์ฑ๊ณผ ์ ์ฉ ๋ฒ์๋ฅผ ํฌ๊ฒ ํ๋ํ ์ ์๋ค.
- Approach: LLM์ ์ธ์ปจํ
์คํธ ํ์ต ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ๋ฉํฐ๋ชจ๋ฌ ์ง์์ฌํญ์ผ๋ก๋ถํฐ ์ค๊ฐ ์์ค์ ์์ฌ๊ฒฐ์ ํ๋์ ์์ฑํ๋ค. SAM์ผ๋ก ๊ฐ์ฒด ์์น๋ฅผ ํ์
ํ๊ณ CLIP์ผ๋ก ๋ถ๋ฅํ ํ, ์ด ์ ๋ณด๋ฅผ ๋ก๋ด ์คํฌ๊ณผ ๊ฒฐํฉํ์ฌ LLM์ด ๊ฒฐ์ -ํ๋ ์ฝ๋๋ฅผ ์์ฑํ๋๋ก ํ๋ค.
Achievement
Figure 4: Evaluation task suite. We select six tabletop manipulation meta tasks to evaluate the pro-
- ์ผ๋ฐ์ ๋ชฉ์ ์ ๋ก๋ด ์์คํ
: LLM๊ณผ ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ์ด ๋ชจ๋ธ์ ํ์ฉํ ์ ์ฐํ ๋ก๋ด ์์คํ
๊ตฌ์ถ์ผ๋ก ์์ฐ์ธ์ด ๋ฐ ์๊ฐ์ ์ง์์ฌํญ์ ๋ชจ๋ ์ฒ๋ฆฌ ๊ฐ๋ฅ
- ์ ๋ก์ท ์ฑ๋ฅ ์ฐ์์ฑ: ํ์ต ๊ธฐ๋ฐ์ ์ต์ ์ ์ฑ
๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉด์๋ ๋ฏธ์ธ ์กฐ์ (fine-tuning) ์์ด ๋์
- ๋ฎ์ ์ ์ ์ค๋ฒํค๋: ๊ธฐ์ด ๋ชจ๋ธ ์ ์ ๋น์ฉ์ด ๋ฏธ๋ฏธํ์ฌ ์ฒ์๋ถํฐ ํ์ตํ๋ ๋ฐฉ์ ๋๋น ํจ์จ์ฑ ์ฐ์
- ๋ค์ํ ์์
์์ญ ๊ฒ์ฆ: ๋จ์ ๊ฐ์ฒด ์กฐ์, ์๊ฐ์ ๋ชฉํ ๋๋ฌ, ์๊ฐ์ ์ถ๋ก ๋ฑ ์ฌ๋ฌ ๋๋ฉ์ธ๊ณผ ์๋๋ฆฌ์ค์์ VIMABench์ 6๊ฐ ๋ฉํ-์์
์ผ๋ก ๊ฒ์ฆ
How
Figure 2: The paradigm of our proposed Instruct2Act framework. Starting with the task instruc-
- ์ธ์ ๋จ๊ณ: SAM API๋ฅผ ํตํด ์ด๋ฏธ์ง ๋ถํ ๋ก ํ๋ณด ๊ฐ์ฒด ํ์ง, CLIP์ ์ด์ฉํ ๊ฐ์ฒด ๋ถ๋ฅ
- ๊ณํ ๋จ๊ณ: LLM์ด ์ธ์ ๊ฒฐ๊ณผ์ ๋ก๋ด ์คํฌ(GetObsImage, PickPlace, RearrangeActions ๋ฑ)์ ํ์ฉํ Python ํ๋ก๊ทธ๋จ ์์ฑ
- ํ๋ ๋จ๊ณ: ์์ฑ๋ ํ๋ก๊ทธ๋จ์ ์คํ์ผ๋ก ๋ก๋ด ์กฐ์(RobotExecution, SpeedSet ๋ฑ) ์ํ
- ๋ฉํฐ๋ชจ๋ฌ ์ง์์ฌํญ ์ฒ๋ฆฌ: ๋จ์ผ ๋ชจ๋ฌ ๋ฐ ๋ฉํฐ ๋ชจ๋ฌ ์ง์์ฌํญ ๊ฒ์ ์ํคํ
์ฒ๋ฅผ ํตํด ๋ค์ํ ์
๋ ฅ ์ ํ ์ฒ๋ฆฌ
- ๋ชจ๋์ ๊ณ์ธต ๊ตฌ์กฐ: ํต์ฌ ๋ชจ๋, ๋ก๋ด API, ์ง๊ฐ/ํ๋ ๋ชจ๋์ ๊ณ์ธต์ ์ผ๋ก ์ ์ํ์ฌ ํ์ฅ์ฑ ์ ๊ณต
Originality
- LLM์ ํ๋ก๊ทธ๋จ ์์ฑ ๋ฅ๋ ฅ๊ณผ ๊ธฐ์ด ๋ชจ๋ธ๋ค(SAM, CLIP)์ API ๊ธฐ๋ฐ์ผ๋ก ๊ฒฐํฉํ๋ ์๋ก์ด ์ํคํ
์ฒ ์ ์
- ์ง์ ์ ์ฑ
์ฝ๋ ์์ฑ์ด ์๋ ์ค๊ฐ ์์ค์ ์์ฌ๊ฒฐ์ ํ๋ ์์ฑ์ผ๋ก ์ค๋ฅ์จ ๊ฐ์ ๋ฌ์ฑ
- ์์ฐ์ธ์ด, ์ด๋ฏธ์ง, ์ฌ๋ณผ ๋ฑ ๋ค์ํ ์์์ ๋ฉํฐ๋ชจ๋ฌ ์ง์์ฌํญ์ ํต์ผ๋ ํ๋ ์์ํฌ๋ก ์ฒ๋ฆฌ
- ๊ธฐ์ด ๋ชจ๋ธ๋ค์ ๋ฏธ์ธ ์กฐ์ ์์ด ์ฝ๊ธฐ ์ ์ฉ(frozen) ๋ฐฉ์์ผ๋ก ํ์ฉํ์ฌ ๋น์ฉ ํจ์จ์ฑ ํ๋ณด
Limitation & Further Study
- ํ
์ด๋ธํ ์กฐ์ ๋๋ฉ์ธ์ ์ ํ๋์ด ์์ผ๋ฉฐ, ๋ ๋ณต์กํ 3D ํ๊ฒฝ์ด๋ ๋ค๋ฅธ ๋ก๋ด ํ๋ซํผ์์ ์ผ๋ฐํ ๊ฒ์ฆ ํ์
- LLM์ ์ฑ๋ฅ์ด ๋ชจ๋ธ ์ ํ์ ์์กดํ๋ฉฐ, ํ๋กฌํํธ ์ค๊ณ ๋ฐ API ์ ์๊ฐ ์ฑ๊ณต ์ฌ๋ถ์ ํฐ ์ํฅ์ ๋ฏธ์นจ
- ์๊ฐ์ ํผ๋์ด๋ ๊ธฐ์ด ๋ชจ๋ธ์ ์ค๋ฅ๊ฐ ๋์ ๋ ์ ์๋ ๊ตฌ์กฐ๋ก, ์ค๋ฅ ์ ํ(error cascading) ๋ฉ์ปค๋์ฆ ๋ถ์ ๋ถ์กฑ
- ์ค์๊ฐ ํผ๋๋ฐฑ ๋ฃจํ์ ์คํจ ๋ณต๊ตฌ ๋ฉ์ปค๋์ฆ์ ๋ํ ์์ธํ ๋
ผ์ ํ์
- ์ ๋์ ์ฑ๋ฅ ๋น๊ต์์ ๊ธฐ์กด ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค๊ณผ์ ๋ ๊ด๋ฒ์ํ ๋น๊ต ์คํ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM๊ณผ ์๊ฐ ๊ธฐ์ด ๋ชจ๋ธ์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ ๋ฉํฐ๋ชจ๋ฌ ์ง์์ฌํญ์ ๋ก๋ด ํ๋์ผ๋ก ๋งคํํ๋ ์ค์ฉ์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ํ์ต ์๋ ์ ๋ก์ท ๋ฐฉ์์ผ๋ก ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค๋ ์ ์์ ์์๊ฐ ์๋ค. ๋ค๋ง ํ๊ฐ ๋ฒ์๊ฐ ์ ํ์ ์ด๊ณ ์ค๋ฅ ์ ํ ๋ฉ์ปค๋์ฆ์ ๋ํ ๋ถ์์ด ๋ณด์๋์ด์ผ ํ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์