Open-vocabulary Queryable Scene Representations for Real World Planning
์ ์: Boyuan Chen, Fei Xia, Brian Ichter, Kanishka Rao, Keerthana Gopalakrishnan, Michael S. Ryoo, Austin Stone, Daniel Kappler | ๋ ์ง: 2022-09-20 | URL: https://arxiv.org/abs/2209.09874 📄 PDF
Essence
Fig. 1: NLMap + SayCan overview. We propose an open-vocabulary and
NLMap์ Visual Language Model์ ๊ธฐ๋ฐ์ผ๋ก ํ ๊ฐ๋ฐฉํ ์ดํ์ ์ฟผ๋ฆฌ ๊ฐ๋ฅํ ์ฅ๋ฉด ํํ์ ์ ์ํ์ฌ, LLM ๊ธฐ๋ฐ ๋ก๋ด ํ๋๋๊ฐ ์ค์ ํ๊ฒฝ์ ๊ฐ์ฒด๋ฅผ ์ธ์ํ๊ณ ์์น๋ฅผ ํ์
ํ ํ ๋งฅ๋ฝ-์กฐ๊ฑด๋ถ ๊ณํ์ ์๋ฆฝํ ์ ์๋๋ก ํ๋ค.
Motivation
- Known: LLM์ ์์ฐ์ด ์ง์๋ก๋ถํฐ ์์
๊ณํ ์๋ฆฝ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์์ผ๋, ๊ธฐ์กด ์ ๊ทผ๋ฒ๋ค์ ํ๊ฒฝ ๋งฅ๋ฝ์ ๋ํ ๊ทธ๋ผ์ด๋ฉ์ด ๋ถ์กฑํ๋ฉฐ ๊ณ ์ ๋ ๊ฐ์ฒด ๋ชฉ๋ก๊ณผ ์คํ ๊ฐ๋ฅํ ์ต์
์ ์ ํ๋๋ค.
- Gap: LLM ๊ธฐ๋ฐ ๋ก๋ด ํ๋๋๊ฐ ์ค์ ํ๊ฒฝ์ ๋ค์ํ ๊ฐ์ฒด๋ฅผ ๋์ ์ผ๋ก ์ธ์ํ๊ณ ์์น๋ฅผ ํ์
ํ์ฌ ๊ณํ์ ๋ฐ์ํ ์ ์๋ ๊ฐ๋ฐฉํ ์ดํ์ ์ฅ๋ฉด ํํ์ด ํ์ํ๋ค.
- Why: ๋ก๋ด์ด ๋ค์ํ ํ์ค ์์
์ ์ํํ๋ ค๋ฉด ์ธ๊ฐ์ ์์ฐ์ด ๋ช
๋ น์ ์ดํดํ๊ณ ํ๊ฒฝ ๋งฅ๋ฝ์ ๊ธฐ๋ฐ์ผ๋ก ์ฅ๊ธฐ ๊ณํ์ ์๋ฆฝํด์ผ ํ๋๋ฐ, ์ด๋ฅผ ์ํด์๋ ๊ด๋ จ ๊ฐ์ฒด๋ฅผ ๋์ ์ผ๋ก ํ์
ํ๊ณ ์์น ์ ๋ณด๋ฅผ ํ์ฉํ ์ ์๋ ๋ฅ๋ ฅ์ด ํ์์ ์ด๋ค.
- Approach: NLMap์ ํ์ฌ ๋จ๊ณ์์ CLIP๊ณผ ViLD์ ๊ฐ์ VLM์ ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ฒด์ ํน์ง์ ์ถ์ถํ๊ณ , ์์ฐ์ด ์ฟผ๋ฆฌ๋ก ์ฅ๋ฉด ํํ์ ์ง์ํ ์ ์๋ ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ค. LLM ๊ธฐ๋ฐ ๊ฐ์ฒด ์ ์ ๋ชจ๋์ด ์ง์๋ฅผ ํ์ฑํ์ฌ ๊ด๋ จ ๊ฐ์ฒด๋ฅผ ์ ์ํ๊ณ , LLM ํ๋๋๊ฐ ์ด๋ฌํ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ๊ณํ์ ์๋ฆฝํ๋ค.
Achievement
Fig. 3: Comparson of NLMap + SayCan with SayCan SayCan: With few-shot prompting, SayCan uses the scoring of a language m
- ๊ฐ๋ฐฉํ ์ดํ ์ฅ๋ฉด ํํ: CLIP๊ณผ ViLD ๊ธฐ๋ฐ์ ์์ฐ์ด ์ฟผ๋ฆฌ ๊ฐ๋ฅํ ์๋ฏธ๋ก ์ ์ฅ๋ฉด ํํ์ ์ ์ํ์ฌ ํ
์คํธ ์์ ์์ ์์์ ๊ฐ์ฒด๋ฅผ ์ฟผ๋ฆฌํ ์ ์์
- LLM ํ๋๋ ๊ทธ๋ผ์ด๋ฉ: ์ฅ๋ฉด ์ ๋ณด๋ฅผ LLM ๊ธฐ๋ฐ ํ๋๋์ ํตํฉํ์ฌ ํ๊ฒฝ ๋งฅ๋ฝ์ ๊ธฐ๋ฐ์ผ๋ก ํ ๊ณํ ์๋ฆฝ ๊ฐ๋ฅ
- ์ค์ ๋ก๋ด ์ฑ๋ฅ: ์ค์ ์ฃผ๋ฐฉ ํ๊ฒฝ์์ 55๊ฐ ์์
์ 61.8% ์ฑ๊ณต๋ฅ ๋ก ์ํํ์์ผ๋ฉฐ, ์ด ์ค 35๊ฐ ์์
์ ๊ธฐ์กด ๋ฐฉ๋ฒ์ผ๋ก๋ ๋ถ๊ฐ๋ฅํ์
How
Fig. 2: Natural Language Queryable Scene Representation. The key design of NLMap is to establish a queryable map. First,
- ํ์ฌ ๋จ๊ณ์์ ํด๋์ค-๋ฌด๊ด ์์ญ ์ ์ ๋คํธ์ํฌ๋ก ๊ด์ฌ ์์ญ(ROI) ๊ฒ์ถ
- ๊ฐ ROI์ ๋ํด CLIP๊ณผ ViLD ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ 512์ฐจ์ ํน์ง ๋ฒกํฐ ์ถ์ถ
- ํน์ง ๋ฒกํฐ, ์์น ์ขํ, ํฌ๊ธฐ ์ ๋ณด๋ก ๊ตฌ์ฑ๋ ๋งฅ๋ฝ ์์ ์์ฑ ๋ฐ ํน์ง ํฌ์ธํธ ํด๋ผ์ฐ๋ ๊ตฌ์ฑ
- ์์ฐ์ด ์ฟผ๋ฆฌ์ ์ถ์ถ๋ ํน์ง ๊ฐ์ ๋ด์ ์ ํตํด ์ด๋ฏธ์ง-ํ
์คํธ ์ ๋ ฌ ์ ์ ๊ณ์ฐ
- LLM ๊ธฐ๋ฐ ๊ฐ์ฒด ์ ์ ๋ชจ๋์ด ์์ฐ์ด ์ง์๋ฅผ ํ์ฑํ๊ณ ๊ด๋ จ ๊ฐ์ฒด ์ ์
- ์ ์๋ ๊ฐ์ฒด๋ค์ ๋ํด ์ฅ๋ฉด ํํ ์ฟผ๋ฆฌ๋ก ๊ฐ์ฒด ๊ฐ์ฉ์ฑ ๋ฐ ์์น ์ ๋ณด ํ๋
- ํ๋ํ ์ฅ๋ฉด ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก SayCan LLM ํ๋๋๊ฐ ์์ฐจ์ ๊ณํ ์๋ฆฝ
Originality
- VLM ํน์ง์ ๊ธฐ๋ฐ์ผ๋ก ํ ๊ฐ๋ฐฉํ ์ดํ์ ์์ฐ์ด ์ฟผ๋ฆฌ ๊ฐ๋ฅํ ์ฅ๋ฉด ํํ ์ค๊ณ๊ฐ ํ์ ์ ์
- LLM ๊ธฐ๋ฐ ๊ฐ์ฒด ์ ์ ๋ชจ๋์ ํตํด ์์ฐ์ด ์ง์๋ฅผ ๊ตฌ์กฐํ๋ ์ฅ๋ฉด ํํ์ ๋์ ์ผ๋ก ์ฐ๊ฒฐํ๋ ๋ฉ์ปค๋์ฆ ์ ์
- ๊ธฐ์กด์ ๊ณ ์ ๋ ๊ฐ์ฒด ๋ชฉ๋ก ๋ฐ ์ต์
์ ์ฝ์ ์ ๊ฑฐํ์ฌ ์์ ํ ์๋ก์ด ๊ฐ์ฒด ์กฐํฉ์ผ๋ก๋ ์์
๊ฐ๋ฅํ๋๋ก ํจ
- VLMap ๋ฑ ๋์๊ธฐ ์ฐ๊ตฌ์ ๋ฌ๋ฆฌ ๋ก๋ด ์กฐ์ ์์
์ค์ฌ์ ์ค์ ๋ก๋ด ์คํ ์ ์
Limitation & Further Study
- ํ์ฌ ๋จ๊ณ์ ํจ์จ์ฑ์ ๋ํ ์์ธํ ๋ถ์ ๋ถ์ฌ - ๋ชจ๋ ํ๊ฒฝ์์ ํจ๊ณผ์ ์ธ ํ์ฌ ์ ๋ต์ด ๋ช
์๋์ง ์์
- VLM ํน์ง ์ถ์ถ์ ๊ณ์ฐ ๋น์ฉ ๋ฐ ์ค์๊ฐ์ฑ์ ๋ํ ๋
ผ์ ๋ถ์กฑ
- 61.8% ์ฑ๊ณต๋ฅ ์ ์์ง ์ค์ ๋ฐฐํฌ์๋ ์ ์ฝ์ด ์์ผ๋ฉฐ, ์คํจ ์ฌ๋ก์ ๋ํ ์์ธํ ๋ถ์ ํ์
- CLIP๊ณผ ViLD์ ํน์ง๋ง ์ฌ์ฉํ๋๋ฐ, ๋ค๋ฅธ VLM ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ ๋น๊ต ๋ฐ ์์๋ธ ํจ๊ณผ ๋ถ์์ด ์ ํ์
- ํ์์ฐ๊ตฌ๋ก๋ ๋์ ํ๊ฒฝ์์์ ์ฅ๋ฉด ํํ ์
๋ฐ์ดํธ ๋ฉ์ปค๋์ฆ, ๋ ์ ๊ตํ ๊ฐ์ฒด ์ ์ ์๊ณ ๋ฆฌ์ฆ, ๊ทธ๋ฆฌ๊ณ ๊ณํ ์คํจ์ ๋ํ ์ฌํ์ต ๋๋ ์ ์ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ์ด ํ์ํจ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: NLMap์ VLM ๊ธฐ๋ฐ์ ๊ฐ๋ฐฉํ ์ดํ ์ฅ๋ฉด ํํ์ LLM ํ๋๋์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ์ฌ ๋ก๋ด์ด ๋์ ์ผ๋ก ํ๊ฒฝ ๋งฅ๋ฝ์ ์ธ์ํ๊ณ ๊ณํํ ์ ์๋๋ก ํ ํ์ ์ ์ธ ์ฐ๊ตฌ์ด๋ฉฐ, ์ค์ ๋ก๋ด ์คํ์์๋ ๊ธฐ์กด ๋ฐฉ๋ฒ์ผ๋ก ๋ถ๊ฐ๋ฅํ๋ ์์
๋ค์ ์ฑ๊ณต์ ์ผ๋ก ์ํํ์ฌ ์ค์ฉ์ ๊ฐ์น๋ฅผ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์