Open-World Object Manipulation using Pre-trained Vision-Language Models
๐ง Audio Overview ์์ฑ
์ ์ : Austin Stone, Ted Xiao, Yao Lu, Keerthana Gopalakrishnan, Kuang-Huei Lee, Quan Vuong, Paul Wohlhart, Sean Kirmani, Brianna Zitkovich, Fei Xia, Chelsea Finn, Karol Hausman | ๋ ์ง : 2023-03-02 | URL : https://arxiv.org/abs/2303.00905 📄 PDF
Essence
Figure 1: Overview of MOO. We train a language-conditioned policy conditioned on object locations from a
Pre-trained vision-language model(VLM)์ ๋ก๋ด ์ ์ฑ
๊ณผ ์ธํฐํ์ด์ฑํ์ฌ ๋ก๋ด์ด ์ง์ ๊ฒฝํํ์ง ๋ชปํ ์๋ก์ด ๋ฌผ์ฒด ์นดํ
๊ณ ๋ฆฌ์ ๋ํ ์ง์๋ฅผ ๋ฐ๋ฅผ ์ ์๋๋ก ํ๋ MOO(Manipulation of Open-World Objects) ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
Motivation
Known : ๋ก๋ด์ ์ฒซ ๊ฒฝํ ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ค์ํ ํ๋์ ํ์ตํ ์ ์์ง๋ง, ์ธ๊ฐ์ ํ๋ถํ ์๋ฏธ๋ก ์ ์ดํ๋ฅผ ๋ชจ๋ ๋ค๋ฃจ๊ธฐ๋ ๋ถ๊ฐ๋ฅํ๋ค. VLM๊ณผ ๊ฐ์ pre-trained ๋ชจ๋ธ์ ์ธํฐ๋ท์ ๋ฐฉ๋ํ ์ ์ ๋ฐ์ดํฐ์์ ํ๋ถํ ์๋ฏธ๋ก ์ ์ ๋ณด๋ฅผ ์บก์ฒํ๋ค.
Gap : ๊ธฐ์กด pipelined ์ ๊ทผ๋ฒ์ ๋ค์ํ ๋ฌผ์ฒด ์นดํ
๊ณ ๋ฆฌ์ ์ผ๋ฐํํ ์ ์์ง๋ง ๋ถ์์ ํ๊ณ , vanilla pre-training์ ์ฌ์ฉํ ์ ์ฑ
์ ์์ ์ ์ด์ง๋ง ๋ฏธ๊ฒฝํ ์๋ฏธ๋ก ์ ๊ฐ๋
์ผ๋ก ์ผ๋ฐํํ์ง ๋ชปํ๋ค.
Why : ๋ก๋ด์ด ์ธ๊ฐ์ ์์ฐ์ด ์ง์๋ฅผ ๋ฐ๋ฅด๋ ค๋ฉด ๋ณด์ง ๋ชปํ ๋ฌผ์ฒด๋ฅผ ์ดํดํ๊ณ ์กฐ์ํ ์ ์์ด์ผ ํ๋ฉฐ, ์ด๋ ์๋ฏธ๋ก ์ ์ ์ง(semantic grounding)์ ์ค์ ์ ์ด์ ๊ฒฐํฉ์ ํตํด ์คํ๋ ์ ์๋ค.
Approach : Frozen VLM์ ์ฌ์ฉํ์ฌ ์ธ์ด ์ง์์์ ๋ฌผ์ฒด๋ฅผ ์ง์ญํํ๊ณ , ์ด ๋ฌผ์ฒด ์์น ์ ๋ณด์ ์ด๋ฏธ์ง, ์ง์๋ฅผ ๊ฒฐํฉํ์ฌ ์กฐ์ ์ ์ฑ
์ ์กฐ๊ฑดํํจ์ผ๋ก์จ end-to-end ํ์ต ์ ์ฑ
์ด ์๋ฏธ๋ก ์ ์ ๋ณด๋ฅผ ํ์ฉํ๋๋ก ํ๋ค.
Achievement
Figure 5: Main Results. While baseline methods perform competitively on in-distribution combinations of
Zero-shot ์ผ๋ฐํ : ํ๋ จ์์ ๋ณธ 106๊ฐ ๋ฌผ์ฒด๋ฅผ ๋์ด ๋ค์ํ ๋ฏธ๊ฒฝํ ๋ฌผ์ฒด ์นดํ
๊ณ ๋ฆฌ์ ํ๊ฒฝ์ ๊ฑธ์ณ zero-shot ์ผ๋ฐํ ๋ฌ์ฑ
์ค์ ๋ก๋ด ํ๊ฐ : ์ค์ ๋ชจ๋ฐ์ผ ์กฐ์๊ธฐ์์ 1,472๋ฒ์ ํ๊ฐ๋ฅผ ํตํด ์ต๊ทผ ๋ก๋ด ํ์ต ๋ฐฉ๋ฒ์ ์ ์๋ฏธํ๊ฒ ์ด๊ณผ
๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ ์ง์ : ์์ฐ์ด๋ฟ ์๋๋ผ ์๊ฐ๋ฝ ํฌ์ธํ
, ์ฐธ์กฐ ์ด๋ฏธ์ง, GUI ๋ฑ ๋ค์ํ ์
๋ ฅ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ํ์ฅ ๊ฐ๋ฅ
๋ชจ๋ฐ์ผ ์กฐ์ ํตํฉ : Clip-on-Wheels(CoW)์ ํตํฉํ์ฌ ๋ฏธ๊ฒฝํ ๋ฌผ์ฒด์ ๋ํ ๋ชจ๋ฐ์ผ ์กฐ์ ์์
์์ฑ ๊ฐ๋ฅ
How
Figure 2: MOO architecture: We extract object location (represented as the center of the bounding box) on
OWL-ViT๋ฅผ ์ฌ์ฉํ ๊ฐ๋ฐฉํ ์ดํ ๋ฌผ์ฒด ๊ฒ์ถ๋ก ์ธ์ด ์ง์์ ๋ฌผ์ฒด๋ช
์ถ์ถ ๋ฐ 2D ์ขํ ์ง์ญํ
์ง์ญํ๋ ๋ฌผ์ฒด์ 2D ์ค์ฌ ์ขํ๋ฅผ ์ ์ฑ
์
๋ ฅ์ผ๋ก ํฌํจ์์ผ ๋ช
์์ ๋ฌผ์ฒด-์ง์ ์ฐ๊ฒฐ
106๊ฐ ํ๋ จ ๋ฌผ์ฒด์ 59,000๊ฐ ๋ฐ๋ชจ๋ก ์ธ์ด-์กฐ๊ฑด ์ ์ฑ
ํ์ต
Frozen VLM๊ณผ ํ๋ จ๋ ์ ์ฑ
์ ๊ฒฐํฉ์ผ๋ก ๊ตฌ์ฑ๋ end-to-end ์์คํ
์ผ๋ก ํ์ดํ๋ผ์ธ brittleness ํํผ
๋ค์ํ ์
๋ ฅ ๋ชจ๋ฌ๋ฆฌํฐ(ํฌ์ธํ
, ์ฐธ์กฐ ์ด๋ฏธ์ง)์์ ๋ฌผ์ฒด ์์น ์ถ์ถ์ ์ํ VLM ํ์ฉ
Originality
Vision-language model๊ณผ ๋ก๋ด ์ ์ฑ
์ ์๋ก์ด ๊ฒฐํฉ ๋ฐฉ์์ผ๋ก, VLM์ ์ ํํ ์ํ ์ถ์ ์ด ์๋ ๋ฌผ์ฒด ์ง์ญํ ๋ชฉ์ ์ผ๋ก๋ง ์ฌ์ฉ
Frozen VLM๊ณผ ํจ๊ป ํ๋ จ๋ ์ ์ฑ
์ผ๋ก brittleness ๋ฌธ์ ํด๊ฒฐ
๋จ์ํ 2D ์ขํ ๊ธฐ๋ฐ ํํ์ ํตํด ํ์ฅ์ฑ๊ณผ ์์ ์ฑ์ ๋์์ ๋ฌ์ฑ
์์ฐ์ด ์ด์์ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ(ํฌ์ธํ
, ์ด๋ฏธ์ง, GUI)๋ก์ ์ผ๋ฐํ ์์ฐ
Limitation & Further Study
VLM์ ๋ฌผ์ฒด ๊ฒ์ถ ์ ํ๋์ ์์กดํ๋ฏ๋ก VLM์ด ์คํจํ๋ฉด ์ ์ฑ
๋ ์คํจ ๊ฐ๋ฅ
์คํ์ ๋จ์ผ ๋ก๋ด ํ๋ซํผ(๋ชจ๋ฐ์ผ ์กฐ์๊ธฐ)์์๋ง ์ํ๋์ด ๋ค๋ฅธ ๋ก๋ด์ ๋ํ ์ผ๋ฐํ๋ ๋ฏธํ์ธ
ํ๋ จ ๋ฐ์ดํฐ๋ ์ฌ์ ํ 106๊ฐ ๋ฌผ์ฒด๋ก ์ ํ๋์ด ์์ผ๋ฉฐ, ๋ ๋ค์ํ ๋ฌผ์ฒด์ ์์
์ ๋ํ ํ๊ฐ ํ์
๋ณต์กํ ๊ณต๊ฐ ์ถ๋ก ์ด๋ ๋ค์ค ๋ฌผ์ฒด ์ํธ์์ฉ์ด ํ์ํ ์์
์ ๋ํ ์ฑ๋ฅ์ ๋ฏธํ๊ฐ
ํ์์ฐ๊ตฌ: VLM ์ฑ๋ฅ ํฅ์, ๋ค์ํ ๋ก๋ด ํ๋ซํผ ์ ์ฉ, 3D ์ ๋ณด ํ์ฉ, ๋์ ํ๊ฒฝ ์ ์ ๋ฑ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : ๋ณธ ๋
ผ๋ฌธ์ pre-trained VLM์ ๋ก๋ด ์กฐ์์ ์ค์ง์ ์ผ๋ก ํตํฉํ์ฌ ์๋ฏธ๋ก ์ ์ผ๋ฐํ๋ฅผ ๋ฌ์ฑํ ์ค์ํ ๊ธฐ์ฌ์ด๋ฉฐ, ์ค์ ๋ก๋ด ์คํ๊ณผ ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ ํ์ฅ์ ํตํด ์ค์ฉ์ฑ์ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com