Scaling Robot Learning with Semantically Imagined Experience
๐ง Audio Overview ์์ฑ
์ ์ : Tianhe Yu, Ted Xiao, Austin Stone, Jonathan Tompson, Anthony Brohan, Su Wang, Jaspiar Singh, Clayton Tan, Dee M, Jodilyn Peralta, Brian Ichter, Karol Hausman, Fei Xia | ๋ ์ง : 2023-02-22 | URL : https://arxiv.org/abs/2302.11550 📄 PDF
Essence
Figure 1: We propose using text-guided diffusion models for data augmentation within the sphere
ROSIE๋ text-to-image diffusion ๋ชจ๋ธ์ ์ด์ฉํ inpainting์ ํตํด ๊ธฐ์กด ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ๋ฅผ ์๋ฏธ๋ก ์ ์ผ๋ก ์ฆ๊ฐํ์ฌ, ์๋ก์ด ๋ฌผ์ฒด์ ํ๊ฒฝ์ ๋ํ ๋ก๋ด์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
Motivation
Known : ๋ก๋ด ํ์ต์ ์ฑ๋ฅ ํฅ์์ ๋๊ท๋ชจ ๋ค์ํ ๋ฐ์ดํฐ์ ์์กดํ์ง๋ง, ์ค์ ๋ก๋ด ๋ฐ์ดํฐ ์์ง์ ์ธ์ ๊ฐ์
์ด๋ ๋ณต์กํ ์๋ํ ์ฒด๊ณ๋ฅผ ํ์๋ก ํ๋ฏ๋ก ํ์ฅ์ด ์ด๋ ต๋ค. ์ต๊ทผ DALL-E 2, Imagen, StableDiffusion ๊ฐ์ text-to-image diffusion ๋ชจ๋ธ๋ค์ด ๊ณ ํ์ง์ ํฉ์ฑ ์ด๋ฏธ์ง ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Gap : ๊ธฐ์กด ๋๋ฉ์ธ ๋๋คํ๋ ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ๋ฐ์ดํฐ ์ฆ๊ฐ ๋ฐฉ์์ ๋ก๋ด ์์
์ ์๋ฏธ๋ก ์ ๋ค์์ฑ์ ์ถฉ๋ถํ ์ ๊ณตํ์ง ๋ชปํ๋ค. Internet-scale ํ์ต๋ ์์ฑ ๋ชจ๋ธ์ ์ง์์ ๋ก๋ด ๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ง์ ์ ์ฉํ๋ ์ฒด๊ณ์ ์ ๊ทผ์ด ๋ถ์ฌํ๋ค.
Why : ๋ก๋ด์ด ์๋ก์ด ๋ฌผ์ฒด์ ๋ณํ๋ ํ๊ฒฝ์์๋ ์์ ์ ์ผ๋ก ์๋ํ๋๋ก ํ๋ ค๋ฉด ์๋ฏธ๋ก ์ ์ผ๋ก ๋ค์ํ ํ์ต ๋ฐ์ดํฐ๊ฐ ํ์์ ์ด๋ค. Diffusion ๋ชจ๋ธ ๊ธฐ๋ฐ ์ฆ๊ฐ์ ์ค์ ๋ก๋ด ๋ฐ์ดํฐ ์์ง ๋น์ฉ์ ํฌ๊ฒ ์ค์ด๋ฉด์๋ ์๋ฏธ๋ก ์ ๋ค์์ฑ์ ์ ๊ณตํ ์ ์๋ค.
Approach : ROSIE๋ ์์ฐ์ด ์ง์๋ฌธ์ ํ์ฑํ์ฌ ์ฆ๊ฐํ ์์ ์์ญ์ ์๋์ผ๋ก ์ ์ ํ ํ, text-guided diffusion ๋ชจ๋ธ์ inpainting ๊ธฐ๋ฅ์ผ๋ก ํด๋น ์์ญ์ ๋ฌผ์ฒด, ๋ฐฐ๊ฒฝ, ๋ฐฉํด๋ฌผ์ ์๋ฏธ๋ก ์ ์ผ๋ก ๊ต์ฒดํ๋ค. ์ด๋ฅผ ํตํด ๊ธฐ์กด RT-1 ์ํคํ
์ฒ๋ฅผ ์ด์ฉํ ์ ์ฑ
ํ์ต์ ์๋ก์ด ์์
๊ณผ ํ๊ฒฝ ๋ณํ์ ๋ํ ๊ฐ๊ฑด์ฑ์ ๋ถ์ฌํ๋ค.
Achievement
Figure 4: Augmentations of in-hand objects during manipulation. We show examples where ROSIE
์๋ก์ด ๋ฌผ์ฒด ์ผ๋ฐํ : Diffusion ๋ชจ๋ธ๋ก ์ฆ๊ฐ๋ ๋ฐ์ดํฐ๋ก ํ์ตํ ์ ์ฑ
์ด ์ค์ ๋ก๋ด์ด ์ํธ์์ฉํ ์ ์๋ ์์ ํ ์๋ก์ด ๋ฌผ์ฒด๋ฅผ ์กฐ์ํ๋ ์์
์ ์ํํ ์ ์์์ ์ค์ฆํ๋ค.
๋ฐฐ๊ฒฝ ๋ฐ ๋ฐฉํด๋ฌผ ๊ฐ๊ฑด์ฑ : ์๋ฏธ๋ก ์ ๋ฐฐ๊ฒฝ ๋ณํ์ ์๋ก์ด ๋ฐฉํด๋ฌผ์ด ํฌํจ๋ ์ฆ๊ฐ ๋ฐ์ดํฐ๋ก ํ์ตํ์ฌ ๋ถํฌ ์ธ(OOD) ์๋๋ฆฌ์ค์์์ ๊ฐ๊ฑด์ฑ์ ํฅ์์์ผฐ๋ค.
๊ณ ์์ค ์์
๊ฐ์ : Success detection ๊ฐ์ ๊ณ ์ฐจ์ ๋ก๋ด ํ์ต ์์
์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ diffusion ๊ธฐ๋ฐ ์ฆ๊ฐ์ ํตํด ํฅ์์์ผฐ๋ค.
์๋ํ๋ ํ์ดํ๋ผ์ธ : ์๋ ๋ง์คํน์ด๋ ๋ฉ์ ์ ๋ณด ์์ด ํ
์คํธ ์ง์๋ฌธ๋ง์ผ๋ก ์๋์ผ๋ก ์ฆ๊ฐ ์์ญ์ ์ ์ ํ๊ณ ์์ฑํ๋ ์์ ์๋ํ ์์คํ
์ ๊ตฌํํ๋ค.
How
Figure 2: The proposed architecture of ROSIE. First, we localize the augmentation region with open
์์ฐ์ด ์ง์๋ฌธ์์ ์ฆ๊ฐ ๋์(๋ฌผ์ฒด, ๋ฐฐ๊ฒฝ, ๋ฐฉํด๋ฌผ)์ ์๋์ผ๋ก ํ์ฑํ์ฌ ์๋ณ
์๋ณ๋ ์์ญ์ ๋ํด diffusion ๋ชจ๋ธ์ inpainting ๊ธฐ๋ฅ์ ์ ์ฉํ๋, ๋ก๋ด์ ๊ทธ๋ฆฌํผ ์์น ๋ฑ ์๋ฏธ๋ก ์ ์ผ๋ก ์ค์ํ ๋ถ๋ถ์ ๋ณด์กด
Text ํ๋กฌํํธ๋ฅผ ํตํด diffusion ๋ชจ๋ธ์ ์ ์ดํ์ฌ ์ํ๋ ์๋ฏธ๋ก ์ ๋ณํ(์: ์์, ๋ฌผ์ฒด ์ข
๋ฅ, ๋ฐฐ๊ฒฝ) ์ ๋
๊ธฐ์กด RT-1 behavioral cloning ์ ์ฑ
ํ์ต์ augmented ๋ฐ์ดํฐ๋ฅผ ํฌํจ์์ผ ํ์ต ๋ฐ ํ๊ฐ
์ค์ ๋ก๋ด ํ๊ฒฝ์์ ์๋ก์ด ๋ฌผ์ฒด, ๋ฐฐ๊ฒฝ, ๋ฐฉํด๋ฌผ์ ๋ํ ์ ์ฑ
์ ์ผ๋ฐํ ์ฑ๋ฅ ๊ฒ์ฆ
Originality
Internet-scale ํ์ต๋ text-to-image diffusion ๋ชจ๋ธ์ ๋ก๋ด ๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ์ ์ฉํ ๊ฒ์ผ๋ก, ๊ธฐ์กด ๋๋ฉ์ธ ๋๋คํ๋ ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ์ ๊ทผ๊ณผ ๊ตฌ๋ถ๋๋ค.
Text ํ๋กฌํํธ ๊ธฐ๋ฐ ์๋ ์ฆ๊ฐ ์์ญ ์ ์ ๊ณผ ์๋ฏธ๋ก ์ ๋ณด์กด์ ๊ฒฐํฉํ์ฌ, ์๋ ๋ง์คํน ์๋ ์์ ์๋ํ๋ ํ์ดํ๋ผ์ธ์ ๊ตฌํํ๋ค.
๊ธฐ์กด concurrent ์์
(CACTI, GenAug)๊ณผ ๋ฌ๋ฆฌ ๊น์ด ์ ๋ณด๋ ๋ฉ์ ์ ๋ณด๋ฅผ ์๊ตฌํ์ง ์์ผ๋ฉด์๋ ์๋ฏธ๋ก ์ ๋ค์์ฑ์ ๋ฌ์ฑํ๋ค.
๋ก๋ด ์กฐ์๋ฟ ์๋๋ผ success detection ๊ฐ์ ๊ณ ์์ค ์ธ์ ์์
์ ๊ฐ๊ฑด์ฑ ํฅ์๋ ์์ฐํ๋ค.
Limitation & Further Study
Diffusion ๋ชจ๋ธ์ ์๋ฏธ๋ก ์ ํธํฅ : Internet-scale ๋ฐ์ดํฐ๋ก ํ์ต๋ ์์ฑ ๋ชจ๋ธ์ด ํน์ ๋ฌผ์ฒด๋ ์ฅ๋ฉด์ ๋ํด ๊ฐ์ง ๊ณ ์ ๋ ํํ์ด ๋ก๋ด ํ์ต์ ๋ค์์ฑ์ ์ ํํ ์ ์๋ค.
๋ฌผ๋ฆฌ์ ํ์ค์ฑ ๊ฒ์ฆ ๋ถ์กฑ : ์์ฑ๋ ์ด๋ฏธ์ง๊ฐ ์๊ฐ์ ์ผ๋ก ๊ทธ๋ด๋ฏํ๋๋ผ๋, ๋ก๋ด ์กฐ์ ์ ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ ๋ฐฐ์น๊ฐ ํฌํจ๋ ์ ์์ผ๋ฉฐ, ์ด์ ๋ํ ์ฒด๊ณ์ ํํฐ๋ง ๋ฉ์ปค๋์ฆ์ด ์ ์๋์ง ์์.
์ธํ์ธํ
์ ํ๋ ์์กด์ฑ : Text ํ๋กฌํํธ ํด์๊ณผ ์ฆ๊ฐ ์์ญ ์ ์ ์ ์ ํ์ฑ์ด ์ ์ฒด ์ฑ๋ฅ์ ํฌ๊ฒ ์ํฅ์ ๋ฏธ์น์ง๋ง, ์ค๋ฅ ์ผ์ด์ค์ ๋ํ ๋ถ์์ด ์ ํ์ ์ด๋ค.
ํ์ฅ์ฑ ๋ฏธ๊ฒ์ฆ : ํ์ฌ RT-1 ๊ธฐ๋ฐ ์คํ์๋ง ํ์ ๋์ด ์์ผ๋ฉฐ, ๋ค์ํ ๋ก๋ด ํ๋ซํผ์ด๋ ๋ ๋ณต์กํ multi-step ์์
์ผ๋ก์ ํ์ฅ์ฑ์ด ํ์ธ๋์ง ์์๋ค.
ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ : (1) ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ์ด์ฉํ ์์ฑ ์ด๋ฏธ์ง์ ํ์ค์ฑ ๊ฒ์ฆ, (2) 3D ์ฅ๋ฉด ์ดํด๋ฅผ ํตํ ๋ ์ ๊ตํ ์๋ฏธ๋ก ์ ์ฆ๊ฐ, (3) ๋ก๋ด ํผ๋๋ฐฑ์ ๋ฐ์ํ๋ ์ ์ํ ์ฆ๊ฐ ํ์ดํ๋ผ์ธ ๊ฐ๋ฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : ROSIE๋ ์ต์ text-to-image diffusion ๋ชจ๋ธ์ ๋ก๋ด ํ์ต์ ์ฐฝ์์ ์ผ๋ก ์ ์ฉํ์ฌ ๊ณ ๋น์ฉ์ ์ค์ ๋ฐ์ดํฐ ์์ง ์์ด ์๋ฏธ๋ก ์ ์ผ๋ก ๋ค์ํ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ์ค์ฉ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๊ด๋ฒ์ํ ์คํ์ ํตํด ์๋ก์ด ๋ฌผ์ฒด ์ผ๋ฐํ, ๋ฐฐ๊ฒฝ/๋ฐฉํด๋ฌผ ๊ฐ๊ฑด์ฑ, ๊ณ ์์ค ์์
ํฅ์์ ์
์ฆํ์ผ๋ฉฐ, ๋ก๋ด ํ์ต ์ปค๋ฎค๋ํฐ์ ๋์ ์ํฅ์ ๋ฏธ์น ๊ฐ๋ฅ์ฑ์ด ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com