BridgeData V2: A Dataset for Robot Learning at Scale
๐ง Audio Overview ์์ฑ
์ ์ : Homer Walke, Kevin Black, Abraham Lee, Moo Jin Kim, Max Du, Chongyi Zheng, Tony Zhao, Philippe Hansen-Estruch, Quan Vuong, Andre He, Vivek Myers, Kuan Fang, Chelsea Finn, Sergey Levine | ๋ ์ง : 2023-08-24 | URL : https://arxiv.org/abs/2308.12952 📄 PDF
Essence
Figure 1 (BridgeData V2) We propose a large-scale robotic manipulation dataset containing 60,096
์ ๋น์ฉ ๊ณต๊ฐ ๋ก๋ด์ผ๋ก 24๊ฐ ํ๊ฒฝ์์ ์์งํ 60,096๊ฐ ๊ถค์ ์ผ๋ก ์ด๋ฃจ์ด์ง ๋๊ท๋ชจ ๋ก๋ด ์กฐ์ ๋ฐ์ดํฐ์
BridgeData V2๋ฅผ ์ ์ํ๋ฉฐ, ๋ค์ํ imitation learning ๋ฐ offline RL ๋ฐฉ๋ฒ๋ค๊ณผ์ ํธํ์ฑ์ ๊ฒ์ฆํ๋ค.
Motivation
Known : ๋ก๋ด ํ์ต์์ ๋๊ท๋ชจ ๋ค์ํ ๋ฐ์ดํฐ์
์ด ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋๋ค๋ ๊ฒ์ด ์๋ ค์ ธ ์์ผ๋ฉฐ, ๊ธฐ์กด ๋ก๋ด ๋ฐ์ดํฐ์
๋ค์ ๋จ์ผ ํ๊ฒฝยท์์
์ ํ์ ๋๊ฑฐ๋ ํน์ ๋ก๋ด์๋ง ์ ์ฉ ๊ฐ๋ฅํ ํ๊ณ๊ฐ ์๋ค.
Gap : ์ฌ๋ฌ ํ๊ฒฝ๊ณผ ์์
์ ํฌํจํ๋ฉด์๋ ๊ณต๊ฐ ์ ๋น์ฉ ๋ก๋ด์ผ๋ก ์์ง๋๊ณ ์์ฐ์ด ์กฐ๊ฑดํ๋ฅผ ์ง์ํ๋ฉฐ ๋ค์ํ ํ์ต ๋ฐฉ๋ฒ๊ณผ ํธํ๋๋ ๋๊ท๋ชจ ๋ก๋ด ๋ฐ์ดํฐ์
์ด ๋ถ์กฑํ๋ค.
Why : ๋๊ท๋ชจ ๋ค์ํ ๋ฐ์ดํฐ์
์ ํ๊ฒฝยท๋๋ฉ์ธยท๊ธฐ๊ด ๊ฐ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ณ ๋ก๋ด ํ์ต ์ฐ๊ตฌ์ ์ ๊ทผ์ฑ์ ๋์ด๋ฉฐ ํ์ฅ ๊ฐ๋ฅํ ๋ก๋ด ํ์ต ๋ฐฉ๋ฒ ๊ฐ๋ฐ์ ์ด์งํ๋ค.
Approach : ์ ๋น์ฉ ๊ณต๊ฐ ๋ก๋ด์ผ๋ก 24๊ฐ ํ๊ฒฝ์์ ์ธ๊ฐ ๋ฐ๋ชจ(84%) ๋ฐ scripted policy(16%)๋ฅผ ํตํด 60,096๊ฐ ๊ถค์ ์ ์์งํ๊ณ , goal image ๋๋ ์์ฐ์ด ์กฐ๊ฑดํ๋ฅผ ์ง์ํ๋ ํํ๋ก ๊ตฌ์ฑํ์๋ค. 6๊ฐ์ง state-of-the-art imitation learning ๋ฐ offline RL ๋ฐฉ๋ฒ์ ํ๊ฐํ๊ณ ๋ฐ์ดํฐ ํฌ๊ธฐยท๋ค์์ฑ์ ์ํฅ์ ๋ถ์ํ๋ค.
Achievement
Figure 5 (Scaling analysis) (L) Performance of goal-conditioned behavior cloning trained on
๋๊ท๋ชจ ๋ค์ํ ๋ฐ์ดํฐ์
๊ตฌ์ถ : 13๊ฐ ๊ธฐ์ , 24๊ฐ ํ๊ฒฝ, 100๊ฐ ์ด์์ ๊ฐ์ฒด๋ฅผ ํฌํจํ 60,096๊ฐ ๊ถค์ ์ผ๋ก ๊ธฐ์กด Bridge Dataset ๋๋น 7๋ฐฐ ์ด์ ํ๋
๋ค์ค ์กฐ๊ฑดํ ๋ฐฉ์ ์ง์ : goal image ๋ฐ ์์ฐ์ด ๋ช
๋ น ๊ธฐ๋ฐ์ open-vocabulary ์์
์ง์ ์ด ๊ฐ๋ฅํ๋๋ก ์ค๊ณ
๊ด๋ฒ์ํ ํธํ์ฑ ๊ฒ์ฆ : text-conditioned BC, goal-conditioned BC, goal-conditioned RL ๋ฑ 6๊ฐ์ง ๋ฐฉ๋ฒ๋ก ์์ ํจ๊ณผ์ ์ผ๋ก ์๋ํ๋ ๋ค๋ชฉ์ ๋ฐ์ดํฐ์
์์ ์ค์ฆ
ํ์ฅ ๋ถ์ ๊ฒฐ๊ณผ : ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ์ดํฐ ํฌ๊ธฐยท๋ค์์ฑ ์ฆ๊ฐ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ํฅ์๋จ์ ์ ๋์ ์ผ๋ก ์
์ฆ. ๊ธฐ์ ๋ค์์ฑ์ด ํ๊ฒฝ ์ผ๋ฐํ๋ฅผ ๊ฐ์ ํจ์ ์ฆ๋ช
๊ณต๊ฐ ์์ ์ ๊ณต : ๋ฐ์ดํฐ์
๋ฐ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ๊ณต๊ฐํ์ฌ ๋ก๋ด ํ์ต ์ฐ๊ตฌ์ ์ ๊ทผ์ฑ ํฅ์
How
์ ๋น์ฉ ๊ณต๊ฐ ๋ก๋ด(Widowx 250) ํ๋ซํผ ์ฌ์ฉ์ผ๋ก ์ฌํ ๊ฐ๋ฅ์ฑ ํ๋ณด
24๊ฐ ์๋ก ๋ค๋ฅธ ํ๊ฒฝ์์ ์ฅ์๊ฐ์ ๊ฑธ์ณ ์ธ๊ฐ ๋ฐ๋ชจ ๋ฐ ์๋ํ๋ pick-and-place policy๋ก ๋ฐ์ดํฐ ์์ง
์์ฐ์ธ์ด ์ฃผ์(natural language labels) ์ถ๊ฐ๋ก language-conditioned ๋ฐฉ๋ฒ ์ง์
๋ค์ค ์นด๋ฉ๋ผ ๋ทฐ ๋ฐ ๊น์ด ๋ฐ์ดํฐ ํฌํจ์ผ๋ก ๋ค์ํ ์ผ์ ๋ชจ์ ์ง์
13๊ฐ ๊ธฐ์ (pick-and-place, pushing, sweeping, stacking, folding ๋ฑ) ๋ฐ ๋ค์์ ๊ฐ์ฒด ์กฐํฉ์ผ๋ก ์์
๋ค์์ฑ ๊ทน๋ํ
Behavioral cloning, offline RL, goal-conditioned RL ๋ฑ ๋ค์ํ ์๊ณ ๋ฆฌ์ฆ ํ๊ฐ ๋ฐ ๋ฒค์น๋งํฌ ์ํ
Data scale, model capacity, ๊ธฐ์ ๋ฐ ํ๊ฒฝ ๋ค์์ฑ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ ์ค์ฆ ๋ถ์
Originality
๊ธฐ์กด Bridge Dataset ๋๋น ์์ ยท์ง์ ๊ฐ์ : ๋จ์ ๋ฐ์ดํฐ ํ๋๋ฟ ์๋๋ผ ์์ฐ์ด ์กฐ๊ฑดํ, ๋ค์ํ ํ๊ฒฝยท๊ธฐ์ ยท๊ฐ์ฒด ํฌํจ์ผ๋ก ๋ค๋ชฉ์ ์ฌ์ฉ์ฑ ํ๋ณด
๊ธฐ์ ๋ค์์ฑ๊ณผ ํ๊ฒฝ ์ผ๋ฐํ์ ๊ด๊ณ๋ฅผ ๋
๋ฆฝ์ ์ผ๋ก ๊ฒ์ฆํ์ฌ ๋ฐ์ดํฐ ๋ค์์ฑ์ ํจ๊ณผ๋ฅผ ๋ถ๋ช
ํ ์ค์ฆํ ์ ์ด ์ ๊ท
6๊ฐ์ง heterogeneous ๋ฐฉ๋ฒ๋ก (text-conditioned BC, goal-conditioned BC/RL ๋ฑ)์ ๋ํ ์ผ๊ด๋ ํ๊ฐ๋ก ๋ฐ์ดํฐ์
์ ๋ฒ์ฉ์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ์
์ฆ
๊ณต๊ฐ ์ ๋น์ฉ ๋ก๋ด์ผ๋ก ์์งํ๋ฉด์๋ ๊ท๋ชจ์ ๋ค์์ฑ์์ RT-1, RoboSet ๋ฑ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
๊ณผ ๊ฒฝ์ํ๋ ์์ค ๋ฌ์ฑ
๋ช
ํํ ์ค์ผ์ผ๋ง ๋ถ์์ ํตํด ๋ชจ๋ธ ์ฉ๋, ๋ฐ์ดํฐ ๊ท๋ชจ, ๊ธฐ์ ๋ค์์ฑ ๊ฐ์ ์ ๋์ ๊ด๊ณ ๊ท๋ช
Limitation & Further Study
๋ชจ๋ ๋ฐ์ดํฐ๊ฐ ๋จ์ผ ๋ก๋ด ํ๋ซํผ(Widowx 250)์์ ์์ง๋์ด cross-robot generalization์ ๋ํ ๊ฒ์ฆ ๋ถ์ฌ
์ฃผ๋ก ํ
์ด๋ธ ์์ ์กฐ์(tabletop manipulation)์ ์ง์ค๋์ด ์์ด ๋ ๋ณต์กํ ์คํ๊ฒฝ ์์
์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ
๊ธฐ์ ๋ณ ๋ฐ์ดํฐ ๋ถ๊ท ํ(pick-and-place์ ํธํฅ) ๋ฐ ์ฑ๊ณต๋ฅ ํธํฅ์ด ์ธ๊ธ๋์ง ์์
ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ์ฌ๋ฌ ๋ก๋ด ํ๋ซํผ์ผ๋ก์ ๋ฐ์ดํฐ ํ์ฅ, (2) ๋ ๋ค์ํ ํ๊ฒฝยท์์
(๋์ ์ํธ์์ฉ, ํ๋ ๋ฑ) ํฌํจ, (3) sim-to-real transfer ํจ๊ณผ ๋ถ์, (4) ๋ค๋ฅธ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
(RH20T ๋ฑ)๊ณผ์ ๊ฒฐํฉ ํ์ฉ
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ : BridgeData V2๋ ๊ธฐ์กด ๋ก๋ด ๋ฐ์ดํฐ์
์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๋ ๋๊ท๋ชจ ๋ค์ํ ๋ฒค์น๋งํฌ๋ก์, ๊ณต๊ฐ ์ ๋น์ฉ ๋ก๋ด๊ณผ ๋ค์ํ ํ๊ฒฝยท๊ธฐ์ ยท์กฐ๊ฑดํ ๋ฐฉ์์ ํตํด ๋ฒ์ฉ์ฑ๊ณผ ์ฌํ ๊ฐ๋ฅ์ฑ์ ๋ชจ๋ ํ๋ณดํ์๋ค. 6๊ฐ์ง ๋ฐฉ๋ฒ๋ก ์ ๋ํ ํฌ๊ด์ ํ๊ฐ์ ์ค์ผ์ผ๋ง ๋ถ์์ ๋ก๋ด ํ์ต ์ฐ๊ตฌ์ ๋ฐ์ดํฐ-์ค์ฌ ์ ๊ทผ๋ฒ์ ์ค์์ฑ์ ๊ฐํ๊ฒ ์
์ฆํ๋ฉฐ, ๊ณต๊ฐ ์์์ผ๋ก์ ํ๊ณ์ ์๋นํ ๊ธฐ์ฌ๋ฅผ ํ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
๋์ ์ฒญ์ค
์ผ๋ฐ์ธ
๋ํ์ยท๋ํ์์
์ ๋ฌธ๊ฐ
ํค
์น๊ทผํ
ํ์ ์
ํ๊ธฐ์ฐฌ
์ฃผ์์ (์ ํ)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์
๋ซ๊ธฐ
์์ฑ
Developed by Jehyun Lee, KIST AIX Strategy Department | jehyun.lee@gmail.com