ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous States in Realistic 3D Scenes
์ ์: Ran Gong, Jiangyong Huang, Yizhou Zhao, Haoran Geng, Xiaofeng Gao, Qingyang Wu, Wensi Ai, Ziheng Zhou, Demetri Terzopoulos, Song-Chun Zhu, Baoxiong Jia, Siyuan Huang | ๋ ์ง: 2023-04-09 | URL: https://arxiv.org/abs/2304.04321 📄 PDF
Essence
Figure 1. The ARNOLD benchmark for language-grounded task learning with continuous states in realistic 3D scenes. ARNOLD
ARNOLD์ ํ์ค์ ์ธ 3D ์ฅ๋ฉด์์ ์ฐ์์ ๊ฐ์ฒด ์ํ๋ฅผ ์ดํดํ๊ณ ์ธ์ด ๊ธฐ๋ฐ ์กฐ์ ์์
์ ํ์ตํ๋ ๋ก๋ด์ ํ๊ฐํ๊ธฐ ์ํ ๋ฒค์น๋งํฌ์ด๋ค. 8๊ฐ์ ์ธ์ด ์กฐ๊ฑด๋ถ ์์
๊ณผ ์ธ๋ฐํ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
, ๋ค์ํ ์ฅ๋ฉด๊ณผ ๊ฐ์ฒด๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
Motivation
- Known: ๊ธฐ์กด ๋ก๋ด ์กฐ์ ๋ฒค์น๋งํฌ๋ ๋๋ถ๋ถ ์ด์ง ์ํ์ ๊ฐ์ ์ด์ฐํ๋ ๊ฐ์ฒด ์ํ๋ฅผ ๊ฐ์ ํ๋ฉฐ, ์ธ์ด ์กฐ๊ฑด๋ถ ์ ์ฑ
ํ์ต์ ๊ดํ ์ฐ๊ตฌ๊ฐ ์งํ๋์๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ์ ๊ทผ๋ฒ์ ๋ณต์กํ ์์
ํ์ต๊ณผ ์ค์ ํ๊ฒฝ์ผ๋ก์ ์ ์ฑ
์ด์ ์ ์ด๋ ต๊ฒ ๋ง๋ ๋ค.
- Gap: ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ (1) ๋ณต์กํ ํ์ค์ ์ฅ๋ฉด์ด ์๋ ๋จ์ํ ํ๊ฒฝ์ ๊ฐ์ ํ๊ณ , (2) ์ฐ์์ ๊ฐ์ฒด ์ํ ๋์ ์ด์ฐํ๋ ์ํ๋ฅผ ์ฌ์ฉํ๋ฉฐ, (3) ์ธ์ด๋ฅผ ์ ํํ ๊ฐ์ฒด ์ํ์ ๊ทธ๋ผ์ด๋ฉํ์ง ์๋๋ค. ๋ํ ์ ๊ท ๋ชฉํ ์ํ, ์ ๊ท ์ฅ๋ฉด, ์ ๊ท ๊ฐ์ฒด์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ ํ๊ฐ๊ฐ ์ฒด๊ณ์ ์ด์ง ์๋ค.
- Why: ๋ก๋ด์ด ์ธ๊ฐ์ ์์ฐ์ค๋ฌ์ด ์ง์๋ฅผ ์ดํดํ๊ณ ์คํํ๊ธฐ ์ํด์๋ ์ฐ์์ ๊ฐ์ฒด ์ํ ๊ณต๊ฐ์์ ์ธ์ด๋ฅผ ์ ํํ ๋ฌผ๋ฆฌ์ ์ํ๋ก ๋งคํํ ์ ์์ด์ผ ํ๋ค. ์ด๋ ์ค์ ํ๊ฒฝ์์์ ํจ๊ณผ์ ์ธ ์กฐ์๊ณผ ์์
ํ์ต์ ํ์์ ์ด๋ค.
- Approach: ARNOLD์ PhysX 5.0 ๊ธฐ๋ฐ์ ๊ณ ์ ํ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
์ ํ์ฉํ์ฌ 8๊ฐ์ ์ฐ์์ ๋ก๋ด ์กฐ์ ์์
์ ์ค๊ณํ๊ณ , 40๊ฐ์ ๊ฐ์ฒด์ 20๊ฐ์ ์ฅ๋ฉด์ผ๋ก ๋ค์ํ ์๋๋ฆฌ์ค๋ฅผ ๊ตฌ์ฑํ๋ค. ์ ๋ฌธ๊ฐ ์์ฐ๊ณผ ํ
ํ๋ฆฟ ๊ธฐ๋ฐ ์ธ์ด ์ค๋ช
์ ์ ๊ณตํ๋ฉฐ, ์ ๊ท ์ํ, ์ ๊ท ๊ฐ์ฒด, ์ ๊ท ์ฅ๋ฉด์ ๋ํ ์ฒด๊ณ์ ์ธ ์ผ๋ฐํ ํ๊ฐ๋ฅผ ์ํํ๋ค.
Achievement
Figure 1. The ARNOLD benchmark for language-grounded task learning with continuous states in realistic 3D scenes. ARNOLD
- ํฌ๊ด์ ๋ฒค์น๋งํฌ: ํ์ค์ ์ธ 3D ์ํธ์์ฉ ํ๊ฒฝ์์ ์ฐ์์ ๊ฐ์ฒด ์ํ, ๋ง์ฐฐ ๊ธฐ๋ฐ ๊ทธ๋ํ, ๋ค์ํ ์ฅ๋ฉด ๋ฐฐ๊ฒฝ์ ์ง์ํ๋ ์ฒซ ๋ฒค์น๋งํฌ ์ ์
- ์ฒด๊ณ์ ํ๊ฐ ํ๋ ์์ํฌ: ์ ๊ท ๋ชฉํ ์ํ(Novel State), ์ ๊ท ๊ฐ์ฒด(Novel Object), ์ ๊ท ์ฅ๋ฉด(Novel Scene)์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ตฌ๋ถํ์ฌ ํ๊ฐ
- ๊ธฐ์กด ๋ฐฉ๋ฒ์ ํ๊ณ ๊ท๋ช
: ์ต์ ์ธ์ด ์กฐ๊ฑด๋ถ ์กฐ์ ๋ชจ๋ธ(language-conditioned policy learning models)์ด ์ฌ์ ํ ์ ๊ท ์ํ์ ์ฅ๋ฉด ์ผ๋ฐํ์์ ํ์ ํ ์ด๋ ค์์ ๊ฒช์์ ์
์ฆ
- ์ค์ฆ์ ๋ถ์: ์ํ ๋ชจ๋ธ๋ง์ ์ค์์ฑ์ ํฌํจํ ๊ด๋ฒ์ํ ์คํ ๋ถ์๊ณผ ์ ๊ฑฐ ์ฐ๊ตฌ(ablation studies)๋ฅผ ํตํด ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ ์ ์
How
Figure 2. Multi-view robot observation in ARNOLD. The top row
- PhysX 5.0์ ํ์ฉํ ๊ณ ์ ํ ๋ฌผ๋ฆฌ ์์ง์ผ๋ก ์ฐ์์ ๋์, ๋ง์ฐฐ ๊ธฐ๋ฐ ๊ทธ๋ํ, ์ ์ฒด ์๋ฎฌ๋ ์ด์
๊ตฌํ
- 8๊ฐ ์์
(์: ์๋ ๋ฐ์ฏค ์ด๊ธฐ, ๋ณ 180ยฐ ํ์ , ์บ๋น๋ 75% ์ด๊ธฐ, ์ปต์ ๋ฌผ ๋ถ๊ธฐ)์ ๋ํ ์ฐ์์ ๋ชฉํ ์ํ ์ ์
- ํ
ํ๋ฆฟ ๊ธฐ๋ฐ ํ๋๋๋ฅผ ํตํด ํ๋ถํ ์ ๋ฌธ๊ฐ ์์ฐ ๊ถค์ ๊ณผ ์๋ ์์ฑ ์ธ์ด ์ค๋ช
์ ๊ณต
- 40๊ฐ ๊ฐ์ฒด, 20๊ฐ ์ฅ๋ฉด์ผ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์
๊ตฌ์ถ ๋ฐ ์ผ๋ฐํ ํ๊ฐ๋ฅผ ์ํ ๋ฐ์ดํฐ ๋ถํ ์ค๊ณ
- ์ต์ language-conditioned policy learning ๋ชจ๋ธ(์ฌ๋ฌ ์ธ์ด ์ธ์ฝ๋ ๋ฐ ์ํ ํํ ํฌํจ)์ ๋ํ ์ข
ํฉ์ ์ฑ๋ฅ ํ๊ฐ
Originality
- ์ฐ์์ ์ํ ๊ทธ๋ผ์ด๋ฉ: ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ๋ฌ๋ฆฌ ์ด์ฐํ๋ ์ํ๊ฐ ์๋ ์ฐ์์ ๊ฐ์ฒด ์ํ ๋ฒ์์์ ์ธ์ด๋ฅผ ์ ํํ ๋ฌผ๋ฆฌ์ ์ํ๋ก ๋งคํํ๋ ๋ฌธ์ ๋ฅผ ์ฒ์ ์ฒด๊ณ์ ์ผ๋ก ์ ์
- ๋ค์ธต ์ผ๋ฐํ ํ๊ฐ: ์ ๊ท ๋ชฉํ ์ํ, ์ ๊ท ๊ฐ์ฒด, ์ ๊ท ์ฅ๋ฉด์ ๊ตฌ๋ถํ๋ ์ธ๋ถํ๋ ์ผ๋ฐํ ํ๊ฐ ํ๋ ์์ํฌ ๋์
- ํ์ค์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
: ๊ธฐ์กด RLBench ๊ธฐ๋ฐ ๋ฒค์น๋งํฌ์ ๋จ์ํ๋ ๊ทธ๋ํ๊ณผ ๋ฌ๋ฆฌ PhysX 5.0 ๊ธฐ๋ฐ์ ์ฌ์ค์ ๋ง์ฐฐ๊ณผ ๋์ญํ ์๋ฎฌ๋ ์ด์
์ ๊ณต
- ํฌ๊ด์ ๋น๊ต: Table 1์์ ๊ธฐ์กด ์ฃผ์ ๋ฒค์น๋งํฌ(ALFRED, ManiSkill, Calvin, BEHAVIOR, RLBench, SoftGym ๋ฑ)์์ ์ฒด๊ณ์ ๋น๊ต๋ก ARNOLD์ ๊ณ ์ ํ ํน์ง(์ฐ์ ์ํ, ์ ์ฒด ์๋ฎฌ๋ ์ด์
, ํ์ค์ ๋ ๋๋ง, ์ฒด๊ณ์ ์ผ๋ฐํ ํ๊ฐ) ๋ช
ํํ
Limitation & Further Study
- ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ํ๊ณ: PhysX ๊ธฐ๋ฐ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
์ผ๋ก๋ ์ค์ ํ๊ฒฝ๊ณผ์ sim-to-real ๊ฐญ์ด ์กด์ฌํ๋ฉฐ, ๋ณธ ๋
ผ๋ฌธ์์๋ ์ ํ๋ ์ค์ ํ๊ฒฝ ์คํ๋ง ์ ์
- ์์
์์ ๋ค์์ฑ: 8๊ฐ์ ์กฐ์ ์์
์ผ๋ก ์ ํ๋์ด ์์ผ๋ฉฐ, ๋ค์ํ ๋๋ฉ์ธ(์: ๋งค๋ํฐ๋ ์ด์
์ธ ๋ค๋น๊ฒ์ด์
, ๊ทธ๋์คํ)์ผ๋ก์ ํ์ฅ ํ์
- ํ์ฌ ๋ชจ๋ธ์ ์ ์กฐํ ์ฑ๋ฅ: ์ต์ ๋ชจ๋ธ๋ค๋ 20-80% ๋ฒ์์ ์ฑ๊ณต๋ฅ ์ ๋ณด์ด๋ฏ๋ก, ๋ฒค์น๋งํฌ ์์ฒด์ ๋์ด๋๊ฐ ์๋นํ์ง๋ง ๊ฐ์ ๋ฐฉํฅ์ ๋ํ ์ด๋ก ์ ํต์ฐฐ ๋ถ์กฑ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ์ธ์ด์ ์ฐ์ ์ํ์ ๋ ์ ๊ตํ ๊ทธ๋ผ์ด๋ฉ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ, (2) ์ ๊ท ๊ฐ์ฒด ๋ฐ ์ฅ๋ฉด์ ๋ํ ๊ฐํ๋ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๊ฐ์ถ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ ํ์, (3) sim-to-real ์ ํ๋ ๊ฐ์ ์ ์ํ ์ถ๊ฐ ์ฐ๊ตฌ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ARNOLD์ ์ธ์ด ๊ธฐ๋ฐ ๋ก๋ด ์์
ํ์ต์์ ์ฐ์์ ๊ฐ์ฒด ์ํ ์ดํด์ ์ผ๋ฐํ ๋ฅ๋ ฅ ํ๊ฐ๋ผ๋ ์ค์ํ ๊ณต๋ฐฑ์ ์ฑ์ฐ๋ ํฌ๊ด์ ์ด๊ณ ์ ์ค๊ณ๋ ๋ฒค์น๋งํฌ์ด๋ค. ํ์ค์ ๋ฌผ๋ฆฌ ์๋ฎฌ๋ ์ด์
๊ณผ ์ฒด๊ณ์ ์ธ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํตํด ๊ธฐ์กด ๋ฐฉ๋ฒ์ ํ๊ณ๋ฅผ ๋ช
ํํ ๋๋ฌ๋ด๊ณ , ํฅํ ์ฐ๊ตฌ์ ์ค์ง์ ์ธ ๊ธฐ์ฌ๋ฅผ ํ ์ ์๋ ๊ฐ์น ์๋ ์์์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์