ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks
์ ์: Mohit Shridhar, Jesse Thomason, Daniel Gordon, Yonatan Bisk, Winson Han, Roozbeh Mottaghi, Luke Zettlemoyer, Dieter Fox | ๋ ์ง: 2019-12-03 | URL: https://arxiv.org/abs/1912.01734 📄 PDF
Essence
Figure 1: ALFRED consists of 25k language directives
ALFRED๋ ์์ฐ์ด ์ง์์ฌํญ๊ณผ egocentric vision์์ ๊ฐ์ ์ฉ ์์
์ ์ํ action sequence๋ก์ ๋งคํ์ ํ์ตํ๊ธฐ ์ํ ๋ฒค์น๋งํฌ๋ก, 25k๊ฐ์ ์์ฐ์ด ์ง์๋ฌธ๊ณผ ๋น๊ฐ์ญ์ ์ํ ๋ณํ๋ฅผ ํฌํจํ์ฌ ์ค์ ๋ก๋ด ์์ฉ๊ณผ์ ๊ฐ๊ทน์ ์ค์ธ๋ค.
Motivation
- Known: Vision-and-language navigation๊ณผ embodied question answering ๊ฐ์ ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ค์ Matterport 3D, AI2-THOR, AI Habitat ๋ฑ์ ํ๊ฒฝ์์ ๋ฐ์ ํ์ผ๋, ๊ฐ์ฒด์์ ์ํธ์์ฉ๊ณผ ์์
์งํฅ์ ํ๋์ ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฃจ์ง ๋ชปํ๋ค.
- Gap: ๊ธฐ์กด ๋ฐ์ดํฐ์
๋ค์ ์ ์ ํ๊ฒฝ ๋๋ ๋จ์ํ ์ด์ฐ์ ์ํธ์์ฉ๋ง ๋ค๋ฃจ๊ณ , ์ฅ๊ธฐ horizon, ์์ฐ์ธ์ด์ ๋นํน์ ์ฑ, ๋น๊ฐ์ญ์ action, ๋ถ๋ถ ๊ด์ฐฐ์ฑ ๋ฑ ์ค์ ์์
์ ๋ณต์ก์ฑ์ ๋ฐ์ํ์ง ๋ชปํ๋ค.
- Why: ๋ก๋ด์ด ์ธ๊ฐ ๊ณต๊ฐ์์ ์๋ํ๋ ค๋ฉด ์์ฐ์ธ์ด๋ฅผ ์ค์ ํ๋ sequence๋ก ๋ณํํด์ผ ํ๋ฉฐ, ๊ฐ์ฒด ์ํธ์์ฉ๊ณผ ์ํ ๋ณํ๊ฐ ํฌํจ๋ ํ์ค์ ์ธ ์์
ํ์ต์ด ํ์์ ์ด๋ค.
- Approach: AI2-THOR 2.0 ํ๊ฒฝ์์ planner ๊ธฐ๋ฐ expert demonstration์ ์์งํ๊ณ , ๊ฐ demonstration์ ๊ณ ์์ค ๋ชฉํ์ ์ ์์ค step-by-step instruction์ ํฌํจํ ์์ฐ์ธ์ด ์ฃผ์์ ๋ถ์ธ๋ค. ๊ฐ์ฒด ์ํธ์์ฉ์ pixelwise interaction mask๋ก ํํํ์ฌ ํ์ค์ ์ธ localization์ ์๊ตฌํ๋ค.
Achievement
Figure 2: ALFRED annotations. We introduce 7 different task types parameterized by 84 object classes in 120 scenes.
- ๊ท๋ชจ์ ๋ค์์ฑ: 120๊ฐ ์ค๋ด ์ฅ๋ฉด์์ 25,743๊ฐ ์์ด ์ง์๋ฌธ๊ณผ 8,055๊ฐ expert demonstration (์ด 428,322๊ฐ image-action pair) ๊ตฌ์ฑ
- ์ธ์ด ๋ค์์ฑ: ๊ฐ task์ ๋ํด ๊ณ ์์ค ๋ชฉํ์ ์ ์์ค ๋จ๊ณ๋ณ ์ง์์ฌํญ์ ๋ชจ๋ ํฌํจ
- ์์
๋ณต์ก์ฑ: 7๊ฐ์ง ์์
ํ์
, 84๊ฐ ๊ฐ์ฒด ํด๋์ค, ๋น๊ฐ์ญ์ ์ํ ๋ณํ, ๋ถ๋ถ ๊ด์ฐฐ์ฑ, ์ฅ๊ธฐ action horizon ํฌํจ
- ์ํธ์์ฉ ํ์ค์ฑ: ์ด์ฐ์ ๊ฐ์ฒด ์ ํ์ด ์๋ class-agnostic pixelwise interaction mask๋ฅผ ํตํ spatial localization ์๊ตฌ
- ๋ฒค์น๋งํฌ ์ค์ : Baseline seq-to-seq ๋ชจ๋ธ์ด 5% ๋ฏธ๋ง์ success rate๋ฅผ ๋ณด์ฌ significant improvement ์ฌ์ง ์
์ฆ
How
Figure 2: ALFRED annotations. We introduce 7 different task types parameterized by 84 object classes in 120 scenes.
- AI2-THOR 2.0์ interactive visual environment์์ planner ๊ธฐ๋ฐ์ผ๋ก expert demonstration ์์ฑ
- ๊ฐ demonstration์ ๋ํด crowdsourced annotation์ผ๋ก ๊ณ ์์ค ๋ชฉํ์ ์ ์์ค step-by-step instruction ์์ฑ
- 7๊ฐ์ง task type (Pick & Place, Stack & Place, Pick Two & Place, Examine in Light, Heat & Place, Cool & Place, Clean & Place) ์ ์
- Agent์ egocentric visual observation, action, ground-truth interaction mask๋ฅผ ๊ธฐ๋กํ์ฌ deterministically ์ฌํ ๊ฐ๋ฅํ๋๋ก ๊ตฌ์ฑ
- Sequence-to-sequence baseline model์ ์ด์ฉํ ์ฑ๋ฅ ํ๊ฐ ๋ฐ subgoal ๋จ์ ๋ถ์
Originality
- ์ฒ์์ผ๋ก interactive visual environment์์ ๊ณ ์์ค ๋ชฉํ์ ์ ์์ค ์์ฐ์ธ์ด ์ง์์ฌํญ์ ๋ชจ๋ ์ ๊ณตํ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
๊ตฌ์ถ
- Pixelwise interaction mask๋ฅผ ํตํด ๊ธฐ์กด์ discrete object class selection๋ณด๋ค ํ์ค์ ์ธ spatial localization ์๊ตฌ
- ๋น๊ฐ์ญ์ ์ํ ๋ณํ, ๋ถ๋ถ ๊ด์ฐฐ์ฑ, ์ฅ๊ธฐ horizon ๋ฑ ์ค์ ๋ก๋ด ์์
์ ๋์ ๊ณผ์ ๋ค์ ์ข
ํฉ์ ์ผ๋ก ๋ฐ์
- TACoS์ ๋ฌ๋ฆฌ ์ค์ ์์
์คํ์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ , VirtualHome๊ณผ ๋ฌ๋ฆฌ egocentric visual feedback๊ณผ partial observability ํฌํจ
Limitation & Further Study
- Simulation ํ๊ฒฝ์ ๊ตญํ๋์ด ์์ด sim-to-real transfer์ ๋์ ๊ณผ์ ๋ ๋ค๋ฃจ์ง ์์
- 120๊ฐ ์ฅ๋ฉด์ ์ค์ ๊ฐ์ ์ฉ ํ๊ฒฝ์ ๋ค์์ฑ์ ์๋ฒฝํ ๋ฐ์ํ์ง ๋ชปํ ์ ์์
- Baseline model์ ๋ฎ์ ์ฑ๋ฅ(5% ๋ฏธ๋ง)์ ๋ฐ์ดํฐ์
์ ์ด๋ ค์์ ๋ณด์ฌ์ฃผ์ง๋ง, ๋์์ ๋ ๊ฐ๋ ฅํ ๋ชจ๋ธ ๊ฐ๋ฐ์ด ํ์์ ์์ ์์ฌ
- ํ์ ์ฐ๊ตฌ์์๋ hierarchical planning, long-horizon reasoning, compositional task understanding์ ๋ค๋ฃจ๋ ๋ชจ๋ธ ๊ฐ๋ฐ์ด ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ALFRED๋ ์์ฐ์ธ์ด์์ ํ๋์ผ๋ก์ grounding ์ฐ๊ตฌ์ ํ์ค์ ์ธ ๋์ ๊ณผ์ ๋ค์ ์ข
ํฉ์ ์ผ๋ก ์ ์ํ๋ ์ค์ํ ๋ฒค์น๋งํฌ์ด๋ค. ๊ณ ์์ค/์ ์์ค ์ธ์ด ์ฃผ์, ๋น๊ฐ์ญ์ ์ํ ๋ณํ, pixelwise interaction mask ๋ฑ์ ํ์ ์ ์ค๊ณ๊ฐ ๊ธฐ์กด ๋ฐ์ดํฐ์
๋ณด๋ค ์ค์ ๋ก๋ด ์์ฉ์ ๋ ๊ฐ๊น๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์