์ ์: Dhruv Shah, Blazej Osinski, Brian Ichter, Sergey Levine | ๋ ์ง: 2022-07-10 | URL: https://arxiv.org/abs/2207.04429 📄 PDF
Figure 1: Embodied instruction following with LM-Nav: Our system takes as input a set of raw observations
LM-Nav๋ GPT-3, CLIP, ViNG ์ธ ๊ฐ์ง ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์กฐํฉํ์ฌ ์์ฐ์ธ์ด ๋ช ๋ น์ผ๋ก ๋ก๋ด์ด ์ค์ ํ๊ฒฝ์์ ๋ค๋น๊ฒ์ด์ ์ ์ํํ๋ ์์คํ ์ด๋ค. ๋ก๋ด ๋ฐ์ดํฐ์ ๋ํ ์ธ์ด ์ฃผ์ ์์ด๋ ๋ณต์กํ ์ค์ธ ํ๊ฒฝ์์ ์ฅ๊ฑฐ๋ฆฌ ๋ค๋น๊ฒ์ด์ ์ ์คํํ๋ค.
Figure 4: Qualitative examples of LM-Nav in real-world environments executing textual instructions (left).
Figure 2: LM-Nav uses VLM to infer a joint probability distribu-
์ดํ: LM-Nav๋ ์ฌ์ ํ์ต ๋๊ท๋ชจ ๋ชจ๋ธ์ ํ๊ธฐ์ ์กฐํฉ์ ํตํด ๋ก๋ด ํ์ต์ ์ฃผ์ ๋ณ๋ชฉ(์ธ์ด ์ฃผ์)์ ์ ๊ฑฐํ๋ฉด์๋ ์ค์ ํ๊ฒฝ์์์ ์์ฐ์ธ์ด ๋ค๋น๊ฒ์ด์ ์ ๋ฌ์ฑํ ํ์ ์ ์ฐ๊ตฌ๋ค. ํ์ธํ๋ ์๋ ๋ชจ๋์ ์ค๊ณ์ ์ค์ ํ๊ฒฝ ๊ฒ์ฆ์ด ํ๊ณ์ ์ฐ์ ์์ชฝ ๋ชจ๋์ ๋์ ์ํฅ๋ ฅ์ ์ ์ํ๋ค.