์ ์: Mengfei Du, Binhao Wu, Zejun Li, Xuanjing Huang, Zhongyu Wei | ๋ ์ง: 2024-06-09 | URL: https://arxiv.org/abs/2406.05756 📄 PDF
Figure 1: Comparison between EmbSpatial-Bench and
Large Vision-Language Model(LVLM)๋ค์ ๊ตฌํํ๋ ํ๊ฒฝ์์์ ๊ณต๊ฐ ์ดํด ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด egocentric ๊ด์ ์ 6๊ฐ์ง ๊ณต๊ฐ ๊ด๊ณ๋ฅผ ํฌํจํ๋ EmbSpatial-Bench ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ๊ณ , ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํ instruction-tuning ๋ฐ์ดํฐ์ EmbSpatial-SFT๋ฅผ ์ ์ํ๋ค.
Figure 2: Overview of the construction pipeline for EmbSpatial-Bench based on existing annotated 3D environments.
Figure 2: Overview of the construction pipeline for EmbSpatial-Bench based on existing annotated 3D environments.
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ embodied AI์ ํต์ฌ ๋ฅ๋ ฅ์ธ spatial understanding์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํด egocentric ๊ด์ ์ ๋ฒค์น๋งํฌ๋ฅผ ์ฒ์์ผ๋ก ์ ์ํ๋ฉฐ, 3D ํ๊ฒฝ ๊ธฐ๋ฐ์ ์๋ ๊ตฌ์ถ ํ์ดํ๋ผ์ธ๊ณผ ๊ฐ์ ๋ฐ์ดํฐ์ ์ ํตํด ํ์ฌ LVLM์ ๋ช ํํ ๋ถ์กฑํจ์ ๋๋ฌ๋ด๊ณ ๊ฐ์ ๋ฐฉํฅ์ ์ ์ํ๋ค๋ ์ ์์ embodied AI ์ปค๋ฎค๋ํฐ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.