์ ์: Yi Zhang, Qiang Zhang, Xiaozhu Ju, Zhaoyang Liu, Jilei Mao, Jingkai Sun, Jintao Wu, Shixiong Gao, Shihan Cai, Zhiyuan Qin, Linkai Liang, Jiaxu Wang, Yiqun Duan, Jiahang Cao, Renjing Xu, Jian Tang | ๋ ์ง: 2025-03-14 | URL: https://arxiv.org/abs/2503.11089 📄 PDF
Figure 1. Overview of EmbodiedVSR, a framework integrating multimodal interaction and dynamic task execution. EmbodiedVS
EmbodiedVSR๋ ๋์ scene graph์ Chain-of-Thought ์ถ๋ก ์ ๊ฒฐํฉํ์ฌ embodied agent์ ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ํ๋ ์์ํฌ์ด๋ฉฐ, ์ด๋ฅผ ํ๊ฐํ๊ธฐ ์ํด eSpatial-Benchmark ๋ฐ์ดํฐ์ ์ ์ ์ํ๋ค.
Figure 4. eSpatial-RoboMIND Benchmark evaluation
Figure 1. Overview of EmbodiedVSR, a framework integrating multimodal interaction and dynamic task execution. EmbodiedVS
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ MLLMs์ embodied intelligence์ ์ ์ฉํ๊ธฐ ์ํด ๋์ scene graph์ structured reasoning์ ๊ฒฐํฉํ ํ์ ์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ฉฐ, ์๋ก์ด ๋ฒค์น๋งํฌ์ ํจ๊ป zero-shot ๊ณต๊ฐ ์ถ๋ก ์์ ์ ์๋ฏธํ ์ฑ๋ฅ ๊ฐ์ ์ ๋ฌ์ฑํ๋ค. ํด์ ๊ฐ๋ฅ์ฑ๊ณผ ์ค์ฉ์ฑ ๋ฉด์์ embodied AI ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.