์ ์: Shivin Dass, Jiaheng Hu, Ben Abbatematteo, Peter Stone, Roberto Martรญn-Martรญn | ๋ ์ง: 2024-10-24 | URL: https://arxiv.org/abs/2410.18964 📄 PDF
Figure 1: DISaM for tasks with information-seeking behavior. To make the right decision in a
๋ก๋ด์ด ์กฐ์ ์์ ์ ์ํํ๊ธฐ ์ํด ํ์ํ ์ ๋ณด๋ฅผ ๋ฅ๋์ ์ผ๋ก ํ์ํ๋ ๋ฌธ์ ๋ฅผ factorized Contextual MDP๋ก ์ ์ํ๊ณ , ์ ๋ณด ํ์ ์ ์ฑ ๊ณผ ์ ๋ณด ํ์ฉ ์ ์ฑ ์ผ๋ก ๋ถ๋ฆฌ๋ dual-policy ์๋ฃจ์ DISaM์ ์ ์ํ๋ค.
Figure 4: Tasks in our evaluation of DISaM. We evaluated DISaM on 3 simulation tasks โ
Figure 2: Two learning stages of DISaM. In Phase 1, we learn the information-receiving policy ฯIR
์ดํ: ์ ๋ณด ํ์๊ณผ ์กฐ์์ ๋ถ๋ฆฌ๋ฅผ ํตํด ์ฅ์งํ POMDP๋ฅผ ํจ์จ์ ์ผ๋ก ํด๊ฒฐํ๋ ์ฐ์ํ ์๋ฃจ์ ์ ์ ์ํ๋ฉฐ, ๊ด๋ฒ์ํ ์คํ ๊ฒ์ฆ์ผ๋ก ์ค์ฉ์ฑ์ ์ ์ฆํ ๊ฐ๋ ฅํ ๋ ผ๋ฌธ์ด๋ค. ๋ค๋ง ๋ค๋จ๊ณ ํ์ ์ต์ ํ์ ์์ ์๋ํ์ต ๊ฐ๋ฅ์ฑ ํ์์ด ํฅํ ๊ณผ์ ์ด๋ค.