์ ์: Khang Nguyen, An T. Le, Jan Peters, Minh Nhat Vu | ๋ ์ง: 2025-06-12 | URL: https://arxiv.org/abs/2506.12095 📄 PDF
Fig. 1: Overview of DoublyAware: Disjoint uncertainty decomposi-
DoublyAware๋ TD-MPC ํ๋ ์์ํฌ์์ ๋ถํ์ค์ฑ์ planning uncertainty์ policy uncertainty๋ก ๋ช ์์ ์ผ๋ก ๋ถํดํ์ฌ, conformal prediction๊ณผ Group-Relative Policy Constraint๋ฅผ ํตํด ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์ํ ํจ์จ์ ์ด๊ณ ์์ ์ ์ธ ํ์ต์ ์คํํ๋ค.
Fig. 4: Episode Returns of DoublyAware and Baselines on H1โ2 in Locomotion Tasks: DoublyAware achieves rapid convergence
Fig. 2: Uncertainty-Aware Planning for Humanoid Locomotion: At each planning step, two sets of trajectories are sampled
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ MBRL์ ํต์ฌ ๋ฌธ์ ์ธ ๋ถํ์ค์ฑ์ planning๊ณผ policy๋ก ๋ถํดํ๊ณ ๊ฐ๊ฐ์ ๋ง๋ ์๋ฐํ ํด๋ฒ(conformal prediction, GRPC)์ ์ ์ํจ์ผ๋ก์จ ๊ฐ๋ ์ ๋ช ํ์ฑ๊ณผ ๊ธฐ์ ์ ์ฐ์์ฑ์ ๋์์ ๋ฌ์ฑํ๋ค. ํด๋จธ๋ ธ์ด๋ ๋ก๋ด ์ ์ด๋ผ๋ ๋์ ์ ๋ฌธ์ ์์ ์ค์ฆ์ ๊ฐ์ ์ ๋ณด์ฌ์ฃผ์์ผ๋, ์ค์ ๋ก๋ด ๊ฒ์ฆ๊ณผ ๊ณ์ฐ ๋น์ฉ ๋ถ์์ด ๋ณด์๋๋ฉด ๋์ฑ ๊ฐ๋ ฅํ ๊ธฐ์ฌ๊ฐ ๋ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.