์ ์: Se Hwan Jeon, Steve Heim, Charles Khazoom, Sangbae Kim | ๋ ์ง: 2023-07-19 | URL: https://arxiv.org/abs/2307.10142 📄 PDF
Fig. 2: A visualization of a tracking reward in both direct-
๋ณธ ๋ ผ๋ฌธ์ humanoid ๋ก๋ด์ ๊ณ ์ฐจ์ ๋ณดํ ํ์ต์์ potential-based reward shaping (PBRS)๊ณผ direct reward shaping (DRS)์ ๋ฒค์น๋งํฌํ์ฌ, PBRS๊ฐ ์๋ ด ์๋์์๋ ํ๊ณ์ ์ด์ ๋ง ์ ๊ณตํ์ง๋ง ๋ณด์ ์ฒ๋์ ๋ํด ํจ์ฌ ๋ ๊ฒฌ๊ณ ํ๋ค๋ ๊ฒ์ ์ค์ฆ์ ์ผ๋ก ์ ์ฆํ๋ค.
Fig. 3: Values for the total baseline rewards during training
Fig. 1: The potential based (left), direct (middle), and base-
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ๊ณ ์ฐจ์ ๋ก๋ณดํฑ ์์คํ ์์ PBRS์ ์ค์ ํจ๊ณผ๋ฅผ ์ค์ฆ์ ์ผ๋ก ๊ฒ์ฆํ ์ค์ํ ์ผ์ด์ค ์คํฐ๋๋ก, ๋ณด์ ํจ์ ์ค๊ณ์ ์ค๋ฌด์ ์ง์นจ(ํนํ ๊ฒฌ๊ณ ์ฑ ์ธก๋ฉด)์ ์ ๊ณตํ๋ค. ๋ค๋ง ๋จ์ผ ํ์คํฌ ๋ฒค์น๋งํฌ์ ์ด๋ก -์ค์ ๊ฐ ๊ฒฉ์ฐจ์ ์์ธ ๋ถ์์ด ๋ณด๊ฐ๋๋ค๋ฉด ๋์ฑ ๊ฐ๋ ฅํ ๊ธฐ์ฌ๊ฐ ๋ ๊ฒ์ด๋ค.