์ ์: Yogesh K. Dwivedi, Nir Kshetri, Laurie Hughes, Emma Slade, Anand Jeyaraj, Arpan Kumar Kar, Abdullah M. Baabdullah, Alex Koohang, Vishnupriya Raghavan, Manju Ahuja, Hanaa Albanna, Mousa Ahmad Albashrawi, Adil S. Al-Busaidi, Janarthanan Balakrishnan, Yves Barlette, Sriparna Basu, Indranil Bose, Laurence Brooks, Dimitrios Buhalis, Lemuria Carter | ๋ ์ง: 2024 | URL: https://arxiv.org/abs/2412.18781 📄 PDF
Essence
Figure 3: Testing-time robustness evaluation results under varying adversarial perturbation strengths in three legged
๋ณธ ๋
ผ๋ฌธ์ ์คํ๋ผ์ธ ๊ฐํํ์ต(Offline RL) ๋ฐฉ๋ฒ๋ค์ ํ๋ ์ญ๋(action perturbation)์ ๋ํ ๊ฒฌ๊ณ ์ฑ์ ํ๊ฐํ๋ฉฐ, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ์จ๋ผ์ธ RL๋ณด๋ค ๋ ์ทจ์ฝํจ์ ๋ณด์ฌ์ค๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์คํ๋ผ์ธ RL์ ์ค์ ์์ฉ์ ์ค์ํ ํ๋ ์ญ๋ ๊ฒฌ๊ณ ์ฑ์ ์ฒ์ ๋ค๋ฃจ์์ผ๋ฉฐ, ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ทจ์ฝ์ฑ์ ๋ช
ํํ ์
์ฆํ๋ค. ๋ค๋ง ํด๊ฒฐ์ฑ
์ ์ ๋ถ์กฑ๊ณผ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ ์ ํ์ด ์์ฌ์ฐ๋, ํฅํ ๊ฒฌ๊ณ ํ ์คํ๋ผ์ธ RL ๊ฐ๋ฐ์ ์ํ ์ค์ํ ๋ฒค์น๋งํฌ ์ฐ๊ตฌ๋ก ๊ฐ์น๊ฐ ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
859๋ ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ์ ์ฌ์ค ๊ฒ์ฆ๊ณผ ๋ด์ฌ์ ์ ๋ขฐ์ฑ์ ๋ค๋ฃจ์ด, RL์ ํ๋ ๋ฐ ๋ณด์ ํ๊ฐ์ ๊ดํ ์ ๋ขฐ์ฑ ๋
ผ์์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ์ํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Evaluation of openai o1 ๋
ผ๋ฌธ์ AI ์์ด์ ํธ ํ๊ฐ์ ์ค๋ฌด์ ํ๊ณ์ ๋ฐฉ๋ฒ๋ก ์ ๋
ผ์ํ๋ฉฐ, 688์ ์คํ๋ผ์ธ RL ๊ฒฌ๊ณ ์ฑ ๋ถ์์๋ ์ ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
688์ ์คํ๋ผ์ธ ๊ฐํํ์ต์ ์ผ๋ฐํ ํ๊ฐ์ ๋ค์ํ ํ๊ฒฝ ๋ด ๊ฐ์ธ์ฑ ์คํ์ ๋ค๋ค์, 422์ sharpness-aware minimization ์ ์ฉ ์ ์คํ์ ์ฐธ์กฐ๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
449๋ ๋ํ ์ธ์ด๋ชจ๋ธ๊ณผ RL ์ตํฉ ํ์ฅ ์ ๋ต์ ์ ์ํ๋ฉฐ RL์ ์ผ๋ฐํ ๋ฐ ์ทจ์ฝ์ฑ ๋ฌธ์ ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์คํ๋ผ์ธ ๊ฐํํ์ต์ ๊ฒฌ๊ณ ์ฑ ํ๊ฐ์ ๋ค์ํ ํ๊ฒฝ ์ ์ฉ ์ฌ๋ก๊ฐ ๋ณธ ๋
ผ๋ฌธ์ ๋ก๋ด ์ ์ด ๋์ํ์ต์ ์คํ์ ๊ทผ๊ฑฐ๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์คํ๋ผ์ธ RL์ ๋ก๋ด ์ ์ด ๊ฒฌ๊ณ ์ฑ ํ๊ฐ๋ก, ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ง์ดํฌ๋กํ๋ฃจ์ด๋ ์คํ ์ ์ด์ ํ๊ณ ๋ฐ ์์ ์ฑ ๋ฌธ์ ์ ์ฐ๊ฒฐํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
891์ RL ์ ์ฑ
์ sim-to-real zero-shot ์ ์ด ๋ฌธ์ ์์ ๊ฒฌ๊ณ ์ฑ์ ๋ค๋ฅด๊ฒ ํ๊ฐํ์ฌ, 688์ ์คํ๋ผ์ธ RL ๊ฒฌ๊ณ ์ฑ ์ฐ๊ตฌ์ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Robustness evaluation of offline reinforcement learning for science ๋
ผ๋ฌธ์ RL์ ์์ /๊ฒฌ๊ณ ์ฑ ๋ฌธ์ ๋ฅผ CBF ์ ๊ทผ ์ด์ธ์ ์คํ ๊ธฐ๋ฐ ํ๊ฐ๋ก ๋ค๋ฃจ์ด, RL ์์ ์ฑ์ ๋์์ ๋
ผ์๋ฅผ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ง์ดํฌ๋กํ๋ฃจ์ด๋ ์ ์ด ์ค์ ์คํ ํ์ฅ์์ RL ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฌ๊ณ ์ฑ์ ์ง์ ์คํ์ ์ผ๋ก ๋ถ์ํ ๋
ผ๋ฌธ์ผ๋ก, ์ค์ง์ ํ์ ์ฐ๊ตฌ๋ค.
ํ์ ์ฐ๊ตฌ
Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models ๋
ผ๋ฌธ์ ๋ณด์ ๊ธฐ๋ฐ ํ๋๊ณผ ๊ฒฌ๊ณ ์ฑ ๊ฐํ ์ ๊ทผ์ ํตํ RL ๋ชจ๋ธ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ถ๊ฐ๋ก ๋ค๋ฃน๋๋ค.
ํ์ ์ฐ๊ตฌ
456์ ์์ฐ์ด์์ ๋ฌผ๋ฆฌ ์ ์ฝ ๊ฐํ ์ ๊ฒฝ๋ง์ ์์ฑํ๋ ๋ฐฉ์์ผ๋ก RL ๊ธฐ๋ฐ ๋ชจ๋ธ ๊ฒฌ๊ณ ์ฑ์ ์๋ก์ด ํํ๋ก ๋ฐ์ ์ํจ๋ค.
์์ฉ ์ฌ๋ก
868์์ AI ๊ธฐ๋ฐ ๋ฐ์ด์ค๋ฉ๋์ปฌ ์คํ ์๋ํ์ ์ฌ๋ก๋ฅผ ๋ค๋ฃจ๋ฏ๋ก, RL ๊ธฐ๋ฐ ์ ์ด์์คํ
์ ์คํ ๊ฐ๋ฅ์ฑ๊ณผ ์ฐ๊ฒฐ๋์ด ์์ต๋๋ค.