์ ์: Kunlun Zhu, Jiaxun Zhang, Ziheng Qi, Ning Shang, Zijia Liu, Pengfei Han, Yue Su, Haofei Yu, Jiaxuan You | ๋ ์ง: 2025 | DOI: arXiv:2505.23559 📄 PDF
SafeScientist๋ ์ ์์ ์ด๊ฑฐ๋ ์ํํ ํ๋กฌํํธ์ ๋ํด ๊ฑฐ์ ์๋ต์ ์ ์ํ๋ฉฐ, ์ผ๋ฐ AI ๊ณผํ์ ํ๋ ์์ํฌ์ ๋ฌ๋ฆฌ ์ํ ์ธ์(Risk-Awareness)์ ํตํด ์์ ํ๊ฒ ๊ณ ์ํ ์ฃผ์ ๋ฅผ ๋ค๋ฃฌ๋ค.
๋ณธ ๋ ผ๋ฌธ์ LLM ๊ธฐ๋ฐ AI ๊ณผํ์ ์์ด์ ํธ์ ์๋ํ๋ ๊ณผํ ๋ฐ๊ฒฌ ๊ณผ์ ์์ ๋ฐ์ํ๋ ์ค๋ฆฌ์ , ์์ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๊ธฐ ์ํด SafeScientist ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ด๋ ๋ค์ธต ๋ฐฉ์ด ๋ฉ์ปค๋์ฆ(prompt monitoring, agent collaboration monitoring, tool-use monitoring, ethical reviewer)์ ํตํฉํ์ฌ ๊ณผํ ์ฐ๊ตฌ ํ์ดํ๋ผ์ธ ์ ๋ฐ์ ๊ฑธ์ณ ์์ ์ฑ์ ๋ณด์ฅํ๋ค.
SafeScientist์ ์๋-ํฌ-์๋ ํ์ดํ๋ผ์ธ: ์ ๋ ฅ ๊ฐ์ง(Prompt Monitor), ๋ค์ค ์์ด์ ํธ ํ ๋ก (Discussion Stage), ๋๊ตฌ ์ฌ์ฉ(Tool Use Stage), ๋ ผ๋ฌธ ์์ฑ(Writing Stage)์ ๊ฑฐ์ณ SciSafetyBench ๊ธฐ๋ฐ ๊ณต๊ฒฉ/๋ฐฉ์ด ํ๊ฐ๋ฅผ ํตํฉ.
๋ฐฉ์ด ๋ฉ์ปค๋์ฆ (Defense Methods):
์ฐ๊ตฌ ํ์ดํ๋ผ์ธ:
์ดํ: SafeScientist๋ LLM ๊ธฐ๋ฐ AI ๊ณผํ์์ ์ค๋ฆฌ์ , ์์ ํ ๋ฐฐํฌ๋ฅผ ์ํ ์์์ ์ ํ๊ณ ํฌ๊ด์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, SciSafetyBench๋ ๊ณผํ ๋งฅ๋ฝ์ ๊ณ ์ ํ ์ํ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ ์ ์๋ ๊ท์คํ ์์ฐ์ด๋ค. ๋ค๋ง, ์ค์ ๊ณผํ ํ๊ฒฝ์์์ ๊ฑฐ์ง ์์ฑ ๋น์จ ๊ฐ์์ ๋์ฑ ์ ๊ตํ ๋์ ๊ณต๊ฒฉ์ ๋ํ ๋ฐฉ์ด ๊ฐํ๋ ํฅํ ๊ณผ์ ์ด๋ค.