์ ์: Debargha Ganguly, Vikash Singh, Sreehari Sankar, B. X. Zhang, Xuecen Zhang, Srinivasan Iyengar, Xiaotian Han, Amit Sharma, Shivkumar Kalyanaraman, Vipin Chaudhary | ๋ ์ง: 2025 | DOI: ๋ฏธ์ ๊ณต 📄 PDF
Essence
LLM์ ๋ณธ์ง์ ์ธ ํ๋ฅ ์ฑ(probabilistic nature)๊ณผ ํ์๊ฒ์ฆ์ ๊ฒฐ์ ๋ก ์ ์๊ตฌ(deterministic guarantees) ์ฌ์ด์ ๊ทผ๋ณธ์ ๊ธด์ฅ์ ํด์ํ๊ธฐ ์ํด, ํ๋ฅ ๋ฌธ๋งฅ์์ ๋ฌธ๋ฒ(PCFG, Probabilistic Context-Free Grammar) ๊ธฐ๋ฐ ํ๋ ์์ํฌ๋ฅผ ๋์
ํ์ฌ LLM ์์ฑ SMT-LIB ํ๋ก๊ทธ๋จ์ ๋ถํ์ค์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ํํ๊ณ , ์ด๋ฅผ ํตํด ์ ํ์ ๊ฒ์ฆ(selective verification)์ผ๋ก 14-100% ์ค๋ฅ์จ์ ๊ฐ์์ํจ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ถํ์ค์ฑ ์ ๋ํ ๋ฐฉ๋ฒ์ ๋ํ ์๋ฒ ์ด๊ฐ 390๋ฒ์ ํ๋ฅ ๋ฌธ๋ฒ/์ถ๋ก ์ ๋ขฐ์ฑ ํ๊ฐ ํ๋ ์์ํฌ์ ์ด๋ก ์ ์ถ๋ฐ์ ์ ํด๋น๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ถํ์ค์ฑ ์ ๋ํ์ ๊ดํ ์ด๋ก ์ ๋
ผ์๊ฐ LLM์ ํ์์ถ๋ก ๋ถํ์ค์ฑ ํ๋ ์์ํฌ์ ๊ทผ๋ณธ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Mechanistic interpretability for ai safety ๋
ผ๋ฌธ์ LLM ์๋ํ ์ถ๋ก ๊ณผ์ ์ ๋ถํ์ค์ฑ ๋ฐ ์ ๋ขฐ ์ ๋ํ์ ํ์์ ์ธ ์ด๋ก ์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ฉฐ PCFG/๋ถํ์ค์ฑ ๋ถ์์ ์ด๋ก ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
390๋ฒ ๋
ผ๋ฌธ์ LLM์ ๋ถํ์ค์ฑ ๋ฐ ์๋ ์ฆ๋ช
๊ณผ์ ์ ์ ๋ขฐ์ฑ ํ๊ฐ์ ๊ดํ ์ด๋ก ์ ์ ์ํ์ฌ, ๋ฐ๋ก ์์ฑ ๊ธฐ๋ฐ ํ๊ฐ ๋
ผ์์ ๊ทผ๊ฑฐ๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์ ๊ฒฝ ์ ๋ฆฌ ์ฆ๋ช
์ ๊ทผ๋ฒ์ ํ์ฅํ๊ณ , ํ์์ /ํ๋ฅ ์ ํ๋ก๋น์ ์ํธ ๋ณด์์ฑ์ ๋ณด์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ์์ ๊ฒ์ฆ ๋ฐ ์ฌ์ค ๊ฒ์ฆ์์ ์ธ์ด๋ชจ๋ธ์ ๋ถํ์ค์ฑ์ ์ ๊ฒํ๋ ๋ฑ ๋ณธ ๋
ผ๋ฌธ๊ณผ ์๋์ง๊ฐ ๋์ ์ ๊ทผ๋ฒ์ ์ฌ์ฉํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ์ ๋ขฐ๋์ ๋ถํ์ค์ฑ, ํด์๊ฐ๋ฅ์ฑ์ ํ๊ตฌ์์ ์๋ก ๋ค๋ฅธ ์ค๋ช
๋ฐฉ๋ฒ๊ณผ ํ๊ฐ ํ์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
HiPerRAG ๋
ผ๋ฌธ์ ๊ณ ์ฑ๋ฅ ๊ฒ์์ฆ๊ฐ์์ฑ ๊ตฌ์กฐ๋ก LLM์ ๋ถํ์ค์ฑ ๊ด๋ฆฌ์ ์ค์ฉ์ ์ธ ์ ๊ทผ์ ํด์ฃผ๋ฉฐ, 390์ ๋ฌธ๋ฒ์ ํ๋ฅ ์ฑ ์ ๋ํ์ ๋ณด์์ ์ผ๋ก ์ฝ์ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
๊ธฐ๊ณํ์ต ๋ชจ๋ธ ๋ถํ์ค์ฑ ์ ๋ขฐ ๊ตฌ๊ฐ ์ค์ ์ ๋ํ ์ด๋ก ์ ์๋ฆฌ ๋ฐ ์์ฉ ๋ถ๋ฅ๋ก, UQ ๋ฐฉ๋ฒ ์ ํ ๊ธฐ์ค์ ๋ณด์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
MLE-bench ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๊ณผํ์ ์ถ๋ก ๋ฐ ๋ถํ์ค์ฑ ํ๊ฐ๋ฅผ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ ์ค๊ณ๋ก์ ํ๋ฅ ๊ธฐ๋ฐ ๋ถํ์ค์ฑ ์ ๋ํ์ ์ค์ ํ๊ฐ ๋ฐฉ๋ฒ์ ์ถ๊ฐ๋ก ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
TrustLLM ๋
ผ๋ฌธ์ ๋ํ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ ํ์ ์ถ๋ก ์ ์ ๋ขฐ๋, ๋ถํ์ค์ฑ, ํ๊ฐ๋ฐฉ๋ฒ์ ๋ณด๋ค ํญ๋๊ฒ ๋ค๋ฃจ์ด 390์ ์์ฉ๊ฐ๋ฅ์ฑ์ ํ์ฅํด ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ๋ถํ์ค์ฑ ๋ฐ ์ ๋ขฐ์ฑ ํ๊ฐ ์ ํด์๊ฐ๋ฅ์ฑ์ด ์ธ์ ยท์ด๋ป๊ฒ ํจ๊ณผ๋ฅผ ๋ฐํํ๋์ง ๋ถ์ํด ์ค๋ฌด ๊ฐ์ด๋ ๋ฒ์๋ฅผ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
์ํ์ ๋ชจ๋ธ ๋ฐ ๊ณต์ ๋ฐ๊ฒฌ ๊ณผ์ ์ ๋ณธ ๋
ผ๋ฌธ์ ๋ถํ์ค์ฑ ์ ๋ํ ํ๋ ์์ํฌ๊ฐ ํ์ฅ ์ ์ฉ๋ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
Foundation-Model Surrogates ๋
ผ๋ฌธ์ ๋ฌผ๋ฆฌ/๊ณผํ ์์
์์ ํ๋ฅ ์ฑ๊ณผ ๊ฒฐ์ ๋ก ์ ์๊ตฌ์ ์กฐ์จ์ด ํ์ํ ๋ฌธ๋งฅ ๋ด ๋ฅ๋ ํ์ต ๋ถ์ผ์ PCFG ๊ธฐ๋ฐ ํ๋ ์์ํฌ ์ ์ฉ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ค๋๋ค.