์ ์: Debangshu Banerjee, Changming Xu, Gagandeep Singh | ๋ ์ง: 2026.03 | DOI: ๋ฏธ์ ๊ณต 📄 PDF
Fig. 1. Overview of SEVerA, which operates in three key steps. (1) Search: Given the task information, library
๋ณธ ๋ ผ๋ฌธ์ ์๊ฐ ์งํํ๋ LLM ์์ด์ ํธ๋ฅผ ์์ ํ๊ฒ ํฉ์ฑํ๊ธฐ ์ํด Formally Guarded Generative Models (FGGM)์ ๋์ ํ๊ณ , ํ์ ๊ฒ์ฆ๊ณผ ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ์ต์ ํ๋ฅผ ๊ฒฐํฉํ SEVerA ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. Search-Verify-Learn ์ธ ๋จ๊ณ๋ฅผ ํตํด ํ์์ ์ ํ์ฑ ๋ณด์ฅ๊ณผ ์์ ์ฑ๋ฅ ํฅ์์ ๋์์ ๋ฌ์ฑํ๋ค.
Fig. 2. Auto-synthesized guarded GM with
0 ์ ์ฝ ์๋ฐ ๋ฌ์ฑ\n- HumanEvalDafny: 97.0% ๊ฒ์ฆ ์ฑ๊ณต๋ฅ (์ต๊ณ ๊ธฐ์ค 86.9% ๋๋น)\n- GSM-Symbolic: 66.0% ์ ํ๋ (์ต๊ณ constrained-decoding 44.7% ๋๋น)\n- ฯ2-bench ํญ๊ณต์ฌ ๋๋ฉ์ธ: 52.6% ํต๊ณผ์จ (Qwen3-8B ๊ธฐ์ค, Claude Sonnet 4.5 ๊ธฐ๋ฐ Agent-C๋ ์ด๊ณผ)\nํ์ ์ ํ์ฑ ์ฆ๋ช : Theorem 5.4โ๋ฐํ ์์ด์ ํธ๋ ๋ชจ๋ ์ ๋ ฅ๊ณผ ํ๋ผ๋ฏธํฐ์์ ํ๋ ๋ช ์ธ ๋ง์กฑ\n์ฑ๋ฅ ๊ฐ์ : Theorem 5.5โ์ ์ฝ ์๋ ๋ชจ๋ธ ๋๋น ์์ ์์ค ์์ ๋ณด์ฅ, ๋ฏธ์ค์ ์ ์๊ฒฉํ ๊ฐ์ ์ฆ๋ช
Fig. 1. Overview of SEVerA, which operates in three key steps. (1) Search: Given the task information, library
โข first-order logic ๊ณ์ฝ์ LLM ์ถ๋ ฅ ๋ฌธ์์ด์๋ง ์ ์ฉํ์ฌ ๊ฐ๋ฐฉํ/ํ์ํ ๋ชจ๋ธ ๋ชจ๋ ์ง์\nโข ๊ฒ์ฆ๊ธฐ(verifier)์ ํ์ ์ฆ๋ช ๊ณผ ๊ทธ๋๋์ธํธ ๊ธฐ๋ฐ ์ต์ ํ์ ๋ถ๋ฆฌ๋ก ๊ธฐ์กด GRPO, ๋ฏธ์ธ์กฐ์ ๋๊ตฌ ์ฌ์ฌ์ฉ ๊ฐ๋ฅ\nโข ํ์์ ์ ์ฝ์ด ํ๋ก๊ทธ๋จ ํ์ ๊ณต๊ฐ์ ์ ์ (prune)ํ์ฌ ๋ ๋์ ํ์ง ์์ด์ ํธ๋ก ์๋ดํ๋ ๊ธ์ ์ ๋ถ์์ฉ ํ์ฉ
โข FGGM์ novel ๊ฐ๋ : ์์ฑ ๋ชจ๋ธ ํธ์ถ ์์ค์์ first-order logic ๊ธฐ๋ฐ ํ์ ๊ณ์ฝ ๋์ ์ผ๋ก ๊ธฐ์กด constrained decoding์ ๊ตฌ๋ฌธ-์ค์ฌ ์ ์ฝ์ ์๋ฏธ๋ก ์ ์์ค์ผ๋ก ํ์ฅ\nโข ํ์ ๊ฒ์ฆ๊ณผ ๋ฏธ๋ถ ๊ฐ๋ฅ ํ์ต์ ๋ช ์์ ๋ถ๋ฆฌ ์ค๊ณ: Verify ๋จ๊ณ๊ฐ ๋ชจ๋ ํ๋ผ๋ฏธํฐ์ ๋ํ ์ ํ์ฑ์ ๋ณด์ฅํ๋ฏ๋ก Learn์์ ์ ์ฝ ์๋ ์ต์ ํ๋ก ํ์ ๊ฐ๋ฅ\nโข ์๊ฐ ์งํ ์์ด์ ํธ์ ํ์ ๋ณด์ฅ์ ์ฒ์์ผ๋ก ๋ถ์ฌํ ์ข ํฉ ํ๋ ์์ํฌ
์ด๋ก ์ ํ๊ณ: Theorem 5.5์ "์ถฉ๋ถ ์กฐ๊ฑด"์ด ์ค์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ด ์ ํ์ ์ผ ์ ์์ผ๋ฉฐ, ์ด๋ค ์ํฉ์์ ์ด ์กฐ๊ฑด์ด ๋ง์กฑ๋๋์ง์ ๋ํ ์ค์ฆ์ ๋ถ์์ด ๋ถ์กฑ\n์คํ ๋ฒ์: ๊ธฐ์กด program repair, code generation ๊ฐ์ ๊ด๋ฒ์ํ LLM ์์ด์ ํธ ์์ ์ ๋ํ ํ๊ฐ ๋ถ์ฌ, ๊ณ์ฐ ๋น์ฉ(ํ์ ๊ฒ์ฆ ์ค๋ฒํค๋) ๋ถ์ ๋ฏธํก\n์์ฑ ๋ชจ๋ธ ์ ์ฝ: FGGM์ rejection sampler๋ ๊ณ์ฝ ๋ง์กฑ ์ํ์ด ๋งค์ฐ ํฌ๊ทํ ๊ฒฝ์ฐ ์ํ๋ง ๋นํจ์จ ๊ฐ๋ฅ์ฑ\nํ์ ์ฐ๊ตฌ: (1) ๋ ๊ด๋ฒ์ํ agent ๋๋ฉ์ธ ํ๊ฐ, (2) ๋ณตํฉ ํ์ ๋ช ์ธ์ ๋ํ ๊ฒ์ฆ ํ์ฅ์ฑ ๋ถ์, (3) ์ ์ฝ-์ฑ๋ฅ ํธ๋ ์ด๋์คํ ๋ฉ์ปค๋์ฆ์ ์ด๋ก ์ ์ฌํ
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ์๊ฐ ์งํ LLM ์์ด์ ํธ์ ํ์์ ์์ ์ฑ์ด๋ผ๋ ๊ธด๊ธํ ๋ฌธ์ ๋ฅผ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฃจ๋ฉฐ, FGGM๊ณผ SEVerA๋ ๊ธฐ์ ์ ์ผ๋ก ๊ฑด์ ํ๊ณ ์ค์ ์ฑ๋ฅ์์๋ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ธ๋ค. ๋ค๋ง ์ด๋ก ์ ์ถฉ๋ถ ์กฐ๊ฑด์ ์ค์ฉ์ฑ ๋ช ํํ์ ํ๊ฐ ๋๋ฉ์ธ ํ๋๊ฐ ํ์ํ๋ค.