Can language models falsify? evaluating algorithmic reasoning with counterexample creation

์ €์ž: Shiven Sinha, Shashwat Goel, P. Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2502.19414 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ํ‘œ์ค€ ๋ฒค์น˜๋งˆํฌ๋Š” ๋ชจ๋ธ์˜ ํ•ด๊ฒฐ์ฑ… ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ˜๋ฉด, ๋ณธ ๋…ผ๋ฌธ์€ ๋ถ€์ •ํ™•ํ•œ ํ•ด๊ฒฐ์ฑ…์„ ๋ฐ˜๋ฐ•(falsify)ํ•˜๋Š” ์—ญ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค.

์–ธ์–ด ๋ชจ๋ธ(LM)์ด ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋ฌธ์ œ์˜ ๋ถ€์ •ํ™•ํ•œ ํ•ด๊ฒฐ์ฑ…์— ๋Œ€ํ•œ ๋ฐ˜๋ก€(counterexample)๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€๋ผ๋Š” ์งˆ๋ฌธ์— ๋‹ตํ•˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ, REFUTE ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ์ตœ์‹  LM๋“ค์ด ๋ฐ˜๋ก€ ์ƒ์„ฑ ๋Šฅ๋ ฅ์—์„œ ์‹ฌ๊ฐํ•œ ํ•œ๊ณ„๋ฅผ ๋ณด์ž„์„ ์‹ค์ฆ์ ์œผ๋กœ ์ž…์ฆํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํŒŒ์ดํ”„๋ผ์ธ. 647๊ฐœ ๋ฌธ์ œ์—์„œ ํ•„ํ„ฐ๋ง์„ ํ†ตํ•ด ์ตœ์ข… 324๊ฐœ ์ƒ˜ํ”Œ๋กœ ๊ตฌ์„ฑ๋œ REFUTE ๋ฒค์น˜๋งˆํฌ ์ƒ์„ฑ.

  1. ์„ฑ๋Šฅ ๊ฒฉ์ฐจ์˜ ์‹ค์ฆ์  ์ž…์ฆ:
    • 50% ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ๋ณด์ด๋Š” o3-mini๊ฐ€ ๋ฐ˜๋ก€ ์ƒ์„ฑ์—์„œ๋Š” <9% ์„ฑ๊ณต๋ฅ ๋งŒ ๊ธฐ๋ก
    • DeepSeek R1๋„ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ (์•ฝ 8-9%)
    • Few-shot prompting, chain-of-thought, code execution feedback์„ ๋ชจ๋‘ ์ ์šฉํ•ด๋„ ๊ฐœ์„  ๋ฏธ๋ฏธ
  2. ๊ฒ€์ฆ-์ƒ์„ฑ ๊ฒฉ์ฐจ(generator-verifier gap) ๊ทœ๋ช…:
    • ๋ถ€์ •ํ™•ํ•œ ํ•ด๊ฒฐ์ฑ… ๊ฒ€์ฆ์ด ๋•Œ๋กœ ๊ทธ ๋ฌธ์ œ๋ฅผ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํ‘ธ๋Š” ๊ฒƒ๋ณด๋‹ค ๋” ์–ด๋ ค์›€์„ ์ฆ๋ช…
    • ์ž๋™ ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค ์ƒ์„ฑ๋งŒ์œผ๋กœ๋Š” ๋ถˆ์ถฉ๋ถ„ (๋ฐ˜๋ก€๋Š” ์กฐํ•ฉ๋ก ์ ์œผ๋กœ ํฐ ์ž…๋ ฅ ๊ณต๊ฐ„์˜ ๋น„์ž๋ช…ํ•œ ์˜์—ญ์— ์œ„์น˜)
    • ๋ชจ๋ธ์ด ์˜ค๋ฅ˜ ํƒ์ง€ ๋Šฅ๋ ฅ์ด ๋ถ€์กฑํ•˜๋ฉด ์ž๋™ ์ˆ˜์ •๋„ ๋ถˆ๊ฐ€๋Šฅํ•จ์„ ์‹œ์‚ฌ
  3. ๋™์  ์—…๋ฐ์ดํŠธ ๋ฒค์น˜๋งˆํฌ ์ œ๊ณต:
    • Codeforces์˜ ์ตœ์‹  ๋ฌธ์ œ(2024-2025)๋กœ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ์˜ค์—ผ ๋ฐฉ์ง€
    • LiveCodeBench ๋ฐฉ์‹ ๋”ฐ๋ฅด๋ฉฐ ์ •๊ธฐ์  ์—…๋ฐ์ดํŠธ๋กœ ์žฅ๊ธฐ์  ํ‰๊ฐ€ ์ฒด๊ณ„ ๊ตฌ์ถ•

How

Figure 3

๊ทธ๋ฆผ 3: ๋ถ€์ •ํ™•ํ•œ ํ•ด๊ฒฐ์ฑ…์ด ํ†ต๊ณผํ•˜๋Š” ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค ๋ถ„ํฌ. ์ค‘์•™๊ฐ’์ด 65-85% ํ†ต๊ณผ๋กœ, ๋‹จ์ˆœ ๋ฌด์ž‘์œ„ ํƒ์ƒ‰์œผ๋กœ๋Š” ๋ฐ˜๋ก€ ๋ฐœ๊ฒฌ ๋ถˆ๊ฐ€๋Šฅํ•จ์„ ๋ณด์—ฌ์คŒ.

๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ํ•„ํ„ฐ๋ง:

๋ฐ˜๋ก€ ๊ฒ€์ฆ ๋ฉ”์ปค๋‹ˆ์ฆ˜:

ํ‰๊ฐ€ ์„ค์ •:

ํ•„ํ„ฐ๋ง ์—„๊ฒฉ์„ฑ:

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.25/5

์ดํ‰: ์–ธ์–ด ๋ชจ๋ธ์˜ "๋ฐ˜๋ฐ•(falsification)" ๋Šฅ๋ ฅ์ด๋ผ๋Š” ๊ณผํ•™์ ์œผ๋กœ ์ค‘์š”ํ•˜๋ฉด์„œ๋„ ๋ฒค์น˜๋งˆํฌ๋˜์ง€ ์•Š์€ ์˜์—ญ์„ ์ฒ˜์Œ ์ •์‹ํ™”ํ•˜๊ณ , ์ž๋™ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋„๋ฉ”์ธ์—์„œ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•œ ์ ์—์„œ ์„ ๋„์  ๊ณตํ—Œ์ด๋‹ค. ๋‹ค๋งŒ ๋„๋ฉ”์ธ์˜ ์ œ์•ฝ์„ฑ, ๊ฐœ์„  ๋ฐฉ๋ฒ•์˜ ๋ถ€์žฌ, ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ ๋ฏธ๊ฒ€์ฆ์ด ์•„์‰ฌ์šฐ๋ฏ€๋กœ, ํ›„์† ์—ฐ๊ตฌ์—์„œ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์œผ๋กœ์˜ ํ™•๋Œ€์™€ ๋ชจ๋ธ ๊ฐœ์„  ์ „๋žต ์—ฐ๊ตฌ๊ฐ€ ํ•„์ˆ˜์ ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Deepseek-prover ๋…ผ๋ฌธ์€ LLM์˜ ๋…ผ๋ฆฌ ๋ฐ ๊ณต์‹ ์ฆ๋ช… ๋Šฅ๋ ฅ์„ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๊ธฐ๋ฐ˜์œผ๋กœ ํ™•์žฅํ•˜์—ฌ ๋ฐ˜๋ก€ ์ƒ์„ฑ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์–ธ์–ด ๋ชจ๋ธ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์  ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
390๋ฒˆ ๋…ผ๋ฌธ์€ LLM์˜ ๋ถˆํ™•์‹ค์„ฑ ๋ฐ ์ž๋™ ์ฆ๋ช… ๊ณผ์ •์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€์— ๊ด€ํ•œ ์ด๋ก ์„ ์ œ์‹œํ•˜์—ฌ, ๋ฐ˜๋ก€ ์ƒ์„ฑ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ๋…ผ์˜์˜ ๊ทผ๊ฑฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Can language models falsify ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ๊ฐ€์„ค ๊ฒ€์ฆ์˜ ๊ธฐ๋ณธ ๊ฐœ๋… ๋ฐ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ POPPER์˜ ์ด๋ก ์  ํ† ๋Œ€๋กœ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ๋…ผ๋ฆฌ์  ์ถ”๋ก  ๋ฐ ๋ฐ˜๋ก€ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘˜ ๋‹ค ์‚ฌ์‹คยท์•Œ๊ณ ๋ฆฌ์ฆ˜์  ์ฃผ์žฅ์— ๋Œ€ํ•œ ๊ฒ€์ฆ ๋ฐ ์˜ค๋ฅ˜ ํƒ์ง€๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, 182๋Š” ๋ฐ˜๋ก€ ์ƒ์„ฑ ๋Šฅ๋ ฅ์— ์ง‘์ค‘, 333์€ ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๋‹ค์ค‘ ์ถ”๋ก  ํ‰๊ฐ€์— ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Can language models falsify ๋…ผ๋ฌธ์€ ๋ชจํ˜ธ์„ฑ ํ•ด์†Œ์™€ ๋ฐ˜๋ก€ ์ƒ์„ฑ ๋Šฅ๋ ฅ ๋น„๊ต๋ฅผ ํ†ตํ•ด LLM์˜ ์ƒํ˜ธ์ž‘์šฉ ๊ธฐ๋ฐ˜ ๋…ผ๋ฆฌ์  ์ถ”๋ก  ํ•œ๊ณ„๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋ฌธ์ œ ํ•ด๊ฒฐ์—์„œ LLM์˜ ๋Šฅ๋ ฅ๊ณผ ํ•œ๊ณ„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ๋ฐ˜์ฆ ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•ด ์‹ค์ฆ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์ ์—์„œ ๋ฐ˜์ฆ ์ค‘์‹ฌ์˜ AIGS์™€ ๋ฌธ์ œ์˜์‹์ด ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์–ธ์–ด ๋ชจ๋ธ์˜ ์ฝ”๋“œ ์ถ”๋ก  ๋ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์  ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ๋ฒค์น˜๋งˆํฌ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์ถ”๋ก  ํ•œ๊ณ„๋ฅผ ์‹ค์ฆ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ๋กœ, ๋‹ค๋ฅธ ์ถ”๋ก  ๊ณผ์ œ๋ฅผ ๋‹ค๋ฃฌ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์˜ ๋‹จ๊ณ„๋ณ„ ์ž๊ธฐ๊ฒ€์ฆ(Self-Check) ๋Šฅ๋ ฅ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๋ฐ˜๋ก€์ƒ์„ฑ๊ณผ ์˜ค๋ฅ˜ ๊ฒ€์ถœ์˜ ๊ทผ๋ณธ์  ํ•œ๊ณ„ ๋ถ„์„์„ ๊ตฌ์ฒดํ™”ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋‘˜ ๋‹ค ์‚ฌ์‹ค/์ฃผ์žฅ ๊ฒ€์ฆ์—์„œ ์‹ฌํ™”๋œ ์ถ”๋ก ๊ณผ ๋ฐ˜๋ก€, ์˜ค๋ฅ˜ ๋ฐœ๊ฒฌ ๋Šฅ๋ ฅํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, 182๋Š” ๋ฐ˜๋ก€ ์ƒ์„ฑ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ์‚ฌ์‹ค ๊ฒ€์ฆ ํ•œ๊ณ„๋ฅผ ๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •