Essence
๊ทธ๋ฆผ 1: ํ์ค ๋ฒค์น๋งํฌ๋ ๋ชจ๋ธ์ ํด๊ฒฐ์ฑ
์์ฑ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฐ๋ฉด, ๋ณธ ๋
ผ๋ฌธ์ ๋ถ์ ํํ ํด๊ฒฐ์ฑ
์ ๋ฐ๋ฐ(falsify)ํ๋ ์ญ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค.
์ธ์ด ๋ชจ๋ธ(LM)์ด ํ๋ก๊ทธ๋๋ฐ ๋ฌธ์ ์ ๋ถ์ ํํ ํด๊ฒฐ์ฑ
์ ๋ํ ๋ฐ๋ก(counterexample)๋ฅผ ์์ฑํ ์ ์๋๊ฐ๋ผ๋ ์ง๋ฌธ์ ๋ตํ๋ ๋
ผ๋ฌธ์ผ๋ก, REFUTE ๋ฒค์น๋งํฌ๋ฅผ ํตํด ์ต์ LM๋ค์ด ๋ฐ๋ก ์์ฑ ๋ฅ๋ ฅ์์ ์ฌ๊ฐํ ํ๊ณ๋ฅผ ๋ณด์์ ์ค์ฆ์ ์ผ๋ก ์
์ฆํ๋ค.
How
๊ทธ๋ฆผ 3: ๋ถ์ ํํ ํด๊ฒฐ์ฑ
์ด ํต๊ณผํ๋ ํ
์คํธ ์ผ์ด์ค ๋ถํฌ. ์ค์๊ฐ์ด 65-85% ํต๊ณผ๋ก, ๋จ์ ๋ฌด์์ ํ์์ผ๋ก๋ ๋ฐ๋ก ๋ฐ๊ฒฌ ๋ถ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ค.
๋ฐ์ดํฐ ์์ง ๋ฐ ํํฐ๋ง:
- Codeforces ๋ฌธ์ (647๊ฐ) โ ํํฐ๋ง ๋จ๊ณ๋ณ ๊ฐ์ โ ์ต์ข
324๊ฐ ์ํ
- "์ฝ๊ฒ ํ๊ฐ ๊ฐ๋ฅ": ์๋ ๊ฒ์ฆ ์ธํ๋ผ ํ์
- "์๋ช
ํ์ง ์์ ํด๊ฒฐ์ฑ
": ๋จ์ ํด๋ฆฌ์คํฑ์ผ๋ก ํ ์ ์์ด์ผ ํจ
- "๋ฌด์์ ์
๋ ฅ์ผ๋ก ์คํจ ๊ฐ๋ฅ์ฑ ๋ฎ์": ๋ฐ๋ก ๋ฐ๊ฒฌ์ด ์ถ๋ก ์๊ตฌ
- "ํดํน ๋ฏธ๋ผ ์๋": ์๋์ ํจ์ ์ ์ธ
๋ฐ๋ก ๊ฒ์ฆ ๋ฉ์ปค๋์ฆ:
- ๋ชจ๋ธ์ด ์
๋ ฅ์ ์์ฑํ๋ ํ๋ก๊ทธ๋จ ์ฝ๋ ์ถ๋ ฅ (์ง์ ์
๋ ฅ ๋์ )
- ๋ ๋จ๊ณ ๊ฒ์ฆ:
- ์์ฑ ์ฝ๋ ์คํ โ ์
๋ ฅ์ด ์ ์ฝ์กฐ๊ฑด ๋ง์กฑ ํ์ธ (H ๊ฒ์ฆ)
- ๋ถ์ ํ ์ฝ๋ A์ ์ ๋ต ์ฝ๋ A*์ ์ถ๋ ฅ ๋น๊ต (P ๊ฒ์ฆ)
ํ๊ฐ ์ค์ :
- ๋ชจ๋ธ: LiveCodeBench ๋ญํน ์์ 5๊ฐ ๊ฐ๋ฐ์ฌ์ ์ต์ ๋ชจ๋ธ
- ํ๋กฌํํ
: Few-shot (2-3 ์์) + Chain-of-Thought + ReAct ์์ด์ ํธ (์ฝ๋ ์คํ ํผ๋๋ฐฑ)
- ๋น๊ต ๊ธฐ์ค: ๊ฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋ ๊ฐ ๋ชจ๋ธ์ ์ฑ๊ณต๋ฅ
ํํฐ๋ง ์๊ฒฉ์ฑ:
- ๊ฐ๋ณ ํ
์คํธ๋ง์ผ๋ก 95%+ ํต๊ณผํ๋ ์ํ ์ ์ธ (๋ฌด์์ ํ์ ๊ฐ๋ฅ)
- ๋ฉํ๋ฐ์ดํฐ: ๋ฌธ์ ๋์ด๋, ์ฃผ์ (๊ทธ๋ํ/DP/์ํ ๋ฑ), ํํฐ ์์ธ ์ฃผ์
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.25/5
์ดํ: ์ธ์ด ๋ชจ๋ธ์ "๋ฐ๋ฐ(falsification)" ๋ฅ๋ ฅ์ด๋ผ๋ ๊ณผํ์ ์ผ๋ก ์ค์ํ๋ฉด์๋ ๋ฒค์น๋งํฌ๋์ง ์์ ์์ญ์ ์ฒ์ ์ ์ํํ๊ณ , ์๋ ๊ฒ์ฆ ๊ฐ๋ฅํ ์๊ณ ๋ฆฌ์ฆ ๋๋ฉ์ธ์์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ ์ ์์ ์ ๋์ ๊ณตํ์ด๋ค. ๋ค๋ง ๋๋ฉ์ธ์ ์ ์ฝ์ฑ, ๊ฐ์ ๋ฐฉ๋ฒ์ ๋ถ์ฌ, ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ์ด ์์ฌ์ฐ๋ฏ๋ก, ํ์ ์ฐ๊ตฌ์์ ๋ค์ํ ๋๋ฉ์ธ์ผ๋ก์ ํ๋์ ๋ชจ๋ธ ๊ฐ์ ์ ๋ต ์ฐ๊ตฌ๊ฐ ํ์์ ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Deepseek-prover ๋
ผ๋ฌธ์ LLM์ ๋
ผ๋ฆฌ ๋ฐ ๊ณต์ ์ฆ๋ช
๋ฅ๋ ฅ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ฑ ๊ธฐ๋ฐ์ผ๋ก ํ์ฅํ์ฌ ๋ฐ๋ก ์์ฑ ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ธ์ด ๋ชจ๋ธ์ ์๊ณ ๋ฆฌ์ฆ์ ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ๋ฅผ ์ํ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
390๋ฒ ๋
ผ๋ฌธ์ LLM์ ๋ถํ์ค์ฑ ๋ฐ ์๋ ์ฆ๋ช
๊ณผ์ ์ ์ ๋ขฐ์ฑ ํ๊ฐ์ ๊ดํ ์ด๋ก ์ ์ ์ํ์ฌ, ๋ฐ๋ก ์์ฑ ๊ธฐ๋ฐ ํ๊ฐ ๋
ผ์์ ๊ทผ๊ฑฐ๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Can language models falsify ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๊ณผํ์ ๊ฐ์ค ๊ฒ์ฆ์ ๊ธฐ๋ณธ ๊ฐ๋
๋ฐ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ POPPER์ ์ด๋ก ์ ํ ๋๋ก ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ๋
ผ๋ฆฌ์ ์ถ๋ก ๋ฐ ๋ฐ๋ก ์์ฑ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋ค ์ฌ์คยท์๊ณ ๋ฆฌ์ฆ์ ์ฃผ์ฅ์ ๋ํ ๊ฒ์ฆ ๋ฐ ์ค๋ฅ ํ์ง๋ฅผ ๋ค๋ฃจ๋ฉฐ, 182๋ ๋ฐ๋ก ์์ฑ ๋ฅ๋ ฅ์ ์ง์ค, 333์ ์ง์๊ทธ๋ํ ๊ธฐ๋ฐ ๋ค์ค ์ถ๋ก ํ๊ฐ์ ์ง์คํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Can language models falsify ๋
ผ๋ฌธ์ ๋ชจํธ์ฑ ํด์์ ๋ฐ๋ก ์์ฑ ๋ฅ๋ ฅ ๋น๊ต๋ฅผ ํตํด LLM์ ์ํธ์์ฉ ๊ธฐ๋ฐ ๋
ผ๋ฆฌ์ ์ถ๋ก ํ๊ณ๋ฅผ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฝ๋ ์์ฑ ๋ฐ ํ๋ก๊ทธ๋๋ฐ ๋ฌธ์ ํด๊ฒฐ์์ LLM์ ๋ฅ๋ ฅ๊ณผ ํ๊ณ๋ฅผ ํ๊ฐํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ๋ฐ์ฆ ๊ฐ๋ฅ์ฑ์ ๋ํด ์ค์ฆ์ ์ผ๋ก ํ๊ฐํ๋ ์ ์์ ๋ฐ์ฆ ์ค์ฌ์ AIGS์ ๋ฌธ์ ์์์ด ์ ์ฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ธ์ด ๋ชจ๋ธ์ ์ฝ๋ ์ถ๋ก ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์ ์ฌํ ๋ฒค์น๋งํฌ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ถ๋ก ํ๊ณ๋ฅผ ์ค์ฆ์ ์ผ๋ก ํ๊ฐํ๋ ์ ์ฌํ ์ฐ๊ตฌ๋ก, ๋ค๋ฅธ ์ถ๋ก ๊ณผ์ ๋ฅผ ๋ค๋ฃฌ๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ๋จ๊ณ๋ณ ์๊ธฐ๊ฒ์ฆ(Self-Check) ๋ฅ๋ ฅ ํ๊ฐ ํ๋ ์์ํฌ๋ก, ๋ฐ๋ก์์ฑ๊ณผ ์ค๋ฅ ๊ฒ์ถ์ ๊ทผ๋ณธ์ ํ๊ณ ๋ถ์์ ๊ตฌ์ฒดํํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ ๋ค ์ฌ์ค/์ฃผ์ฅ ๊ฒ์ฆ์์ ์ฌํ๋ ์ถ๋ก ๊ณผ ๋ฐ๋ก, ์ค๋ฅ ๋ฐ๊ฒฌ ๋ฅ๋ ฅํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ฉฐ, 182๋ ๋ฐ๋ก ์์ฑ ํ๊ฐ๋ฅผ ํตํด ์ฌ์ค ๊ฒ์ฆ ํ๊ณ๋ฅผ ๋ณด์ํฉ๋๋ค.