Essence
๊ทธ๋ฆผ 1: ์ฌ๊ณ (thought) ์ ๋ฌด์ ๋ฐ๋ฅธ ํ ์ฆ๋ช
๋จ๊ณ์์์ ์ ์ ์์ธก ๋น๊ต
์ธ์ด ๋ชจ๋ธ์ด ํ์ ์ํ ์ฆ๋ช
์ ์ํํ ๋, ์ธ๊ฐ์ ์ฌ๊ณ ๊ณผ์ ์ ๋ํ๋ด๋ ์์ฐ์ธ์ด ์๊ฐ(informal thought)์ ๊ฐ ์ฆ๋ช
๋จ๊ณ ์ ์ ์์ฑํ๋๋ก ํ์ต์์ผ ์ ๋ฆฌ ์ฆ๋ช
๋ฅ๋ ฅ์ ํฅ์์ํค๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ด๋ฅผ ํตํด ํ์ ์ฆ๋ช
์ ๋ด์ฌ๋ ์ ๋ณด๋ง์ผ๋ก๋ ๋ถ์กฑํ ์ถ๋ก ๊ณผ์ ์ ๋ณด์ํ๋ค.
Evaluation
์ดํ: Lean-STaR์ ํ์ ์ํ ์ฆ๋ช
์ ์์ฐ์ธ์ด ์ฌ๊ณ ๊ณผ์ ์ ์ฒด๊ณ์ ์ผ๋ก ํตํฉํ ์ฐฝ์์ ์ฐ๊ตฌ๋ก, ์ญ๋ฐฉํฅ ์์ฑ์ด๋ผ๋ ์ค์ฉ์ ํด๋ฒ์ ํตํด ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. ์ผ๊ด๋ ์ฑ๋ฅ ๊ฐ์ ๊ณผ ์ ๊ฒฝ-๊ธฐํธ ์์คํ
์ ๊ฐ์ ์ ๋ณด์ฌ์ฃผ๋ ์ ์์ ์์๊ฐ ์์ผ๋, ์ค๋ผํด ๋ชจ๋ธ ์์กด์ฑ๊ณผ ์ ๋ ์ฑ๋ฅ ์์ค ๊ฐ์ ํญ์ ์ธก๋ฉด์์ ์ถ๊ฐ ๋ฐ์ ์ฌ์ง๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
379๋ฒ ๋
ผ๋ฌธ์ ์๋ ๊ธฐ๊ณ ์ฆ๋ช
์์ ์์ฑ์ ์ธ์ด๋ชจ๋ธ์ ํ์ฉ์ ๋ํ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ์ฌ, 482๋ฒ ์ฐ๊ตฌ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋น๊ณต์(natural language) ์ฌ๊ณ ์ ํ์ ์ฆ๋ช
๋จ๊ณ์ ํตํฉ ๊ฐ์ด๋๋ผ์ธ์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ถ์ํ์ฌ 482์ ๋ฐฉ๋ฒ๋ก ์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Lean-star ๋
ผ๋ฌธ์ ์ฌ๊ณ ์ ํ๋์ ๊ต์ฐจ์์ฑ(MR)๊ณผ ์ฆ๋ถ์ ์ถ๋ก ์ LLM์ ์ ์ฉํ๋ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ์ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
482๋ฒ ๋
ผ๋ฌธ์ '์๊ฐ๊ณผ ์ฆ๋ช
'์ ๊ต์ฐจ์ ํ์ตํ๋ ์ ๊ทผ๋ฒ์ผ๋ก, ์ํ ์ฆ๋ช
๋ฐ์ดํฐ์ ํํ ๋ฐฉ์ ๊ฐ์ ๋
ผ์์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Think-verify-interleaving ์ฆ๋ช
๋ฐฉ๋ฒ์ ํ์ฅ์ด ์ฌ๊ท์ ์ฆ๋ช
๊ตฌ์ฑ ๋ฐฉ์๊ณผ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
482๋ฒ ๋
ผ๋ฌธ์ ์ฌ๊ณ ์ ์ฆ๋ช
์ ๋ฒ๊ฐ์ ์ํํ๋ ์ ๊ฒฝ-์ฌ๋ณผ๋ฆญ ์ฆ๋ช
ํ๋ ์์ํฌ๋ก, 1095์ Lean Copilot์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Lean-star ๋
ผ๋ฌธ์ ์ฆ๋ช
-์์ฑ๊ณผ reasoning ํ์ดํ๋ผ์ธ ๋ฐ ์ํ ์ต์ ํ ๊ด์ ์์ combinatorial structure hardness discover์ ์ด๋ก ์ ๊ทผ๊ฑฐ๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Lean-star ๋
ผ๋ฌธ์ Lean ๊ธฐ๋ฐ ์ถ๋ก ยท์ฆ๋ช
LLM์ ์์ด์ ์ฐ๊ตฌ๋ก, ๋๊ท๋ชจ ์๋ ํ์ํ ํ๋ ์์ํฌ(M2F)์ ๊ทผ๊ฐ์ด ๋๋ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์์ฒด ์ ํธ ๋ฐ ๋ค๋ณ์ ์์คํ
์์ ๋ด์ฌ์ ์ขํ ๋ฐ ์ง๋ฐฐ ๋ฐฉ์ ์์ ๋ฐ๊ฒฌํ๋ ๊ธฐ๊ณํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ํ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
482 ๋
ผ๋ฌธ์ ์๋ ์ ๋ฆฌ ์ฆ๋ช
๊ณผ์ ๋ฅผ ํ์ต๊ณผ ์ถ๋ก ์ ์ธํฐ๋ฆฌ๋น ๋ฐฉ์์ผ๋ก ์ ๊ทผํ์ฌ, ํ์์ ์ฆ๋ช
์ ๋ํ ๋ค์ํ ์๋ํ ์ ๋ต์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
486๋ฒ์ ๋ด๋ด ๋ฐฉ์์ ์ฆ๋ช
์์คํ
์ ๋ค๋ฃจ์ด ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ ์ฆ๋ช
(482)๊ณผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Lean-star ๋
ผ๋ฌธ์ ์ํ์ ์ ๋ฆฌ ์ฆ๋ช
๋ถ์ผ์์ LLM์ in-context ์ฌ๊ณ ์ถ๋ก ์ ๊ฐ์กฐํ๋ ๋์ , ๋ณธ ๋
ผ๋ฌธ์ ๊ตฌ์กฐํ ํ๋ก๊ทธ๋จ ์ถ๋ก (ProgramFC)์ผ๋ก ๋ณตํฉ์ ์ฌ์ค ๊ฒ์ฆ์ ๊ตฌํํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
482๋ฒ ๋
ผ๋ฌธ์ ์ฆ๋ช
๊ณผ์ ์์ ์ฌ๊ณ ์ ์ฆ๋ช
์ ๊ต์ฐจ์ ํ์ ์ ๋ต์ ์๋ํํ๋ ๋ฐฉ์์ผ๋ก 030์ ๋ฅ๋ฌ๋ ์ ๋ฆฌ์ฆ๋ช
์๋ฒ ์ด์ ๋์กฐ์ ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
482๋ฒ ๋
ผ๋ฌธ์ ์๊ฐ-์ฆ๋ช
์ ์ํธ ๊ต์ฐจ ๋ฐฉ์์ ํ์ตํ๋ ์๋ก์ด ์ ๊ฒฝ ์ ๋ฆฌ์ฆ๋ช
ํต์ฌ ์ ๋ต์ ์ ์ํ์ฌ, ์ํธ์์ฉ์ ์ํ ์๋ํ์ ๋ค์ํ ์ค๊ณ์์ ๋น๊ตํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
๋นํ์์ ์ฆ๋ช
์์ ํ์ํ๋ก์ ์ ํ์ ๋์ด, ์ฆ๋ช
๊ณผ์ ๋ด ์ฌ๊ณ ์ ํ ๋ฐ interleaving ๋ฐฉ๋ฒ์ ํ๊ตฌํ์ฌ 288๋ฒ ๋
ผ๋ฌธ์ ๋ฒ์๋ฅผ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ ๋
ผ๋ฌธ ๋ชจ๋ LLM ๊ธฐ๋ฐ์ ์๋ ์ ๋ฆฌ ์ฆ๋ช
๋ฐ ์ฆ๋ช
๊ฒฝ๋ก ์์ฑ์ ์ด์ ์ ๋ง์ถ๋ฉฐ, 482๋ ์ฆ๋ช
๊ณผ์ ์ ์ฌ๊ณ ์ ์ฆ๋ช
๊ต์ฐจ ํ๋ จ ์ ๋ต์ ์ถ๊ฐ๋ก ์ ์ํ๋ค.
์์ฉ ์ฌ๋ก
Lean-star๋ ์ฆ๋ช
์ค ์ฌ๊ณ -ํ๋(interleaving) ๋ฉ์ปค๋์ฆ์ ์ค์ฌ์ผ๋ก ํ์ฌ, ๋ถ๋ถ๋ชฉํ ํ์ต์ด ์ค์ ์ ๋ฆฌ ์ฆ๋ช
์ฑ๊ณต๋ฅ ์ ๋ผ์น๋ ์ํฅ์ ์ค์ฆ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.
์์ฉ ์ฌ๋ก
LLM๊ณผ ์ต์ ํ๋ก ํด์ ๊ฐ๋ฅํ ๊ณผํ๊ณต์ ํ์์ ์ฑ๊ณตํ์ฌ, 482์ ์์ฐ์ด ์ฌ๊ณ -์ฆ๋ช
ํ๋ ์์ํฌ๊ฐ ์ค์ ๊ณผํ์ ๋ฐ๊ฒฌ์ ์ด๋ป๊ฒ ์ฐ๊ฒฐ๋๋์ง๋ฅผ ๋ณด์ฌ์ค๋ค.