Lean-star: Learning to interleave thinking and proving

์ €์ž: H. Lin, Zhiqing Sun, Sean Welleck, Yiming Yang | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ์‚ฌ๊ณ (thought) ์œ ๋ฌด์— ๋”ฐ๋ฅธ ํ•œ ์ฆ๋ช… ๋‹จ๊ณ„์—์„œ์˜ ์ „์ˆ  ์˜ˆ์ธก ๋น„๊ต

์–ธ์–ด ๋ชจ๋ธ์ด ํ˜•์‹ ์ˆ˜ํ•™ ์ฆ๋ช…์„ ์ˆ˜ํ–‰ํ•  ๋•Œ, ์ธ๊ฐ„์˜ ์‚ฌ๊ณ  ๊ณผ์ •์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ž์—ฐ์–ธ์–ด ์ƒ๊ฐ(informal thought)์„ ๊ฐ ์ฆ๋ช… ๋‹จ๊ณ„ ์ „์— ์ƒ์„ฑํ•˜๋„๋ก ํ•™์Šต์‹œ์ผœ ์ •๋ฆฌ ์ฆ๋ช… ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ˜•์‹ ์ฆ๋ช…์— ๋‚ด์žฌ๋œ ์ •๋ณด๋งŒ์œผ๋กœ๋Š” ๋ถ€์กฑํ•œ ์ถ”๋ก  ๊ณผ์ •์„ ๋ณด์™„ํ•œ๋‹ค.

Motivation

Achievement

Figure 3

๊ทธ๋ฆผ 3: Lean-STaR ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ - (1) GPT-4๋กœ CoT ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ (2) SFT ๋ชจ๋ธ์„ CoT๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ Lean-CoT ํš๋“ (3) ์ „๋ฌธ๊ฐ€ ๋ฐ˜๋ณต์œผ๋กœ STaR ๋ฐ์ดํ„ฐ์…‹ ์ƒ์„ฑ ๋ฐ ๋ฐ˜๋ณต ๋ฏธ์„ธ ์กฐ์ •

  1. ์„ฑ๋Šฅ ํ–ฅ์ƒ: InternLM2-7b ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์—์„œ 43.4% โ†’ 46.3% (Pass@64)์˜ ์œ ์˜๋ฏธํ•œ ์„ฑ๋Šฅ ๊ฐœ์„  ๋‹ฌ์„ฑ. ๋” ๊ฐ•๋ ฅํ•œ InternLM2-7b-plus ๋ชจ๋ธ ์‚ฌ์šฉ ์‹œ 45.4% (Pass@32) ๋‹ฌ์„ฑ์œผ๋กœ ๊ธฐ์กด ์ตœ๊ณ  ์„ฑ๋Šฅ ์ดˆ๊ณผ.
  2. ์ตœ์ดˆ ์ƒ๊ฐ-๊ฐ•ํ™” ๋ฐ์ดํ„ฐ์…‹: ์ •๋ฆฌ ์ฆ๋ช… ๋ถ„์•ผ์—์„œ ์ฒ˜์Œ์œผ๋กœ (์ƒํƒœ, ์ƒ๊ฐ, ์ „์ˆ ) ์‚ผ์ค‘ ์Œ ํ˜•ํƒœ์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•. ์•ฝ 50,000๊ฐœ์˜ Mathlib ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์™€ ์ „๋ฌธ๊ฐ€ ๋ฐ˜๋ณต์„ ํ†ตํ•œ ์ถ”๊ฐ€ 50,000๊ฐœ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ์ด 100,000๊ฐœ ๊ทœ๋ชจ.

How

Figure 2

๊ทธ๋ฆผ 2: Lean-STaR์ด ์ƒ์„ฑํ•œ ์ฆ๋ช…๊ณผ ์ƒ๊ฐ์˜ ์˜ˆ์‹œ - ์ƒ๊ฐ์— ๊ณ„์‚ฐ ์˜ค๋ฅ˜๊ฐ€ ์žˆ์–ด๋„(๋นจ๊ฐ„์ƒ‰) Lean์˜ nlinarith ์ „์ˆ ์ด ์‹ค์ œ ๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋ฏ€๋กœ ์ฆ๋ช…์˜ ์ •ํ™•์„ฑ์— ์˜ํ–ฅ ์—†์Œ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: Lean-STaR์€ ํ˜•์‹ ์ˆ˜ํ•™ ์ฆ๋ช…์— ์ž์—ฐ์–ธ์–ด ์‚ฌ๊ณ  ๊ณผ์ •์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ†ตํ•ฉํ•œ ์ฐฝ์˜์  ์—ฐ๊ตฌ๋กœ, ์—ญ๋ฐฉํ–ฅ ์ƒ์„ฑ์ด๋ผ๋Š” ์‹ค์šฉ์  ํ•ด๋ฒ•์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ๋‹ค. ์ผ๊ด€๋œ ์„ฑ๋Šฅ ๊ฐœ์„ ๊ณผ ์‹ ๊ฒฝ-๊ธฐํ˜ธ ์‹œ์Šคํ…œ์˜ ๊ฐ•์ ์„ ๋ณด์—ฌ์ฃผ๋Š” ์ ์—์„œ ์˜์˜๊ฐ€ ์žˆ์œผ๋‚˜, ์˜ค๋ผํด ๋ชจ๋ธ ์˜์กด์„ฑ๊ณผ ์ ˆ๋Œ€ ์„ฑ๋Šฅ ์ˆ˜์ค€ ๊ฐœ์„ ํญ์˜ ์ธก๋ฉด์—์„œ ์ถ”๊ฐ€ ๋ฐœ์ „ ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
379๋ฒˆ ๋…ผ๋ฌธ์€ ์ž๋™ ๊ธฐ๊ณ„ ์ฆ๋ช…์—์„œ ์ƒ์„ฑ์  ์–ธ์–ด๋ชจ๋ธ์˜ ํ™œ์šฉ์— ๋Œ€ํ•œ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•˜์—ฌ, 482๋ฒˆ ์—ฐ๊ตฌ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋น„๊ณต์‹(natural language) ์‚ฌ๊ณ ์™€ ํ˜•์‹ ์ฆ๋ช… ๋‹จ๊ณ„์˜ ํ†ตํ•ฉ ๊ฐ€์ด๋“œ๋ผ์ธ์„ ๊ทผ๋ณธ์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ 482์˜ ๋ฐฉ๋ฒ•๋ก ์— ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Lean-star ๋…ผ๋ฌธ์€ ์‚ฌ๊ณ ์™€ ํ–‰๋™์˜ ๊ต์ฐจ์ƒ์„ฑ(MR)๊ณผ ์ฆ๋ถ„์  ์ถ”๋ก ์„ LLM์— ์ ์šฉํ•˜๋Š” ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
482๋ฒˆ ๋…ผ๋ฌธ์€ '์ƒ๊ฐ๊ณผ ์ฆ๋ช…'์„ ๊ต์ฐจ์  ํ•™์Šตํ•˜๋Š” ์ ‘๊ทผ๋ฒ•์œผ๋กœ, ์ˆ˜ํ•™ ์ฆ๋ช… ๋ฐ์ดํ„ฐ์˜ ํ‘œํ˜„ ๋ฐฉ์‹ ๊ฐœ์„  ๋…ผ์˜์— ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Think-verify-interleaving ์ฆ๋ช… ๋ฐฉ๋ฒ•์˜ ํ™•์žฅ์ด ์žฌ๊ท€์  ์ฆ๋ช… ๊ตฌ์„ฑ ๋ฐฉ์‹๊ณผ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
482๋ฒˆ ๋…ผ๋ฌธ์€ ์‚ฌ๊ณ ์™€ ์ฆ๋ช…์„ ๋ฒˆ๊ฐˆ์•„ ์ˆ˜ํ–‰ํ•˜๋Š” ์‹ ๊ฒฝ-์‹ฌ๋ณผ๋ฆญ ์ฆ๋ช… ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, 1095์˜ Lean Copilot์— ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Lean-star ๋…ผ๋ฌธ์€ ์ฆ๋ช…-์ƒ์„ฑ๊ณผ reasoning ํŒŒ์ดํ”„๋ผ์ธ ๋ฐ ์ˆ˜ํ•™ ์ตœ์ ํ™” ๊ด€์ ์—์„œ combinatorial structure hardness discover์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Lean-star ๋…ผ๋ฌธ์€ Lean ๊ธฐ๋ฐ˜ ์ถ”๋ก ยท์ฆ๋ช… LLM์˜ ์‹œ์ดˆ์  ์—ฐ๊ตฌ๋กœ, ๋Œ€๊ทœ๋ชจ ์ž๋™ ํ˜•์‹ํ™” ํ”„๋ ˆ์ž„์›Œํฌ(M2F)์˜ ๊ทผ๊ฐ„์ด ๋˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ƒ์ฒด ์‹ ํ˜ธ ๋ฐ ๋‹ค๋ณ€์ˆ˜ ์‹œ์Šคํ…œ์—์„œ ๋‚ด์žฌ์  ์ขŒํ‘œ ๋ฐ ์ง€๋ฐฐ ๋ฐฉ์ •์‹์„ ๋ฐœ๊ฒฌํ•˜๋Š” ๊ธฐ๊ณ„ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
482 ๋…ผ๋ฌธ์€ ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช… ๊ณผ์ œ๋ฅผ ํ•™์Šต๊ณผ ์ถ”๋ก ์˜ ์ธํ„ฐ๋ฆฌ๋น™ ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•˜์—ฌ, ํ˜•์‹์  ์ฆ๋ช…์— ๋Œ€ํ•œ ๋‹ค์–‘ํ•œ ์ž๋™ํ™” ์ „๋žต์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
486๋ฒˆ์€ ๋‰ด๋Ÿด ๋ฐฉ์‹์˜ ์ฆ๋ช… ์‹œ์Šคํ…œ์„ ๋‹ค๋ฃจ์–ด ์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ฆ๋ช…(482)๊ณผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Lean-star ๋…ผ๋ฌธ์€ ์ˆ˜ํ•™์  ์ •๋ฆฌ ์ฆ๋ช… ๋ถ„์•ผ์—์„œ LLM์˜ in-context ์‚ฌ๊ณ  ์ถ”๋ก ์„ ๊ฐ•์กฐํ•˜๋Š” ๋Œ€์‹ , ๋ณธ ๋…ผ๋ฌธ์€ ๊ตฌ์กฐํ™” ํ”„๋กœ๊ทธ๋žจ ์ถ”๋ก (ProgramFC)์œผ๋กœ ๋ณตํ•ฉ์  ์‚ฌ์‹ค ๊ฒ€์ฆ์„ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
482๋ฒˆ ๋…ผ๋ฌธ์€ ์ฆ๋ช… ๊ณผ์ •์—์„œ ์‚ฌ๊ณ ์™€ ์ฆ๋ช…์˜ ๊ต์ฐจ์  ํƒ์ƒ‰ ์ „๋žต์„ ์ž๋™ํ™”ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ 030์˜ ๋”ฅ๋Ÿฌ๋‹ ์ •๋ฆฌ์ฆ๋ช… ์„œ๋ฒ ์ด์™€ ๋Œ€์กฐ์ ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
482๋ฒˆ ๋…ผ๋ฌธ์€ ์ƒ๊ฐ-์ฆ๋ช…์˜ ์ƒํ˜ธ ๊ต์ฐจ ๋ฐฉ์‹์„ ํ•™์Šตํ•˜๋Š” ์ƒˆ๋กœ์šด ์‹ ๊ฒฝ ์ •๋ฆฌ์ฆ๋ช… ํ•ต์‹ฌ ์ „๋žต์„ ์ œ์‹œํ•˜์—ฌ, ์ƒํ˜ธ์ž‘์šฉ์  ์ˆ˜ํ•™ ์ž๋™ํ™”์˜ ๋‹ค์–‘ํ•œ ์„ค๊ณ„์•ˆ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋น„ํ˜•์‹์  ์ฆ๋ช…์—์„œ ํ˜•์‹ํ™”๋กœ์˜ ์ „ํ™˜์„ ๋„˜์–ด, ์ฆ๋ช… ๊ณผ์ • ๋‚ด ์‚ฌ๊ณ  ์ „ํ™˜ ๋ฐ interleaving ๋ฐฉ๋ฒ•์„ ํƒ๊ตฌํ•˜์—ฌ 288๋ฒˆ ๋…ผ๋ฌธ์˜ ๋ฒ”์œ„๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๋‘ ๋…ผ๋ฌธ ๋ชจ๋‘ LLM ๊ธฐ๋ฐ˜์˜ ์ž๋™ ์ •๋ฆฌ ์ฆ๋ช… ๋ฐ ์ฆ๋ช… ๊ฒฝ๋กœ ์ƒ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ”๋ฉฐ, 482๋Š” ์ฆ๋ช… ๊ณผ์ •์˜ ์‚ฌ๊ณ ์™€ ์ฆ๋ช… ๊ต์ฐจ ํ›ˆ๋ จ ์ „๋žต์„ ์ถ”๊ฐ€๋กœ ์ œ์‹œํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Lean-star๋Š” ์ฆ๋ช… ์ค‘ ์‚ฌ๊ณ -ํ–‰๋™(interleaving) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ค‘์‹ฌ์œผ๋กœ ํ•˜์—ฌ, ๋ถ€๋ถ„๋ชฉํ‘œ ํ•™์Šต์ด ์‹ค์ œ ์ •๋ฆฌ ์ฆ๋ช… ์„ฑ๊ณต๋ฅ ์— ๋ผ์น˜๋Š” ์˜ํ–ฅ์„ ์‹ค์ฆ์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLM๊ณผ ์ตœ์ ํ™”๋กœ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ๊ณผํ•™๊ณต์‹ ํƒ์ƒ‰์— ์„ฑ๊ณตํ•˜์—ฌ, 482์˜ ์ž์—ฐ์–ด ์‚ฌ๊ณ -์ฆ๋ช… ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์‹ค์ œ ๊ณผํ•™์  ๋ฐœ๊ฒฌ์— ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ๋˜๋Š”์ง€๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •