Selfcheck: Using llms to zero-shot check their own step-by-step reasoning

์ €์ž: Ning Miao, Yee Whye Teh, Tom Rainforth | ๋‚ ์งœ: 2023 | DOI: N/A 📄 PDF


Essence

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ์ž์ฒด ๋‹จ๊ณ„๋ณ„ ์ถ”๋ก ์—์„œ ๋ฐœ์ƒํ•œ ์˜ค๋ฅ˜๋ฅผ ์™ธ๋ถ€ ์ž์› ์—†์ด ์ธ์‹ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํƒ๊ตฌํ•˜๋ฉฐ, 4๋‹จ๊ณ„ ๋ถ„ํ•ด ๊ฒ€์ฆ ๋ฐฉ์‹(SelfCheck)์„ ํ†ตํ•ด ์ œ๋กœ์ƒท(zero-shot) ์˜ค๋ฅ˜ ๊ฐ์ง€ ๋ฐ ๋‹ต๋ณ€ ์ •ํ™•๋„ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ•œ ์—ฐ๊ตฌ์ด๋‹ค.

Motivation

Achievement

Figure 1

SelfCheck์˜ ๊ตฌ์ฒด์  ์‹คํ–‰ ์˜ˆ์‹œ: 5๋ฒˆ ๋‹จ๊ณ„์˜ ์ •์‚ฌ๊ฐํ˜• ์™„์„ฑ(completing the square) ๊ฒ€์ฆ ๊ณผ์ •์„ 4๋‹จ๊ณ„๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ์ˆ˜ํ–‰

  1. ์˜ค๋ฅ˜ ์ธ์‹ ์„ฑ๋Šฅ: GSM8K, MathQA, MATH ๋ฐ์ดํ„ฐ์…‹์˜ ์„ธ ์ˆ˜ํ•™ ๊ณผ์ œ ๋ชจ๋‘์—์„œ ๋‹จ์ˆœ ๋‹ค์ˆ˜๊ฒฐ ํˆฌํ‘œ(majority voting) ๋Œ€๋น„ ์ตœ์ข… ์ •๋‹ต ์ •ํ™•๋„ ๋Œ€ํญ ์ƒ์Šน. ๋‚ฎ์€ ์‹ ๋ขฐ๋„ ์†”๋ฃจ์…˜ ํ•„ํ„ฐ๋ง ์‹œ ๋ถ€์ •๋‹ต ๋น„์œจ์„ 9%, 22.8%, 16.2% ๊ฐ์†Œ.
  2. ์‹ ๋ขฐ๋„ ์ ์ˆ˜์˜ ์œ ํšจ์„ฑ: SelfCheck๊ฐ€ ์ œ๊ณตํ•˜๋Š” ์‹ ๋ขฐ๋„ ์ ์ˆ˜๋ฅผ ๊ฐ€์ค‘์น˜๋กœ ์‚ฌ์šฉํ•œ ๊ฐ€์ค‘ ํˆฌํ‘œ(weighted voting)๋ฅผ ํ†ตํ•ด ์ •๋‹ต ์ •ํ™•๋„ ํ–ฅ์ƒ. ์‹ ๋ขฐ๋„ ์ ์ˆ˜๊ฐ€ ์‹ค์ œ ์ •๋‹ต ์—ฌ๋ถ€์™€ ์˜๋ฏธ ์žˆ๋Š” ์ƒ๊ด€๊ด€๊ณ„ ๋ณด์œ .

How

Figure 1

๋‹จ๊ณ„ ๊ฒ€์ฆ์˜ 4๋‹จ๊ณ„ ๋ถ„ํ•ด ํ”„๋กœ์„ธ์Šค

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก 

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4.5/5 Overall: 4.4/5

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ LLM ์ž์ฒด๊ฒ€์ฆ์˜ ์˜ค๋žœ ๋‚œ์ œ๋ฅผ ์ฐฝ์˜์ ์ธ 4๋‹จ๊ณ„ ๋ถ„ํ•ด ๋ฐฉ์‹์œผ๋กœ ํ•ด๊ฒฐํ•˜๋ฉฐ, ์ œ๋กœ์ƒท ๋ฒ”์šฉ์„ฑ๊ณผ ์‹ค์ œ ์ •ํ™•๋„ ํ–ฅ์ƒ์„ ๋™์‹œ์— ๋‹ฌ์„ฑํ•œ ์‹ค์งˆ์  ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค. ๋‹ค๋งŒ ๊ณ„์‚ฐ ๋น„์šฉ ์ฆ๊ฐ€์™€ ์ˆ˜ํ•™ ๋ฌธ์ œ ์ค‘์‹ฌ์˜ ํ‰๊ฐ€๊ฐ€ ํ•œ๊ณ„์ด๋ฉฐ, ํ–ฅํ›„ ๋” ๊ด‘๋ฒ”์œ„ํ•œ ๋„๋ฉ”์ธ๊ณผ ์˜ค๋ฅ˜ ๋ถ„๋ฅ˜ ์ฒด๊ณ„ ๊ฐœ๋ฐœ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Selfcheck ๋…ผ๋ฌธ์€ LLM์ด ์ƒ์„ฑํ•œ ์ถ”๋ก ๊ณผ์ •์„ ์Šค์Šค๋กœ ๊ฒ€์ฆํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๊ฐœ๋ฐœํ•˜์—ฌ, Wrong-of-Thought์˜ ๋‹ค์ค‘ ๊ด€์  ๊ฒ€์ฆ ์•„์ด๋””์–ด ์ดˆ๊ธฐ ์—ฐ๊ตฌ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์˜ ์ž๊ธฐ๊ฒ€์ฆ ๋ฐ ์Šคํ…๋ณ„ ๊ฒ€์ฆ ๊ธฐ๋ฒ•์ด GeneAgent์˜ ํ™˜๊ฐ ์ €๊ฐ ์ž๊ธฐํ™•์ธ ๋ฐฉ์‹์— ์ด๋ก ์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Selfcheck ๋…ผ๋ฌธ์€ LLM์˜ ์Šคํ…-๋ฐ”์ด-์Šคํ… ๊ฒ€์ฆ ๋ฐ ์ž๊ธฐ ๋ฐ˜์„ฑ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ฒ€ํ† ํ•˜์—ฌ, ๋‹ค์ค‘ ํ™‰ ์งˆ์˜์‘๋‹ต์—์„œ์˜ ์ž๊ธฐํ‰๊ฐ€ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฒ•์˜ ์ด๋ก ์  ๋ฐ”ํƒ•์ด ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Large language models can self-improve ๋…ผ๋ฌธ์€ LLM์˜ ์ž๊ธฐ ๊ฐœ์„  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ, Selfcheck์˜ ๋‹จ๊ณ„๋ณ„ ์ž๊ธฐ๊ฒ€์ฆ๊ณผ ๋‹ฌ๋ฆฌ ์žฅ๊ธฐ์  ์ž๊ธฐํ•™์Šต ์ธก๋ฉด์„ ๋…ผ์˜ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
242 ๋…ผ๋ฌธ์€ ์™ธ๋ถ€ ํˆด์„ ํ™œ์šฉํ•œ ์ž๊ธฐ๊ฒ€์ฆ LLM ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, 747์˜ ํ“จ์–ด LLM ์ž๊ธฐ ํ™•์ธ ๋ฐฉ์‹๊ณผ์˜ ์ฐจ์ด๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ตœ์ ํ™” ๋˜๋Š” ์‹ ๊ฒฝ๋ง ์•„ํ‚คํ…์ฒ˜ ํƒ์ƒ‰์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
747 ๋…ผ๋ฌธ์€ LLM์ด ์ž์‹ ์˜ ์ถ”๋ก ๊ณผ์ •์„ ์ž๋™ ๊ฒ€์ฆํ•˜๋Š” Self-Check๋ผ๋Š” ์ ‘๊ทผ์„ ์ทจํ•ด ์ž๊ธฐ ์„ฑ์ฐฐ ๋ฐ ํ‰๊ฐ€ ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๋Š” ๋Œ€์•ˆ์  ํ”„๋ ˆ์ž„์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Selfcheck๋Š” LLM์ด ์ž์‹ ์˜ ๋‹จ๊ณ„๋ณ„ ์ถ”๋ก ์„ ์ž๊ฐ€ ๊ฒ€์ฆํ•˜๋Š” zero-shot ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ๋ฉฐ, DeepSeek-R1์˜ ์ž๊ธฐ ๊ฒ€์ฆ ๊ฐ•ํ™”ํ•™์Šต ํšจ๊ณผ์™€ ๋Œ€์กฐํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Selfcheck ๋…ผ๋ฌธ์€ LLM์˜ ์ž์ฒด ์˜ค๋ฅ˜ ์ธ์‹, ์ถ”๋ก  ์ƒํƒœ ์ ๊ฒ€์— ์ง‘์ค‘ํ•˜์—ฌ, RM-R1 ๋…ผ๋ฌธ์˜ ๋ณด์ƒ ๋ชจ๋ธ ๋‚ด ์ถ”๋ก ํ†ตํ•ฉ ์ ‘๊ทผ์— ๋น„ํ•ด ์ง์ ‘์  ์ž๊ธฐ ์ ๊ฒ€ ๋ฐฉ์‹์„ ๋‹ค๋ฃฌ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Selfcheck(747)๋Š” LLM์˜ ๋‹จ๊ณ„๋ณ„ ์ž๊ธฐ๊ฒ€์ฆ ๋ฐฉ์‹์„ ํ™œ์šฉํ•˜์—ฌ 243์˜ ์ž์—ฐ์–ด ์งˆ์˜ ๋น„ํŒ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต ์‚ฌ๊ณ ์™€ ๋Œ€์กฐ๋˜๋Š” ๋ณด์ • ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
747๋ฒˆ ๋…ผ๋ฌธ์€ LLM์˜ ์ž์ฒด ๋‹จ๊ณ„๋ณ„ ์ฒดํฌ ๋Šฅ๋ ฅ์— ์ดˆ์ ์„ ๋‘๋ฉฐ LM ๊ธฐ๋ฐ˜ ์ž๊ธฐ๊ฒ€์ฆ ํ”„๋ ˆ์ž„์›Œํฌ์— ๋‹ค๋ฅธ ๊ด€์ ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
747 ๋…ผ๋ฌธ์€ LLM์˜ step-by-step ํ™˜๊ฐ ์ž๊ธฐ์ ๊ฒ€ ๋ฐฉ์‹์„ ํ™œ์šฉํ•˜์—ฌ, 396์˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์กฐ์ •์— ์˜์กดํ•˜์ง€ ์•Š๋Š” ๋‹ค๋ฅธ ํ™˜๊ฐ ์™„ํ™” ๋ฐ ์ง„๋‹จ ์ „๋žต์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์ด ์ž๊ธฐ ์ถœ๋ ฅ์„ ๋‹จ๊ณ„๋ณ„๋กœ ์ ๊ฒ€(Zero-shot step-by-step self-checking)ํ•˜๋Š” ์ ‘๊ทผ์˜ ํ•œ๊ณ„ ๋ฐ ๋ณด์™„ ๋ฐฉ์•ˆ์„ ๋น„๊ต ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
747์€ zero-shot self-checking ๋ฐ ์ž๊ธฐ ์ผ๊ด€์„ฑ ๊ธฐ๋ฐ˜ reasoning ๊ฐ•ํ™” ์ „๋žต์„ ํ†ตํ•ด LLM์˜ self-improve๋ฅผ ์‹ค์ œ๋กœ ๊ฒ€์ฆํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
790๋ฒˆ ๋…ผ๋ฌธ์€ LLM์˜ ์ž๊ธฐ-๋””๋ฒ„๊น… ๋Šฅ๋ ฅ์„ ์‹œ์Šคํ…œ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜์—ฌ, 747๋ฒˆ์˜ ๋‹จ๊ณ„๋ณ„ ์ž๊ธฐ ์ ๊ฒ€ ๋ฐฉ์‹์„ ๋ฐœ์ „์‹œํ‚ค๋Š” ์—ฐ์žฅ์„ ์ƒ์— ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
746 ๋…ผ๋ฌธ์€ Self-Check์™€ ์œ ์‚ฌํ•œ ์ž๊ธฐ ํ”ผ๋“œ๋ฐฑ ๋ฐ ์ž๊ธฐ์ •์ • ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋ฐ˜๋ณต์  ์ฝ”๋“œ ๊ฐœ์„ ์— ์ ์šฉ, 747 ๋ฐฉ์‹์˜ ์‹ค์ œ ํšจ๊ณผ๋ฅผ ์ฝ”๋“œ ๋ถ„์•ผ๋กœ ๊ฒ€์ฆํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Selfcheck ๋…ผ๋ฌธ์€ LLM์˜ ์Šคํ…๋ณ„ ์ž๊ธฐ ์ ๊ฒ€ ๋ฐ ์ž๊ฐ€ ๊ฒ€์ฆ ์„ฑ๋Šฅ ํ•œ๊ณ„์™€ ๊ฐœ์„  ์•„์ด๋””์–ด๋ฅผ ์‹คํ—˜์ ์œผ๋กœ ์ œ์‹œํ•˜์—ฌ, LLM์˜ ์ž๊ธฐ ์ˆ˜์ • ๊ฐ€๋Šฅ์„ฑ ๋…ผ์˜์— ๊นŠ์ด๋ฅผ ๋”ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Selfcheck ๋…ผ๋ฌธ์€ LLM์˜ ์Šคํ…๋ณ„ ์ž๊ธฐ ์ ๊ฒ€์„ ํ†ตํ•ด ์˜ยท์†Œ์ˆ˜์ƒ˜ํ”Œ ์‚ฌ์‹ค ํ™•์ธ์— ๋Œ€ํ•œ ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์  ํ™•์žฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์˜ ๋‹จ๊ณ„๋ณ„ ์ž๊ธฐ๊ฒ€์ฆ(Self-Check) ๋Šฅ๋ ฅ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ๋ฐ˜๋ก€์ƒ์„ฑ๊ณผ ์˜ค๋ฅ˜ ๊ฒ€์ถœ์˜ ๊ทผ๋ณธ์  ํ•œ๊ณ„ ๋ถ„์„์„ ๊ตฌ์ฒดํ™”ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
747์€ LLM์˜ step-by-step ์ž๊ธฐ๊ฒ€์ฆ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ด 350์˜ ๋ฐ˜๋ณต์  ํ’ˆ์งˆ ๊ฐœ์„  ๋ฐฉ์‹์„ ๋ณด์™„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ํ˜ผํ•ฉ ์งˆ์˜์‘๋‹ต ๋ฐฉ๋ฒ•๋ก ์„ ํŠน์ • ๋„๋ฉ”์ธ์— ์ ์šฉํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Self-driving laboratories๋Š” ์‹ค์„ธ๊ณ„ ๊ณผํ•™ ์‹คํ—˜ ์ž๋™ํ™”์—์„œ LLM์˜ ์…€ํ”„-์ฒดํฌ ๋ฐ ์˜ค๋ฅ˜ ํƒ์ง€ ๊ธฐ๋Šฅ์˜ ์‹ค์ œ ์ ์šฉ ์˜ˆ์‹œ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
471 ๋…ผ๋ฌธ์€ LLM์˜ ์ž๊ธฐ์˜ค๋ฅ˜ ์ˆ˜์ • ํ•œ๊ณ„๋ฅผ ์ง€์ , 747์˜ ๊ฒฐ๊ณผ์™€ ๋Œ€์กฐํ•ด ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •