T-SciQ: Teaching multimodal chain-of-thought reasoning via mixed large language model signals for science question answering

์ €์ž: Lei Wang, Yi Hu, Jiabang He, Xing Xu, Ning Liu, Hui Liu, Heng Tao Shen | ๋‚ ์งœ: 2023 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

Figure 1

ScienceQA ๋ฐ์ดํ„ฐ ์˜ˆ์‹œ: ์ธ๊ฐ„ ์ฃผ์„ CoT์™€ LLM ์ƒ์„ฑ CoT ๋น„๊ต. LLM ์ƒ์„ฑ CoT๊ฐ€ ๋” ๋งŽ์€ ์™ธ๋ถ€ ์ง€์‹์„ ํฌํ•จํ•จ

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ์ƒ์„ฑํ•œ ์—ฐ์‡„์  ์‚ฌ๊ณ (Chain-of-Thought, CoT) ์‹ ํ˜ธ๋ฅผ ํ˜ผํ•ฉํ•˜์—ฌ ๊ณผํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ ์†Œ๊ทœ๋ชจ ํ•™์ƒ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” T-SciQ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ธ๊ฐ„ ์ฃผ์„์˜ ๋น„์šฉ ๋ฌธ์ œ์™€ ์ •๋ณด ์†์‹ค์„ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ์œ ํ˜•์˜ ์ž๋™ ์ƒ์„ฑ ๊ต์ˆ˜ ์‹ ํ˜ธ๋ฅผ ๊ฒฐํ•ฉํ•˜๋Š” ํ˜์‹ ์ ์ธ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ์ „๋žต์„ ๋„์ž…ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

T-SciQ ํ”„๋ ˆ์ž„์›Œํฌ์˜ 3๋‹จ๊ณ„: (i) ๊ต์ˆ˜ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ, (ii) ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ, (iii) ๋ฏธ์„ธ์กฐ์ •

  1. ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ: ScienceQA ๋ฒค์น˜๋งˆํฌ์—์„œ 96.18% ์ •ํ™•๋„๋กœ ์ƒˆ๋กœ์šด ์ตœ๊ณ  ๊ธฐ๋ก ์ˆ˜๋ฆฝ
    • ๊ธฐ์กด ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ฏธ์„ธ์กฐ์ • ๋ชจ๋ธ ๋Œ€๋น„ +4.5%
    • ๊ฐ•๋ ฅํ•œ ์ง€์‹œ์กฐ์ • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ธฐ์ค€์„  ๋Œ€๋น„ +5.26%
    • GPT-4 ๊ธฐ๋ฐ˜ ์†Œ์ˆ˜-์ƒท ๊ธฐ์ค€์„  ๋Œ€๋น„ +9.64%
    • ์ธ๊ฐ„ ์„ฑ๋Šฅ ๋Œ€๋น„ +7.78%
  2. ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ: ์ธ๊ฐ„ ์ฃผ์„์˜ ๋ถ€๋‹ด์„ ์ œ๊ฑฐํ•˜๋ฉด์„œ๋„ ๋”์šฑ ์ •๋ณด๊ฐ€ ํ’๋ถ€ํ•œ ๊ต์ˆ˜ ์‹ ํ˜ธ ์ œ๊ณต
  3. ์ผ๋ฐ˜ํ™”์„ฑ: 6๊ฐœ์˜ ์ถ”๋ก  ์ž‘์—…์—์„œ Reason-Teacher์™€์˜ ๋น„๊ต ์‹คํ—˜์œผ๋กœ ๋ฐฉ๋ฒ•๋ก ์˜ ๋‹ค์žฌ๋‹ค๋Šฅ์„ฑ ์ž…์ฆ

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: T-SciQ๋Š” ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ํšจ๊ณผ์ ์ธ ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ์ „๋žต์„ ํ†ตํ•ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ณผํ•™ ์ถ”๋ก ์—์„œ ํš๊ธฐ์  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ํŠนํžˆ ๊ฐ’๋น„์‹ผ ์ธ๊ฐ„ ์ฃผ์„์„ ์™„์ „ํžˆ ์ œ๊ฑฐํ•˜๋ฉด์„œ๋„ ์ •๋ณด ํ’๋ถ€ํ•œ LLM ์‹ ํ˜ธ๋กœ ์šฐ์ˆ˜ํ•œ ํ•™์ƒ ๋ชจ๋ธ์„ ์–‘์„ฑํ•œ ์ ์ด ์‹ค๋ฌด์  ๊ฐ€์น˜๊ฐ€ ๋†’๋‹ค. ๋‹ค๋งŒ ๊ณ„์‚ฐ ๋น„์šฉ ๋ถ„์„๊ณผ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์œผ๋กœ์˜ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ ๊ฒ€์ฆ์ด ํ–ฅํ›„ ๋ณด์™„๋˜์–ด์•ผ ํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Self-Refine ๋…ผ๋ฌธ์€ LLM์ด ๋ฐ˜๋ณต์ ์œผ๋กœ ์ž๊ธฐํ‰๊ฐ€ ๋ฐ ๋ณด์ • ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ธฐ์ดˆ์  ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์›๋ฆฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Improving demonstration diversity by human-free fusing for theorem proving ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ ์‹ ํ˜ธ๋ฅผ ํ˜ผํ•ฉํ•œ ์ง€์‹œ ์‹ ํ˜ธ ์ œ์ž‘๋ฒ•์ด T-SciQ์˜ ๊ต์œก ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ์ „๋žต ์ด๋ก ์  ํ† ๋Œ€๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ chain-of-thought reasoning ๋ฒค์น˜๋งˆํฌ๋Š” MMSCI๊ฐ€ ์ง€ํ–ฅํ•˜๋Š” ๋Œ€ํ•™์› ์ˆ˜์ค€ ๋ณตํ•ฉ ์‹œ๊ฐํ™” ์ดํ•ด ํ‰๊ฐ€์— ์ด๋ก ์  ๋ฐ‘๋ฐ”ํƒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
677 ๋…ผ๋ฌธ์€ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ํ”„๋กฌํ”„ํŠธ ๋””์ž์ธ์„ ํ†ตํ•ด LLM์˜ reasoning์„ ์ด๋„๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•๋ก ์  foundation์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
346 'Foundation-Model Surrogates' ๋…ผ๋ฌธ์€ ๊ธฐ์ดˆ ๋ชจ๋ธ์˜ ์ „์ด ๋ฐ ์„ค๋ช…๋ ฅ์„ ์ค‘์‹œํ•˜๋Š” ๊ณผํ•™ ๋ฌธ์ œ ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ์†Œ๊ฐœํ•˜์—ฌ, 785์˜ T-SciQ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๋‹ค๋ฃจ๋Š” ์—ฐ์‡„์  ์‚ฌ๊ณ ์™€ ์ง€์‹ ์ด์ „ ๋งฅ๋ฝ์„ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
TheoremQA ๋…ผ๋ฌธ์€ ์—ฐ์‡„์  ์‚ฌ๊ณ ๋ฅผ ์š”๊ตฌํ•˜๋Š” ์ˆ˜ํ•™ ๋ฌธ์ œ QA์— ์ง‘์ค‘ํ•˜์—ฌ, T-SciQ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ Chain-of-Thought ๊ต์œก ๋ฐ์ดํ„ฐ ํ˜ผํ•ฉ ์ ‘๊ทผ๊ณผ ๋ฌธ์ œ์œ ํ˜•์  ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
T-SciQ์™€ ์œ ์‚ฌํ•˜๊ฒŒ LLM ๊ธฐ๋ฐ˜์˜ ๊ณผํ•™์  ์ถ”๋ก  ๋ฒค์น˜๋งˆํ‚น ์ด์Šˆ๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ, ํด๋ผ์ด์–ธํŠธ ์ค‘์‹ฌ์˜ LLM ํ‰๊ฐ€๋ฅผ ์ œ์•ˆํ•˜๋ฏ€๋กœ ๋น„๊ต์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
790 'Teaching Large Language Models to Self-Debug' ๋…ผ๋ฌธ์€ LLM ์ž๊ธฐ ๊ฐœ์„  ํ•™์Šต์ด ์–ด๋–ป๊ฒŒ ์ž๋™ ์ƒ์„ฑ ์‹ ํ˜ธ(ํ”ผ๋“œ๋ฐฑ, self-debug)๋กœ ํšจ๊ณผ์ ์œผ๋กœ ์ด๋ค„์ง€๋Š”์ง€๋ฅผ ๋‹ค๋ฃฌ ํ›„์†์  ๊ด€์ ์ด๋ผ ๊ฐ™์ด ์ฝ์œผ๋ฉด ํ•™์Šต์ „๋žต ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
T-SciQ ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์—ฐ์‡„์ถ”๋ก (chain-of-thought) ํ•™์Šต๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ์–ด, 879 ๋…ผ๋ฌธ์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ICL ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋…ผ์˜๋ฅผ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
T-SciQ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฑ—๋ด‡์˜ ์ฒด์ธ ์˜ค๋ธŒ ์˜ํŠธ(Chain-of-Thought) ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜์—ฌ ์ฐจํŠธ ์ดํ•ด์™€ ๋…ผ๋ฆฌ์  ์ถ”๋ก ์„ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
837 ๋…ผ๋ฌธ์€ ํ™”ํ•™ ์ „์šฉ reasoning ๋ชจ๋ธ ํ›ˆ๋ จ์ด๋ผ๋Š” T-SciQ์˜ ๊ณผํ•™ ๋ฌธ์ œ ํŠน์ด์„ฑ์„ ์‹ฌํ™”์‹œํ‚จ ์‚ฌ๋ก€๋กœ, Chain-of-Thought ๊ต์œก ์ „๋žต์— ๋Œ€ํ•œ ๋น„๊ต ํ†ต์ฐฐ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
785 ๋…ผ๋ฌธ์˜ ์—ฐ์‡„์  ์‚ฌ๊ณ  COT ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋Š” 833๋ฒˆ ๋…ผ๋ฌธ์—์„œ ๋‹ค๋ฃจ๋Š” ๊ธด chain-of-thought ์ถ”๋ก  ๊ธฐ๋Šฅ์˜ ํ‰๊ฐ€ ๋ฐฉ์‹๊ณผ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
T-SciQ์—์„œ๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ chain-of-thought ํ•™์Šต ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜์—ฌ Sketch-CoT ๋ฐฉ์‹์˜ ์•„์ด๋””์–ด์™€ ์ƒํ˜ธ๋ณด์™„์ ์œผ๋กœ ๋™์ž‘ํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
785 ๋…ผ๋ฌธ์˜ CoT ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  ํ•™์Šต ๋ฐฉ๋ฒ•๋ก ์€ 068 ๋…ผ๋ฌธ์˜ ๋ฆฌ์Šคํฌ ์˜ˆ์ธก, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์˜๋ฃŒ ์—์ด์ „ํŠธ ๊ฐœ๋ฐœ์— ์‹ค์ œ๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
869์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฒด์ธ์˜ค๋ธŒ์˜ํŠธ ์ถ”๋ก  ๋ถ„์„์€ 785์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ Chain-of-Thought ํ•™์Šต ๋ฒค์น˜๋งˆํ‚น ์‹คํ—˜๊ณผ ์‹ค์šฉ์  ์—ฐ๊ฒฐ์ ์„ ์ฐพ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •