์ ์: Lei Wang, Yi Hu, Jiabang He, Xing Xu, Ning Liu, Hui Liu, Heng Tao Shen | ๋ ์ง: 2023 | DOI: ๋ฏธ์ ๊ณต 📄 PDF
Essence
ScienceQA ๋ฐ์ดํฐ ์์: ์ธ๊ฐ ์ฃผ์ CoT์ LLM ์์ฑ CoT ๋น๊ต. LLM ์์ฑ CoT๊ฐ ๋ ๋ง์ ์ธ๋ถ ์ง์์ ํฌํจํจ
๋ณธ ๋
ผ๋ฌธ์ ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ์์ฑํ ์ฐ์์ ์ฌ๊ณ (Chain-of-Thought, CoT) ์ ํธ๋ฅผ ํผํฉํ์ฌ ๊ณผํ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ๊ฐ์ถ ์๊ท๋ชจ ํ์ ๋ชจ๋ธ์ ํ์ตํ๋ T-SciQ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ธ๊ฐ ์ฃผ์์ ๋น์ฉ ๋ฌธ์ ์ ์ ๋ณด ์์ค์ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ ๊ฐ์ง ์ ํ์ ์๋ ์์ฑ ๊ต์ ์ ํธ๋ฅผ ๊ฒฐํฉํ๋ ํ์ ์ ์ธ ๋ฐ์ดํฐ ํผํฉ ์ ๋ต์ ๋์
ํ๋ค.
Evaluation
์ดํ: T-SciQ๋ ๊ฐ๋จํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ๋ฐ์ดํฐ ํผํฉ ์ ๋ต์ ํตํด ๋ฉํฐ๋ชจ๋ฌ ๊ณผํ ์ถ๋ก ์์ ํ๊ธฐ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ํนํ ๊ฐ๋น์ผ ์ธ๊ฐ ์ฃผ์์ ์์ ํ ์ ๊ฑฐํ๋ฉด์๋ ์ ๋ณด ํ๋ถํ LLM ์ ํธ๋ก ์ฐ์ํ ํ์ ๋ชจ๋ธ์ ์์ฑํ ์ ์ด ์ค๋ฌด์ ๊ฐ์น๊ฐ ๋๋ค. ๋ค๋ง ๊ณ์ฐ ๋น์ฉ ๋ถ์๊ณผ ๋ค์ํ ๋๋ฉ์ธ์ผ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ์ด ํฅํ ๋ณด์๋์ด์ผ ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Self-Refine ๋
ผ๋ฌธ์ LLM์ด ๋ฐ๋ณต์ ์ผ๋ก ์๊ธฐํ๊ฐ ๋ฐ ๋ณด์ ํ์ต์ ์ํํ๋ ๊ธฐ์ด์ ์๊ณ ๋ฆฌ์ฆ ์๋ฆฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Improving demonstration diversity by human-free fusing for theorem proving ๋
ผ๋ฌธ์ ๋ค์ํ ์ ํธ๋ฅผ ํผํฉํ ์ง์ ์ ํธ ์ ์๋ฒ์ด T-SciQ์ ๊ต์ก ๋ฐ์ดํฐ ํผํฉ ์ ๋ต ์ด๋ก ์ ํ ๋๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฉํฐ๋ชจ๋ฌ chain-of-thought reasoning ๋ฒค์น๋งํฌ๋ MMSCI๊ฐ ์งํฅํ๋ ๋ํ์ ์์ค ๋ณตํฉ ์๊ฐํ ์ดํด ํ๊ฐ์ ์ด๋ก ์ ๋ฐ๋ฐํ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
677 ๋
ผ๋ฌธ์ ๋ฆฌ๋ทฐ ์์ฑ ํ๋กฌํํธ ๋์์ธ์ ํตํด LLM์ reasoning์ ์ด๋๋ ๋ค์ํ ๋ฐฉ๋ฒ๋ก ์ foundation์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
346 'Foundation-Model Surrogates' ๋
ผ๋ฌธ์ ๊ธฐ์ด ๋ชจ๋ธ์ ์ ์ด ๋ฐ ์ค๋ช
๋ ฅ์ ์ค์ํ๋ ๊ณผํ ๋ฌธ์ ์ ์ฉ ์ฌ๋ก๋ฅผ ์๊ฐํ์ฌ, 785์ T-SciQ ํ๋ ์์ํฌ๊ฐ ๋ค๋ฃจ๋ ์ฐ์์ ์ฌ๊ณ ์ ์ง์ ์ด์ ๋งฅ๋ฝ์ ๋ท๋ฐ์นจํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
TheoremQA ๋
ผ๋ฌธ์ ์ฐ์์ ์ฌ๊ณ ๋ฅผ ์๊ตฌํ๋ ์ํ ๋ฌธ์ QA์ ์ง์คํ์ฌ, T-SciQ์ ๋ฉํฐ๋ชจ๋ฌ Chain-of-Thought ๊ต์ก ๋ฐ์ดํฐ ํผํฉ ์ ๊ทผ๊ณผ ๋ฌธ์ ์ ํ์ ์ฐจ์ด๊ฐ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
T-SciQ์ ์ ์ฌํ๊ฒ LLM ๊ธฐ๋ฐ์ ๊ณผํ์ ์ถ๋ก ๋ฒค์น๋งํน ์ด์๋ฅผ ๋ค๋ฃจ์ง๋ง, ํด๋ผ์ด์ธํธ ์ค์ฌ์ LLM ํ๊ฐ๋ฅผ ์ ์ํ๋ฏ๋ก ๋น๊ต์ ์ ํฉํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
790 'Teaching Large Language Models to Self-Debug' ๋
ผ๋ฌธ์ LLM ์๊ธฐ ๊ฐ์ ํ์ต์ด ์ด๋ป๊ฒ ์๋ ์์ฑ ์ ํธ(ํผ๋๋ฐฑ, self-debug)๋ก ํจ๊ณผ์ ์ผ๋ก ์ด๋ค์ง๋์ง๋ฅผ ๋ค๋ฃฌ ํ์์ ๊ด์ ์ด๋ผ ๊ฐ์ด ์ฝ์ผ๋ฉด ํ์ต์ ๋ต ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
T-SciQ ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ์ฐ์์ถ๋ก (chain-of-thought) ํ์ต๋ฐฉ๋ฒ์ ๋ค๋ฃจ์ด, 879 ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ICL ์ฑ๋ฅ ํฅ์ ๋
ผ์๋ฅผ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
T-SciQ๋ ๋ฉํฐ๋ชจ๋ฌ ์ฑ๋ด์ ์ฒด์ธ ์ค๋ธ ์ํธ(Chain-of-Thought) ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ์ฌ ์ฐจํธ ์ดํด์ ๋
ผ๋ฆฌ์ ์ถ๋ก ์ ๊ฒฐํฉํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
837 ๋
ผ๋ฌธ์ ํํ ์ ์ฉ reasoning ๋ชจ๋ธ ํ๋ จ์ด๋ผ๋ T-SciQ์ ๊ณผํ ๋ฌธ์ ํน์ด์ฑ์ ์ฌํ์ํจ ์ฌ๋ก๋ก, Chain-of-Thought ๊ต์ก ์ ๋ต์ ๋ํ ๋น๊ต ํต์ฐฐ์ด ๊ฐ๋ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
785 ๋
ผ๋ฌธ์ ์ฐ์์ ์ฌ๊ณ COT ํ์ต ํ๋ ์์ํฌ๋ 833๋ฒ ๋
ผ๋ฌธ์์ ๋ค๋ฃจ๋ ๊ธด chain-of-thought ์ถ๋ก ๊ธฐ๋ฅ์ ํ๊ฐ ๋ฐฉ์๊ณผ ์ฐ๊ฒฐ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
T-SciQ์์๋ ๋ฉํฐ๋ชจ๋ฌ chain-of-thought ํ์ต ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ Sketch-CoT ๋ฐฉ์์ ์์ด๋์ด์ ์ํธ๋ณด์์ ์ผ๋ก ๋์ํ๋ค.
์์ฉ ์ฌ๋ก
785 ๋
ผ๋ฌธ์ CoT ๊ธฐ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ํ์ต ๋ฐฉ๋ฒ๋ก ์ 068 ๋
ผ๋ฌธ์ ๋ฆฌ์คํฌ ์์ธก, ๋ฉํฐ๋ชจ๋ฌ ์๋ฃ ์์ด์ ํธ ๊ฐ๋ฐ์ ์ค์ ๋ก ์ ์ฉ๋ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
869์ ๋ฉํฐ๋ชจ๋ฌ ์ฒด์ธ์ค๋ธ์ํธ ์ถ๋ก ๋ถ์์ 785์ ๋ฉํฐ๋ชจ๋ฌ Chain-of-Thought ํ์ต ๋ฒค์น๋งํน ์คํ๊ณผ ์ค์ฉ์ ์ฐ๊ฒฐ์ ์ ์ฐพ์ ์ ์์ต๋๋ค.