์ ์: Jiaxin Huang, Shixiang Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, Jiawei Han | ๋ ์ง: 2022 | DOI: N/A 📄 PDF
Essence
๊ทธ๋ฆผ 1: ๋ฐฉ๋ฒ์ ๊ฐ์. Chain-of-Thought ์์๋ฅผ ํ์ฉํ์ฌ ์ธ์ด๋ชจ๋ธ์ด ์ฌ๋ฌ ๊ฐ์ CoT ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ์์ฑํ๊ณ , ๋ค์๊ฒฐ ํฌํ(Majority Voting)๋ก ๊ณ ์ ๋ขฐ๋ ๋ต๋ณ์ ์ ํํ ํ, ์ด๋ฅผ ํ์ธํ๋ ๋ฐ์ดํฐ๋ก ํ์ฉ
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ด ๋ ์ด๋ธ ์๋ ๋ฐ์ดํฐ๋ง์ผ๋ก ์๊ธฐ ์์ฑ ๊ณ ์ ๋ขฐ๋ ์ถ๋ก (reasoning) ๊ฒฝ๋ก๋ฅผ ํตํด ์๊ฐ ๊ฐ์ (self-improve)ํ ์ ์์์ ์
์ฆํ ๋
ผ๋ฌธ์ด๋ค. Chain-of-Thought ํ๋กฌํ
๊ณผ ์๊ธฐ ์ผ๊ด์ฑ(self-consistency)์ ํ์ฉํ์ฌ ๊ฐ๋
์ ํธ ์์ด ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํจ๋ค.
Evaluation
์ดํ: ์ด ๋
ผ๋ฌธ์ ๋ ์ด๋ธ ์๋ ๋ฐ์ดํฐ๋ก ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ด ์๊ฐ ๊ฐ์ ํ ์ ์์์ ๋ช
ํํ ์
์ฆํ ์ค์ํ ์ฐ๊ตฌ๋ค. Chain-of-Thought์ ์๊ธฐ ์ผ๊ด์ฑ์ ์ฐฝ์์ ์ผ๋ก ์กฐํฉํ์ฌ ๊ฐ๋ ฅํ ์๋ ๊ฐ๋
์ ํธ๋ฅผ ์ป์์ผ๋ฉฐ, ๋๋ฉ์ธ ๋ด์ธ ๋ค์ ๋ฐ์ดํฐ์
์์ ์ํ ์ถ์ ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. ๋ค๋ง ์ ๋ขฐ๋ ํ๊ฐ์ ์ ๊ต์ฑ, ์ค๋ฅ ์ฆํญ ์ํ, ๊ณ์ฐ ๋น์ฉ ๋ฑ์ ํ๊ณ๊ฐ ์์ผ๋, ๊ฐ๋
์ ํธ ์์กด์ฑ์ ํฌ๊ฒ ์ค์ผ ์ ์๋ค๋ ์ ์์ ์ค๋ฌด์ ๊ฐ์น๊ฐ ๋งค์ฐ ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ด ์๋ฌต์ ์ผ๋ก self-improvement๋ฅผ ํ์ตํ๋๋ก ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํด, ์๊ธฐ ๊ฐ์ ๋
ผ๋ฌธ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
470์ LLM์ ์๊ธฐ ๊ฐ์ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ด๋ก ์ /์คํ์ ๋
ผ์๋ก 746์ ๊ธฐ์ด์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
470์ LLM ์๊ธฐ๊ฐ์ ๋ฅ๋ ฅ ๊ด๋ จ ์ฐ๊ตฌ๋ 180์์ ํ๊ฐํ๋ ๋ฅ๋์ ์ ๋ณด์์ง ๋ฐ ์ ๋ต ์ ์์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ์๊ธฐ๊ฐ์ ๊ณผ self-improvement ๊ตฌ์กฐ์ ๋ํ ์ด๋ก ์ ๋ถ์์ ๋ฐํ์ผ๋ก, 447๋ฒ ๋
ผ๋ฌธ์ ๋ฐ๋ณต์ ๊ฐํํ์ต ๊ตฌ์กฐ๋ฅผ ๋ท๋ฐ์นจํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ์๊ธฐ ๊ฐ์ ๊ณผ ๋ฐ๋ณต์ ์ค๋ฅ ์์ ๋ฉ์ปค๋์ฆ์ ๊ธฐ๋ณธ ์๋ฆฌ๋ฅผ ๋ฐํ์ผ๋ก, 598๋ฒ ๋
ผ๋ฌธ์ ๊ฐํํ์ต์ self-correction ํ๋ก์ธ์ค์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ์๊ธฐ๊ฐ์ ๊ณผ ๋ฐ์ฌ(reflection) ๋ฐฉ๋ฒ๋ก ์ ํ๊ณ๋ฅผ ๋ถ์ํด, DLPO์์ ๋ค๋ฃจ๋ ํ๋กฌํํธ ์ต์ ํ ๊ฐ์ ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Large language models can self-improve ๋
ผ๋ฌธ์ LLM์ ์ธ๊ฐ์์ค ์ถ๋ก ๋ฐ ์ ์๋ ฅ์ ๋ฐ์ ์์ ์กฐ๋ช
ํ๋ฉฐ, ํ๋ง ํ
์คํธ ํต๊ณผ์ ๊ฐ์ ์ฑ์ทจ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Large language models can self-improve ๋
ผ๋ฌธ์ LLM ์๊ธฐ๊ฐ์ ๊ฐ๋
์ ์ด๋ก ์ ๊ทผ๊ฑฐ์ ์คํ์ ์ฌ๋ก๋ฅผ ์ ๊ณตํด 538์ ์๊ธฐ๊ฐ์ ๋ฅ๋ ฅ ๊ณ๋ํ ๋ถ์์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
353์ LLM์ ํ์ฉํ ์๋ํ ๋ฐ ์๊ธฐ๊ฐ์ AI ์์ด์ ํธ ์ค๋ฌธ์ 470 ์ฐ๊ตฌ์ ๊ธฐ์ โง์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Self-Refine ๋
ผ๋ฌธ์ LLM์ iterative self-feedback์ ํตํ ๋ต๋ณ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ฉฐ, ์๊ธฐ ๊ฐ์ ๊ณผ ์๊ธฐ ์ ๊ฒ์ ๋ํฅ์ ๊ฐ์ด ์ดํดํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
Large language models can self-improve ๋
ผ๋ฌธ์ LLM์ ์๊ธฐ ๊ฐ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋
ผ๋ฌธ์ผ๋ก, Selfcheck์ ๋จ๊ณ๋ณ ์๊ธฐ๊ฒ์ฆ๊ณผ ๋ฌ๋ฆฌ ์ฅ๊ธฐ์ ์๊ธฐํ์ต ์ธก๋ฉด์ ๋
ผ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
470 'Large language models can self-improve' ๋
ผ๋ฌธ์ SFT/RL ์ธ์๋ ์์ฒด ์์ฑ๋ ํผ๋๋ฐฑ๊ณผ ์๊ธฐ๊ฐ์ ๋ฃจํ๋ฅผ ํตํ LLM ์ผ๋ฐํ ํฅ์ ์ ๋ต์ ๋ค๋ฃจ์ด ๋์กฐ์ ์ผ๋ก ์ฐธ๊ณ ํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
747์ zero-shot self-checking ๋ฐ ์๊ธฐ ์ผ๊ด์ฑ ๊ธฐ๋ฐ reasoning ๊ฐํ ์ ๋ต์ ํตํด LLM์ self-improve๋ฅผ ์ค์ ๋ก ๊ฒ์ฆํ๋ค.
ํ์ ์ฐ๊ตฌ
470 ๋
ผ๋ฌธ์ LLM์ ์๊ธฐ ๊ฐ์ ๋ฅ๋ ฅ(์๊ธฐ ์์ , self-improvement)์ ์ฒด๊ณ์ ์ค์ฆ์ ์ ๊ณตํ์ฌ, 314์ ์ ์๋ PIT(self-improvement ํ๋ ์)์ ํจ๊ณผ๋ฅผ ์คํ์ ์ผ๋ก ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
447์ ์๊ธฐ ์ธ์ผํฐ๋ธ๋ฅผ ํตํ LLM ์๊ธฐ๊ฐ์ ๋ฐฉ์์ผ๋ก, 470์ ์๊ธฐ ์ผ๊ด์ฑ๊ณผ ์ ๋ขฐ๋ ์ถ๋ก ๊ธฐ๋ฐ ์๊ธฐ๊ฐ์ ์คํ์ ํ์ ๋ฐ์ ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
538 ๋
ผ๋ฌธ์ LLM ์๊ธฐ ๊ฐ์ ๋ฅ๋ ฅ์ ํ๊ณ์ ์๊ธฐ ๋ฐ์ ๊ธฐ๋ฒ๋ค์ ํจ๊ณผ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ธก์ ํ์ฌ, 470์ ์ฃผ์ฅ์ ๋ฒค์น๋งํฌ/๋นํํ๋ค.
ํ์ ์ฐ๊ตฌ
470์ LLM์ ์๊ธฐ๊ฐ์ ํ์ต๊ณผ ์๊ธฐ๋ฐ์ฑ์ ๊ธฐ๋ฒ์ ๋ค๋ฃจ์ด, 845์์ ์ ์ํ RISE ํ๋ ์์ํฌ์ ํ์ฅ ๋
ผ์๋ฅผ ๋ณด์ํ๋ค.
๋ฐ๋ก /๋นํ
Large language models can self-improve ๋
ผ๋ฌธ์ LLM์ ์๊ธฐ๊ฐ์ ๊ฐ๋ฅ์ฑ์ ์คํ์ ์ผ๋ก ์ฃผ์ฅํ๋ฉฐ, self-correction ํ๊ณ๋ผ๋ ๋ณธ ๋
ผ๋ฌธ๊ณผ ๋
ผ์ ์ด ๋์กฐ๋ฉ๋๋ค.
๋ฐ๋ก /๋นํ
LLM์ self-improvement(์๊ธฐ๊ฐ์ ) ๋ฅ๋ ฅ์ด ์ค์ ๋ก ๊ฐ๋ฅํ์ง์ ๋ํด ์คํ์ ์ผ๋ก ๋
ผ์, ์ถ๋ก ๊ฒฝ๊ณ ํ๋ ์์ํฌ์ ๋นํ์ ์
์ฅ ์ ์.