Essence
SELF-DEBUGGING์ ๋ฐ๋ณต์ ๋๋ฒ๊น
ํ๋ก์ธ์ค: ์ฝ๋ ์์ฑ(Step 1) โ ์ฝ๋ ์คํ(Step 2) โ ์ฝ๋ ์ค๋ช
(Step 3) โ ํผ๋๋ฐฑ ์์ฑ ๋จ๊ณ
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ๋ช ๊ฐ์ง ์์ฐ(few-shot demonstration)์ ํตํด ์์ ์ด ์์ฑํ ์ฝ๋๋ฅผ ์๋์ผ๋ก ๋๋ฒ๊น
ํ๋๋ก ๊ฐ๋ฅด์น๋ SELF-DEBUGGING ๊ธฐ๋ฒ์ ์ ์ํ๋ค. ์ธ๋ถ ํผ๋๋ฐฑ ์์ด ์ฝ๋ ์ค๋ช
๊ณผ ์คํ ๊ฒฐ๊ณผ ๋ถ์์ ํตํด ์ค๋ฅ๋ฅผ ์๋ณํ๋ "๋ฌ๋ฒ๋ ๋๋ฒ๊น
(rubber duck debugging)" ๋ฐฉ์์ ์์ฒด ์์ ์ด ๊ฐ๋ฅํจ์ ๋ณด์ธ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ธ๋ถ ํผ๋๋ฐฑ ์์ด LLM์ ์๊ฐ ์ค๋ช
์ ํตํ ์ฝ๋ ์์ฒด ์์ ์ ์ฒด๊ณ์ ์ผ๋ก ์
์ฆํ๊ณ , ๋ค์ค ๋๋ฉ์ธ์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค. ์ถ๊ฐ ํ์ต์ด ๋ถํ์ํ๋ฉด์๋ ์ํ ํจ์จ์ฑ์ ๊ฐ์ ํ๋ค๋ ์ ์์ ์ค๋ฌด ์ ์ฉ ๊ฐ์น๊ฐ ๋์ผ๋, ๋๋ฒ๊น
๊ธฐ๋ฒ์ ์ผ๋ฐํ ํ๊ณ์ ๋ชจ๋ธ ๋ฅ๋ ฅ ์์กด์ฑ์ ๋ํ ๋ ์ฌ์ธต์ ์ธ ๋ถ์์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฝ๋ LLM์ ๋๊ท๋ชจ ์์ฒด ์ฝ๋ ํ๊ฐ ๋ฐ ๋๋ฒ๊น
ํ๋ จ์ ๊ธฐ๋ฐ์ด ๋๋ ๋ฒค์น๋งํน ์ฐ๊ตฌ(3380)๊ฐ self-debugging ๊ธฐ๋ฒ์ ํ๊ฐํ ๋๋ฅผ ์ด๋ฃน๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
320 ๋
ผ๋ฌธ์ ์ฝ๋ ๊ธฐ๋ฐ LLM์ ํ์ต ๋ฐ ํ๊ฐ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ์ฌ LLM self-debugging์ ํจ๊ณผ์ ํ๊ณ๋ฅผ ๋น๊ตํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ฝ๋ ๋๋ฒ๊น
๋ฅ๋ ฅ์ ๋ค์ํ ํ๋กฌํํธ ๋ฐ ์ธ์ด ํ๊ฒฝ์์ ๋ฒค์น๋งํนํ์ฌ SELF-DEBUGGING๊ณผ์ ์คํ์ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
790 'Teaching Large Language Models to Self-Debug' ๋
ผ๋ฌธ์ LLM ์๊ธฐ ๊ฐ์ ํ์ต์ด ์ด๋ป๊ฒ ์๋ ์์ฑ ์ ํธ(ํผ๋๋ฐฑ, self-debug)๋ก ํจ๊ณผ์ ์ผ๋ก ์ด๋ค์ง๋์ง๋ฅผ ๋ค๋ฃฌ ํ์์ ๊ด์ ์ด๋ผ ๊ฐ์ด ์ฝ์ผ๋ฉด ํ์ต์ ๋ต ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
790๋ฒ ๋
ผ๋ฌธ์ LLM์ ์๊ธฐ-๋๋ฒ๊น
๋ฅ๋ ฅ์ ์์คํ
์ ์ผ๋ก ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ, 747๋ฒ์ ๋จ๊ณ๋ณ ์๊ธฐ ์ ๊ฒ ๋ฐฉ์์ ๋ฐ์ ์ํค๋ ์ฐ์ฅ์ ์์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ชจ๋ธ ๊ธฐ๋ฐ ๋ฐ๋ณต์ ์๊ธฐ ๋๋ฒ๊น
(self-debug) ์ ๋ต์ ๊ดํ ์ด๋ก ์ /์คํ์ ๋ถ์์ด self-feedback ๋ฐฉ์์ ์ค์์ฑ๊ณผ ํ๊ณ๋ฅผ ๋ช
ํํ ํด์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
์คํ๊ฐ๋ฅ ์ฝ๋(Action)๋ฅผ ํตํ LLM ์์ด์ ํธ ์ฑ๋ฅ ํฅ์ ์ฐ๊ตฌ๋ก, ์๊ธฐ ๋๋ฒ๊น
์ ์ค์ฉ์ ํ์ฅ ์ฌ๋ก๊ฐ ์ ์๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
790์ LLM์ ์๊ธฐ ๋๋ฒ๊น
ํ์ต์ ๋ค๋ฃจ์ด, 887์ ๋ค์ค ๊ด์ ๊ฒ์ฆ ํ๋ ์์ํฌ์ ์ค์ง์ ๊ฐํ๋ฒ์ ์ ๊ณตํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
741 ๋
ผ๋ฌธ์ LLM์ด ์์ ์ด ์ฌ์ฉํ ์ฝ๋ ๋ฐ์ดํฐ๋ฅผ ์์จ์ ์ผ๋ก ๊ฒ์ฆยทํํฐ๋งํ๋ Seed-Coder ์์คํ
์ผ๋ก self-debug ๊ฐ๋
์ ์ค์ฉ์ ์ผ๋ก ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
ShinkaEvolve๋ ์ฝ๋ LLM์ ์๊ธฐ๊ฐ์ ๋ฐ ์์ฒด์ ์ธ ์ฝ๋ ์์ ๋ฅ๋ ฅ์ ํ์ฅํ๋ ๋ค์ํ ๋ฉ์ปค๋์ฆ์ ํ๊ตฌํ๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ์๋ ์๊ธฐ ๋๋ฒ๊น
/์ค๋ฅ ์์ ํ๋ จ์ ํตํด 538์์ ์ ์๋ ์๊ธฐ๊ฒ์ฆ ํ๊ณ์ ์ค์ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ์๊ธฐ ๋๋ฒ๊น
๋ฐ ๊ฒ์ฆ ์ ๋ต์ ์ ๋ณด ์ถ์ถ ํ์ดํ๋ผ์ธ์ ์ ๋ชฉํจ์ผ๋ก์จ ์ฑ๋ฅ ๋ฐ ์ ๋ขฐ๋ ๋ฌธ์ ํด์ ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Teaching Large Language Models to Self-Debug ๋
ผ๋ฌธ์ ๋น์ ํ ์์คํ
์ ์ค์๋ยท์ก์๋ฉ์ปค๋์ฆ์ LLM ์๊ธฐ์์ ๋ฅ๋ ฅ ์ฐ๊ตฌ์ ์ฐ๊ฒฐํ์ฌ, ์์/๋น์ ํ ํจ๊ณผ ํด์์ data-driven ํ์ฅ์์ ๋์์ ์ค๋๋ค.