Essence
๊ธฐ์ค์ (์ข)๊ณผ FUSED(์ฐ)์ ์์ฐ(demonstration) ํ ๊ตฌ์ฑ ๋น๊ต. FUSED๋ ๊ธฐ์กด ๋ผ๋ฒจ๋ง ์์ด๋ ๋๋ ์ธ๊ฐ ๊ฐ์
์์ด ์์ฐ ํ์ ํฉ์ฑํ๊ณ ๋ค์์ฑ์ ํฅ์์ํฌ ์ ์์
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ๋ฌธ๋งฅ ๋ด ํ์ต(in-context learning)์ ํ์ฉํ Text-to-SQL ์์
์์ ์์ฐ(demonstration) ํ์ ๋ค์์ฑ์ ์ธก์ ํ๊ณ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๊ธฐ์กด์ ์ธ๊ฐ ๋ผ๋ฒจ๋ง ๊ธฐ๋ฐ ์์ฐ ์ ํ ๋ฐฉ์์ ๋ฎ์ ๋ค์์ฑ๊ณผ ๋์ ๋น์ฉ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด FUSED(FUSing itEratively for Demonstrations) ๋ฐฉ๋ฒ์ ๋์
ํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ Text-to-SQL ์์
์ ์์ฐ ํ ๋ค์์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ์ธก์ ํ๊ณ ๊ฐ์ ํ๋ ์ค์ฉ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. DM ์งํ๋ ๋ช
ํํ ๋๊ธฐ๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, FUSED ๋ฐฉ๋ฒ์ ๋ผ๋ฒจ๋ง ๋น์ฉ์ ์ ๊ฐํ๋ฉด์๋ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ค. ๋ค๋ง ์ผ๋ถ ์ค๊ณ ์ ํ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๊ฐ ๋ณด๊ฐ๋๊ณ ์์ฑ๋ ์์ฐ์ ํ์ง์ ๋ํ ์์ธ ๋ถ์์ด ์์ผ๋ฉด ๋์ฑ ์ฐ์ํ ๋
ผ๋ฌธ์ด ๋ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Retrieval-augmented LLM์์ ๋ค์ํ ์์ฐ ์ ํ ๋ฐฉ์์ ๋ํ ์ฐ๊ตฌ๊ฐ Text-to-SQL ์์ฐ ๋ค์์ฑ ํฅ์ ๋ฐฉ์์ ์ด๋ก ์ ๊ทผ๊ฑฐ๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฐ์ดํฐ ์ฆ๊ฐ ๋ฐ ์ ๊ทํ ๊ธฐ๋ฐ ๋ผ๋ฒจ๋ง ์ฑ๋ฅ ๊ฐ์ ์ ๋ต์ด LLM ์์ฐ ๋ค์์ฑ ํฅ์ ์ฐ๊ตฌ์ ๊ทผ๊ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Improving demonstration diversity by human-free fusing for theorem proving ๋
ผ๋ฌธ์ ๋ค์ํ ์ ํธ๋ฅผ ํผํฉํ ์ง์ ์ ํธ ์ ์๋ฒ์ด T-SciQ์ ๊ต์ก ๋ฐ์ดํฐ ํผํฉ ์ ๋ต ์ด๋ก ์ ํ ๋๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์ด๋์ด/ํ
์คํธ ์์ฑ์ ๋ค์์ฑ ๋ฐ ์ ์ด ๋ฅ๋ ฅ ๋
ผ์๊ฐ demonstration ๋ค์์ฑ ์ฆ์ง ๋ฐฉ์์ ์ง์ ์ ํ ๋๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM alignment์ ๋ค์ํ ์ฐจ์์ ๋
ผ์ํ์ฌ, 421๊ณผ ๊ฐ์ ๋ฌธ๋งฅ ์์ ์ ์ ยท์กฐํฉ์์ ๋ํ๋๋ ์ธ๊ณต์ง๋ฅ ํ์ต/์ ์์ ๋ณต์ก์ฑ์ ์ด๋ก ์ ์ผ๋ก ๋ท๋ฐ์นจํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค๊ตญ์ด/๋ค๋๋ฉ์ธ Wikipedia ํธ์ง ์ด๋ ฅ ๊ธฐ๋ฐ ๋ฌธ์ฅ ๋ถํ ยท์ฌ๊ตฌ์ฑ ๋ฒค์น๋งํฌ๋ก ์ค์ ๋ฐ์ดํฐ ๋ค์์ฑ ํ๋์ ๋ํ ์ฐธ๊ณ ์ฌ๋ก๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM๊ธฐ๋ฐ ์๋ ํผ์ด๋ฆฌ๋ทฐ ์์ฑ์์ ์์ฐ(๋ฐ๋ชจ) ์ ํ ๋ค์์ฑ๊ณผ AI reasoning์ ๊ฒฐํฉํ๋ ๋ฐฉ๋ฒ์ ์ ์ํด, 421์ human-free ์์ฐ ๋ค์์ฑ ํฅ์ ์ ๋ต๊ณผ ๋์กฐ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Self-Refine ๋ฑ ๋ฐ๋ณต์ ์๊ธฐ ํผ๋๋ฐฑ ํ์ฉ ์ฐ๊ตฌ๊ฐ ๋ฌธ๋งฅ ๋ด ํ์ต ์์ฐ ๋ค์์ฑ ํ๋ณด ๋ฐ ์ฑ๋ฅ ํฅ์ ๋ฉ์ปค๋์ฆ์ ์ค์ ์ ์ผ๋ก ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
MLE-bench(545)๋ ๋จธ์ ๋ฌ๋ ์์ด์ ํธ์ ๋ค์ํ ๋ฌธ์ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ฉฐ, 421์ Text-to-SQL ์์
์ธ์๋ ์์ด์ ํธ ์ผ๋ฐํ ํ๊ฐ์ ์ ํฉํ๋ค.
ํ์ ์ฐ๊ตฌ
AI ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ์ด ์๋ํ ๋ฒค์น๋งํฌ ๋
ผ๋ฌธ์ผ๋ก, ๋ค์ํ ์์ฐ ๋ฐ์ดํฐ์ ํ๊ฐ ๊ธฐ์ค ๊ตฌ์ถ๊ณผ์ ์ฐ๊ณ ์ฐ๊ตฌ์ ์ฐธ๊ณ ๋๋ค.
์์ฉ ์ฌ๋ก
580์ ๋ฒค์น๋งํฌ์ ์ค์ ์ ์ฉ ์ธก๋ฉด์์, 421์ demonstration diversity์ ์ธ์ฉ ์ถ์ฒ ๋ถ์ผ LLM ํ๊ฐ๊ฐ ์ํธ ์๋์ง๋ฅผ ์ ๊ณตํ๋ค.