Dlpo: Towards a robust, efficient, and generalizable prompt optimization framework from a deep-learning perspective

์ €์ž: Dengyun Peng, Yuhang Zhou, Qiguang Chen, JinHao Liu, Jingjing Chen, Libo Qin, Wanxiang Che | ๋‚ ์งœ: 2025 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ๋ฐ˜์‚ฌ ๊ธฐ๋ฐ˜ ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™” ๋ฐฉ๋ฒ•๊ณผ DLPO์˜ ๋น„๊ต - ๊ฒฌ๊ณ ์„ฑ, ํšจ์œจ์„ฑ, ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๊ฐœ์„ 

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™”์—์„œ ๊ธฐ์กด ๋ฐ˜์‚ฌ(reflection) ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์˜ ๋ถˆ์•ˆ์ •์„ฑ, ๋‚ฎ์€ ์ˆ˜๋ ด ์†๋„, ์ œํ•œ๋œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ „ํ†ต ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฒ•์—์„œ ์˜๊ฐ์„ ์–ป์€ 7๊ฐ€์ง€ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ๊ทธ๋ž˜๋””์–ธํŠธ ์ตœ์ ํ™” ์ „๋žต์„ ์ œ์‹œํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™”์˜ ๊ฒฌ๊ณ ์„ฑ(robustness), ํšจ์œจ์„ฑ(efficiency), ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ(generalizability)์„ ๋™์‹œ์— ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

Motivation

Achievement

Figure 3

๊ทธ๋ฆผ 3: ๊ธฐ์กด ๋ฐฉ๋ฒ•์˜ ๋ถˆ์•ˆ์ •์„ฑ, ๋‚ฎ์€ ํšจ์œจ์„ฑ, ์ œํ•œ๋œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๋ถ„์„

  1. ๊ฒฌ๊ณ ์„ฑ ํ–ฅ์ƒ: ํ…์ŠคํŠธ ํ•™์Šต๋ฅ (TLR), ํ…์ŠคํŠธ ๋“œ๋กญ์•„์›ƒ(TDO), ํ…์ŠคํŠธ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์–ด๋‹๋ง(TSA)์„ ํ†ตํ•ด ์ตœ์ ํ™” ๊ณผ์ •์˜ ์ง„๋™์„ ๊ฐ์†Œ์‹œํ‚ค๊ณ  ์•ˆ์ •์„ฑ์„ ํ™•๋ณด. ๋‹ค์–‘ํ•œ ์‹œ๋“œ์— ๋”ฐ๋ฅธ ๋ถ„์‚ฐ์„ ํฌ๊ฒŒ ์ถ•์†Œ.
  2. ํšจ์œจ์„ฑ ๊ฐœ์„ : ํ…์ŠคํŠธ ํ•™์Šต๋ฅ  ๊ฐ์‡ (TLRD), ํ…์ŠคํŠธ ๋ชจ๋ฉ˜ํ…€(TMnt), ํ…์ŠคํŠธ ๋Œ€์กฐํ•™์Šต(TCL)์„ ํ†ตํ•ด ์ˆ˜๋ ด ์†๋„ ํ–ฅ์ƒ. ๋ชฉํ‘œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ์— ํ•„์š”ํ•œ ๋ฐ˜๋ณต ํšŸ์ˆ˜๋ฅผ 20ํšŒ ์ด์ƒ์—์„œ ๋Œ€ํญ ๊ฐ์†Œ.
  3. ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๊ฐ•ํ™”: ํ…์ŠคํŠธ ์ •๊ทœํ™”(TRegu)๋ฅผ ํ†ตํ•ด ํ”„๋กฌํ”„ํŠธ ๋ณต์žก๋„๋ฅผ ์ œ์–ดํ•˜์—ฌ ํ›ˆ๋ จ-ํ…Œ์ŠคํŠธ ๊ฐ„ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ ๊ฐ์†Œ ๋ฐ ๋„๋ฉ”์ธ ์™ธ(out-of-domain) ์ž‘์—…์—์„œ์˜ ์ผ๋ฐ˜ํ™” ๊ฐœ์„ .
  4. ๊ฒฝํ—˜์  ์šฐ์ˆ˜์„ฑ: 5๊ฐœ ๋ฒค์น˜๋งˆํฌ(GSM8K, MATH, BigGSM, BBH, MGSM)์—์„œ ๊ธฐ์กด ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ฐฉ๋ฒ• ๋Œ€๋น„ 8.1% ํ–ฅ์ƒ, ์ˆ˜์ž‘์—…์œผ๋กœ ์„ค๊ณ„ํ•œ ํ”„๋กฌํ”„ํŠธ ์„ฑ๋Šฅ๋„ ์ดˆ๊ณผ.

How

Figure 2

๊ทธ๋ฆผ 2: ๋ฐ˜์‚ฌ ๊ธฐ๋ฐ˜ ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™”์˜ ์ •๋ฐฉํ–ฅ(Forward)๊ณผ ์—ญ๋ฐฉํ–ฅ(Backward) ์—”์ง„

๊ฒฌ๊ณ ์„ฑ ๊ฐœ์„  ๋ฐฉ๋ฒ•:

ํšจ์œจ์„ฑ ๊ฐœ์„  ๋ฐฉ๋ฒ•:

์ผ๋ฐ˜ํ™” ๊ฐœ์„  ๋ฐฉ๋ฒ•:

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™”์˜ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ œ๋“ค(๊ฒฌ๊ณ ์„ฑ, ํšจ์œจ์„ฑ, ์ผ๋ฐ˜ํ™”)์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ง„๋‹จํ•˜๊ณ  ๋”ฅ๋Ÿฌ๋‹ ํŒจ๋Ÿฌ๋‹ค์ž„์—์„œ ์˜๊ฐ์„ ์–ป์€ ์ผ๊ด€์„ฑ ์žˆ๋Š” ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ•œ ์ ์—์„œ ๋†’์ด ํ‰๊ฐ€ํ•  ๋งŒํ•˜๋‹ค. ๋‹ค๋งŒ ์ œํ•œ๋œ ์ž‘์—… ์œ ํ˜•, ๋ถˆ์ถฉ๋ถ„ํ•œ ablation study, ๊ณ„์‚ฐ ์˜ค๋ฒ„ํ—ค๋“œ ๋ถ„์„ ๋ถ€์žฌ ๋“ฑ์œผ๋กœ ์ธํ•ด ์™„์ „ํ•œ 5์  ํ‰๊ฐ€์—๋Š” ๋ฏธ์น˜์ง€ ๋ชปํ•œ๋‹ค. LLM ๊ธฐ๋ฐ˜ ์ž๋™ ์ตœ์ ํ™” ๋ถ„์•ผ์— ์‹ค์งˆ์ ์ธ ๊ธฐ์—ฌ๋ฅผ ํ•˜๋Š” ์˜๋ฏธ ์žˆ๋Š” ์ž‘์—…์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์˜ ์ž๊ธฐ๊ฐœ์„ ๊ณผ ๋ฐ˜์‚ฌ(reflection) ๋ฐฉ๋ฒ•๋ก ์˜ ํ•œ๊ณ„๋ฅผ ๋ถ„์„ํ•ด, DLPO์—์„œ ๋‹ค๋ฃจ๋Š” ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™” ๊ฐœ์„ ์˜ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ํ™œ์šฉํ•œ ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™”์˜ ์ด๋ก ์ ยท๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™”์—์„œ ๋ฐ˜์‚ฌ ๋˜๋Š” ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์˜ ๋Œ€์•ˆ์  ์ ‘๊ทผ๋ฒ•์„ ํƒ๊ตฌํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™”์˜ ์ˆ˜๋ ด ์†๋„์™€ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๊ฐœ์„ ์„ ์œ„ํ•œ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Self-Refine ๋…ผ๋ฌธ์€ LLM์˜ ์ž๊ธฐ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๋ฐ˜๋ณต ๊ฐœ์„  ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜์—ฌ ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™”์˜ self-improvement ์ ‘๊ทผ๋ฒ•๊ณผ ๋Œ€๋น„ํ•˜์—ฌ ์ฐธ๊ณ ํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Axolotl ๋…ผ๋ฌธ์€ LLM์˜ ์ž๋™ ๋””๋ฐ”์ด์–ด์‹ฑ ๋ฐ ๊ณต์ •์„ฑ ํ–ฅ์ƒ ์ธก๋ฉด์„ ๋‹ค๋ฃจ์–ด, 281์˜ ๊ฒฌ๊ณ ์„ฑยท๊ณต์ •์„ฑ ์ฃผ์ œ์™€ ๋‹ค๋ฅธ ์‹คํ—˜์  ๋ฐฉ์‹์œผ๋กœ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™”๋ฅผ ์œ„ํ•œ ๋Œ€์•ˆ์  ์ž๋™ํ™” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ”„๋กฌํ”„ํŠธ ํšจ์œจํ™” ๋ฐ robust prompt selection์œผ๋กœ ๋Œ€๊ทœ๋ชจ ์˜ˆ์ธก ๋ฌธ์ œ์—์„œ ํšจ์œจ์„ฑ์„ ์ถ”๊ตฌํ•œ ๋‹ค๋ฅธ ์ ‘๊ทผ์ด๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •