Fine-tuning large language models for domain adaptation: exploration of training strategies, scaling, model merging and synergistic capabilities

์ €์ž: Wei Lu, Rachel K. Luu, Markus J. Buehler | ๋‚ ์งœ: 2025-03-28 | DOI: 10.1038/s41524-025-01564-y 📄 PDF


Essence

Figure 2

๋ชจ๋ธ ํ›ˆ๋ จ, ๋ณ‘ํ•ฉ ๋ฐ ํ‰๊ฐ€ ๋‹จ๊ณ„. A: ๊ธฐ์กด์˜ ์„ ํ˜• ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ(CPTโ†’SFTโ†’DPO/ORPO). B: ๋ชจ๋ธ ๋ณ‘ํ•ฉ์„ ํฌํ•จํ•œ ๋Œ€์•ˆ์  ํŒŒ์ดํ”„๋ผ์ธ

๋ณธ ๋…ผ๋ฌธ์€ ์žฌ๋ฃŒ๊ณผํ•™ ๋“ฑ ์ „๋ฌธ ๋„๋ฉ”์ธ์— ๋Œ€์‘ํ•˜๋Š” ๋Œ€ํ˜•์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ํŒŒ์ธํŠœ๋‹ ์ „๋žต์„ ์ฒด๊ณ„์ ์œผ๋กœ ํƒ๊ตฌํ•˜๋ฉฐ, ํŠนํžˆ ์—ฌ๋Ÿฌ ๋ฏธ์„ธ์กฐ์ • ๋ชจ๋ธ์˜ ๋ณ‘ํ•ฉ(model merging)์ด ๊ฐœ๋ณ„ ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์„ ์ดˆ์›”ํ•˜๋Š” ์ฐฝ๋ฐœ์  ๊ธฐ๋Šฅ(emergent capabilities)์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹ค์ฆํ•œ๋‹ค.

Motivation

Achievement

  1. ๋ชจ๋ธ ๋ณ‘ํ•ฉ์˜ ์ฐฝ๋ฐœ์„ฑ: ์—ฌ๋Ÿฌ ๋ฏธ์„ธ์กฐ์ • ๋ชจ๋ธ์˜ SLERP ๊ธฐ๋ฐ˜ ๋ณ‘ํ•ฉ์ด ๊ฐœ๋ณ„ ๋ถ€๋ชจ ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์„ ๋‹จ์ˆœ ํ•ฉ์‚ฐํ•˜์ง€ ์•Š๊ณ , ๋งค๊ฐœ๋ณ€์ˆ˜ ๊ฐ„์˜ ๋น„์„ ํ˜• ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•ด ์–ด๋А ๋ถ€๋ชจ ๋ชจ๋ธ๋„ ๋‹จ๋…์œผ๋กœ ๋‹ฌ์„ฑํ•˜์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ๊ธฐ๋Šฅ์„ ์ƒ์„ฑํ•˜๋ฉฐ, ๋„๋ฉ”์ธ ํŠนํ™” ํ‰๊ฐ€์—์„œ ๊ฐœ์„ ๋œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•จ์„ ์‹ค์ฆํ–ˆ๋‹ค.
  2. ํ›ˆ๋ จ ์ „๋žต์˜ ์ฒด๊ณ„์  ๋น„๊ต: CPT๋ฅผ ํ†ตํ•œ ๋„๋ฉ”์ธ ์ง€์‹ ์Šต๋“, SFT๋ฅผ ํ†ตํ•œ ์ž‘์—… ํŠนํ™”, DPO/ORPO๋ฅผ ํ†ตํ•œ ์„ ํ˜ธ๋„ ์ •๋ ฌ์˜ ์ˆœ์ฐจ์  ํŒŒ์ดํ”„๋ผ์ธ์ด ๊ฐ ๋‹จ๊ณ„์—์„œ ๋ชจ๋ธ ๋Šฅ๋ ฅ์„ ๋‹จ๊ณ„์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜(Llama 3.1 8B, Mistral 7B)์—์„œ ์ผ๊ด€๋œ ๊ฑฐ๋™์„ ๋ณด์ž„์„ ํ™•์ธํ–ˆ๋‹ค.
  3. ์Šค์ผ€์ผ๋ง๊ณผ ์ฐฝ๋ฐœ์„ฑ์˜ ๊ด€๊ณ„: ๋ชจ๋ธ ๋ณ‘ํ•ฉ์˜ ์ฐฝ๋ฐœ์  ๊ธฐ๋Šฅ์ด ๋ชจ๋ธ ๊ทœ๋ชจ์— ์˜์กด์ ์ด๋ฉฐ, 1.7B ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์†Œ๊ทœ๋ชจ LLM์€ ๋ชจ๋ธ ๋ณ‘ํ•ฉ ์‹œ ์ฐฝ๋ฐœ ๊ธฐ๋Šฅ์„ ๋‚˜ํƒ€๋‚ด์ง€ ์•Š์•„ ๋ชจ๋ธ ์Šค์ผ€์ผ์ด ํ•ต์‹ฌ ์š”์†Œ์ž„์„ ์‹œ์‚ฌํ•œ๋‹ค.
  4. ๊ฐœ๋ฐฉํ˜• ๋Œ€ํ™” ํ‰๊ฐ€: ์ธ๊ฐ„-AI ๋ชจ๋ธ ๊ฐ„์˜ ์ž์œ ๋กœ์šด ๋Œ€ํ™” ํ‰๊ฐ€์—์„œ ๊ฐ€์žฅ ์ž‘์€ ๋ชจ๋ธ์กฐ์ฐจ ์ถ”๋ก  ๊นŠ์ด, ์ฐฝ์˜์„ฑ, ๋ช…ํ™•์„ฑ, ์ •๋Ÿ‰์  ์ •ํ™•์„ฑ ๋“ฑ์˜ ํ•ต์‹ฌ ๊ธฐ์ค€์—์„œ ๋†’์€ ์ง€๋Šฅ ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์˜€๋‹ค.

How

Figure 3

SLERP(๊ตฌ๋ฉด ์„ ํ˜• ๋ณด๊ฐ„๋ฒ•)์™€ LERP(์„ ํ˜• ๋ณด๊ฐ„๋ฒ•)์˜ ๋น„๊ต. SLERP๋Š” ๋ชจ๋ธ ๋งค๊ฐœ๋ณ€์ˆ˜ ๊ณต๊ฐ„์˜ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ•˜์—ฌ ์˜๋ฏธ ์žˆ๋Š” ๋Šฅ๋ ฅ ํ˜ผํ•ฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•จ

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.3/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ๋ชจ๋ธ ๋ณ‘ํ•ฉ์„ ํ†ตํ•œ ์ฐฝ๋ฐœ์  ๊ธฐ๋Šฅ์˜ ์‹ค์ฆ๊ณผ ๋„๋ฉ”์ธ ํŠนํ™” ํŒŒ์ธํŠœ๋‹ ์ „๋žต์˜ ์ฒด๊ณ„์  ๋น„๊ต๋ฅผ ์ œ์‹œํ•˜์—ฌ LLM ํ™œ์šฉ์˜ ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•˜๋Š” ๊ฐ€์น˜ ์žˆ๋Š” ์—ฐ๊ตฌ์ด๋‚˜, ์ฐฝ๋ฐœ์„ฑ์˜ ๊ทผ๋ณธ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ถ„์„๊ณผ ์ด๋ก ์  ๊ธฐ์ดˆ๊ฐ€ ๊ฐ•ํ™”๋˜๋ฉด ๋”์šฑ ์˜ํ–ฅ๋ ฅ ์žˆ๋Š” ๊ธฐ์—ฌ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
340 ๋…ผ๋ฌธ์€ LLM์˜ ๋„๋ฉ”์ธ ์ ์‘(ํŠนํ™” ๋„๋ฉ”์ธ ํ”„๋ฆฌํŠธ๋ ˆ์ด๋‹) ๊ธฐ๋ฒ•์„ ์ฒด๊ณ„์ ์œผ๋กœ ์†Œ๊ฐœํ•ด, 367์— ๋“ฑ์žฅํ•˜๋Š” Galactica์™€ ๊ฐ™์€ ํŠนํ™” LLM ๊ฐœ๋ฐœ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์„ ๊ณผํ•™ ์žฌ๋ฃŒ ๋ถ„์•ผ์— ์ ์šฉํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์žฌ๋ฃŒ๊ณผํ•™ AI ๋ถ„์•ผ์—์„œ ๋„๋ฉ”์ธ ํŠนํ™” LLM ๋ฐœ์ „ ๋™ํ–ฅ๊ณผ ๋ฐ์ดํ„ฐ์…‹์˜ ์ค‘์š”์„ฑ์„ ํฌ๊ด„์ ์œผ๋กœ ๋…ผ์˜ํ•˜์—ฌ 340๋ฒˆ ๋…ผ๋ฌธ์— ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
340์€ ๋„๋ฉ”์ธ ์ ์‘ LLM์—์„œ ๊ธฐ๋ฒ• ์„ฑ๋Šฅ ๋ณ€ํ™”๋ฅผ ๋ถ„์„ํ•˜์—ฌ, ๋ฐ์ดํ„ฐ ๋™ํ™”ยท์ผ๋ฐ˜ํ™” ๋ฌธ์ œ์— ์ž๊ธฐ์ง€๋„ ํ•™์Šต์˜ ๊ธฐ๋ณธ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
340์€ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ๋ฌผ๋ฆฌ์ ์œผ๋กœ ํƒ€๋‹นํ•œ ๋„๋ฉ”์ธ ์ ์‘์˜ ์ค‘์š”์„ฑ์„ ์‹คํ—˜์ ์œผ๋กœ ๋…ผ์˜ํ•˜์—ฌ 3136์˜ ๋ชจ๋ธ ์„ค๊ณ„ ์‹œ ์ฐธ๊ณ ๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋„๋ฉ”์ธ ์ ์‘์„ ์œ„ํ•œ LLM ํŒŒ์ธํŠœ๋‹ ๊ฒฝํ—˜์€ AutoSOTA์˜ ์ž๋™ ์ฝ”๋”ฉ ๋ฐ ์ฝ”๋“œ ๋ณต์ œ ํ™˜๊ฒฝ ๊ตฌ์ถ•์— ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
286๋ฒˆ ๋…ผ๋ฌธ์€ LLM์˜ ๋ฌผ๋ฆฌํ•™ ๋„๋ฉ”์ธ ์ ์‘์„ ์œ„ํ•œ ReAct ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ ํ•™์ƒํŠœ๋‹๊ณผ ๋ชจ๋ธ ๋ณ‘ํ•ฉ ์™ธ ๋‹ค๋ฅธ ํŒŒ์ธํŠœ๋‹ ์ „๋žต์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋„๋ฉ”์ธ ํŠนํ™” LLM์˜ ๋ฐ์ดํ„ฐ๋ถ€ํ„ฐ ํŒŒ์ธํŠœ๋‹ยท์ ์‘ยท์‘์šฉ๊นŒ์ง€ ์ „์ฒด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ •๋ฆฌํ•˜๊ณ  ์žˆ์–ด, ๊ฐ ์ ‘๊ทผ์„ ๋น„๊ต ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ๋ฐœ์ „๊ณผ ์‘์šฉ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์กฐ์‚ฌ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—ฌ๋Ÿฌ ๊ณผํ•™์  foundation model์˜ ํ˜‘์—…๊ณผ ํ˜‘๋ ฅ ์ „๋žต์˜ ํšจ๊ณผ๋ฅผ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Fine-tuning large language models for domain adaptation ๋…ผ๋ฌธ์€ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์˜ ์„ธ๋ถ€ ๋„๋ฉ”์ธ ์ ์‘๊ณผ์ •์— ๋Œ€ํ•œ ์‹ฌ์ธต์  ์‹คํ—˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
343๋ฒˆ์€ ์žฌ๋ฃŒ๊ณผํ•™ ๋ถ„์•ผ์˜ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ์—ฐ๊ตฌ ๋™ํ–ฅ์„ ์ •๋ฆฌํ•ด 340๋ฒˆ ๋…ผ๋ฌธ์˜ ๋„๋ฉ”์ธ ํŠนํ™” ํŒŒ์ธํŠœ๋‹ ์ „๋žต์„ ๋„“๊ฒŒ ์กฐ๋งํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์•ฝ๋ฌผ๋ฐœ๊ฒฌ์—์„œ LLMยทGNNยทRF ๋“ฑ ๋‹ค์–‘ํ•œ ๋Œ€ํ˜•๋ชจ๋ธ์˜ ๋„๋ฉ”์ธ์ ํ•ฉ์„ฑ ๋ฐ ํŒŒ์ธํŠœ๋‹์˜ ์„ฑ๋Šฅ ์˜ํ–ฅ์„ ์‹ค์ œ๋กœ ๊ฒ€์ฆํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
344๋ฒˆ ๋…ผ๋ฌธ์€ ์ƒ๋ฌผ์ •๋ณดํ•™ ๋ถ„์•ผ ๋“ฑ์—์„œ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์‹ค์ œ ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ๋‹ค๋ฃจ์–ด, 340๋ฒˆ์˜ ์ด๋ก ์  ๋…ผ์˜๋ฅผ ์‹ค์šฉ ๋งฅ๋ฝ์— ์—ฐ๊ฒฐํ•ด์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
340์˜ ๋„๋ฉ”์ธ๋ณ„ ์ฝ”๋“œ ๊ธฐ๋ฐ˜ ์ž๋™ํ™” ์—ฐ๊ตฌ๋Š” 3160์ด ์ œ์•ˆํ•˜๋Š” ์‹คํ—˜์  ์˜ค์ผ€์ŠคํŠธ๋ ˆ์ด์…˜์˜ ์‹ค์ œ ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
์‹ค์ œ ์žฌ๋ฃŒ๊ณผํ•™ ๋ฌธ์ œ์—์„œ LLM ํ™œ์šฉ์˜ ํ˜„์‹ค์  ์„ฑ๊ณผ์™€ ํ•œ๊ณ„๋ฅผ ๋น„ํŒ์ ์œผ๋กœ ๋ถ„์„ํ•˜๋ฉฐ ๋ชจ๋ธ ๋ฏธ์„ธ์กฐ์ • ํšจ๊ณผ๋ฅผ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
ํŠน์ • ๋„๋ฉ”์ธ ๋ฏธ์„ธ์กฐ์ • ๋ฐ ์ ์‘(fine-tuning)์˜ ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜๋Š” ์‹ค์ฆ ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •