์ ์: Inderjeet Nair, Jiaye Tan, Xiaotian Su, Anne Gere, Xu Wang, Lu Wang | ๋ ์ง: 2024 | DOI: arXiv:2410.08058 📄 PDF
PROF ํ์ดํ๋ผ์ธ: ํผ๋๋ฐฑ ์์ฑ๊ธฐ๊ฐ ์ฌ๋ฌ ํผ๋๋ฐฑ์ ์ํ๋งํ๊ณ , ํ์ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํตํด ์์ ๊ฒฐ๊ณผ๋ฅผ ํ๊ฐํ๋ฉฐ, ์ ํธ๋ ๊ด๊ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก DPO๋ฅผ ํตํด ๋ฐ๋ณต์ ์ผ๋ก ์ต์ ํ๋๋ ๊ณผ์
๋ณธ ๋ ผ๋ฌธ์ ์ธ์ด ๋ชจ๋ธ ๊ธฐ๋ฐ ํ์ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ์๋ฌธ ํผ๋๋ฐฑ ์์ฑ ๋ชจ๋ธ(PROF)์ ๋ฐ๋ณต์ ์ผ๋ก ์ต์ ํํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ์ค์ ํ์ ์ฐธ์ฌ ์์ด ํผ๋๋ฐฑ์ ์คํจ์ฑ์ ์ง์ ์ธก์ ํ๊ณ ๊ฐ์ ํ ์ ์๋ ์๋ํ๋ ์์คํ ์ ๊ตฌ์ถํ๋ค.
์จ๋ ๋ณํ์ ๋ฐ๋ฅธ ๋ฌธ์ฅ ์์ค์ ์์ ์ ๋ณํ: llama3-8b์ gpt-3.5 ๋ชจ๋ ์จ๋๊ฐ ์ฆ๊ฐํ ์๋ก ์ถ๊ฐ์ ์ญ์ ๊ฐ ์ฆ๊ฐํ๋ฉฐ, ์ค์ ํ์๊ณผ ์ ์ฌํ ํจํด์ ๋ณด์
์์ ๋ ์์ธ์ด ํ์ง ๋น๊ต: ํ์ ์๋ฎฌ๋ ์ดํฐ๋ค์ ์ฑ๋ฅ์ด ์ค์ ํ์๊ณผ ์ ์ฌํ ๊ถค์ ์ ๋ฐ๋ฅด๋ฉฐ, ์ด๊ธฐ ์์ธ์ด ํ์ง ๋๋น ๊ฐ์ ๋๋ฅผ ํ์ธ
๋ฐ๋ณต์ ์ต์ ํ ํ์ดํ๋ผ์ธ์ ์์ธ ํ๋ก์ธ์ค
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ LM ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ํผ๋๋ฐฑ ์์ฑ์ ๋ฐ๋ณต์ ์ผ๋ก ์ต์ ํํ๋ ์ฐฝ์์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ฉฐ, ๊ธฐ์กด ๋ํ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ํจ์จ์ ์ด๊ณ ํจ๊ณผ์ ์ธ ์์คํ ์ ๊ตฌํํ๋ค. ๋ค๋ง ๋จ์ผ ๊ณผ์ ๊ฒ์ฆ๊ณผ ์ค์ ํ์ ์ฐธ์ฌ ํ๊ฐ ๋ถ์ฌ๊ฐ ์ค์ ๊ต์ก ํ์ฅ์ผ๋ก์ ์ ํ ๊ฐ๋ฅ์ฑ์ ์ ํํ๋ค.