Essence
ํ์ ์ง์ ๋๋ฃ ํ๊ฐ(peer review) ๋ฉ์ปค๋์ฆ์์ ์๊ฐ์ ๋ฐ์, ์ฌ๋ฌ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ํ๊ฐ์๋ก ํ์ฉํ์ฌ ๋ค๋ฅธ LLM๋ค์ ์ฑ๋ฅ์ ์๋์ผ๋ก ํ๊ฐํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์๊ฒฉ ์ํ์ผ๋ก ์ ๋ขฐํ ์ ์๋ ํ๊ฐ์๋ฅผ ์ ๋ณํ ํ ์ด๋ค์ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ์ง๊ณํ์ฌ ํธํฅ ์๋ LLM ํ๊ฐ๋ฅผ ์คํํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ํ์ ์ ๋๋ฃ ํ๊ฐ ์๋ฆฌ๋ฅผ LLM ์๋ ํ๊ฐ์ ์ฐฝ์์ ์ผ๋ก ๋์
ํ์ฌ ๋น์ฉ, ํธํฅ, ์ผ๋ฐํ ๋ฌธ์ ๋ฅผ ๋์์ ํด๊ฒฐํ๋ ์ค์ง์ ์ธ ํด๊ฒฐ์ฑ
์ ์ ์ํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง ํ๊ฐ ๊ณผ์ ์ ๋ค์ํ์ ๋ฉ์ปค๋์ฆ์ ์ด๋ก ์ ์ฌํ๋ฅผ ํตํด ์ฃผ์ฅ์ ๋ณดํธ์ฑ์ ๋์ฑ ๊ฐํํ ์ฌ์ง๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Augmented Language Models: a Survey ๋
ผ๋ฌธ์ LLM์ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ํ๊ฐยท๋ณด์ ๋ฐฉ๋ฒ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๋ฆฌํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
629 ๋
ผ๋ฌธ์ Peer Review ํ๊ฐ์ ํนํ๋ LLM ํ๊ฐ๊ธฐ์ ์ฐ๊ตฌ๋ก, 860์ ์ฌ์ด๋ฒ๋ณด์ ํ์ ์ง ์๋ ํ๊ฐ์ ๊ธฐ์ ์ ๋ฐฐ๊ฒฝ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
126๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์๋ํ์ ๊ดํ ๊ธฐ๋ณธ ํ๊ณผ ๋ฉํธ๋ฆญ์ ์ ๊ณตํด Pre ์ดํ๋ก์น์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ธ๊ฐ-๋ชจ๋ธ ์ํธ์์ฉ ๊ธฐ๋ฐ ํผ๋๋ฐฑ ํ๊ฐ ํ๋ ์์ํฌ ๋
ผ์๊ฐ LLM ๊ธฐ๋ฐ ์๋ ๋๋ฃํ๊ฐ ์์คํ
์ ํ๊ฐ ๋ฐฉํฅ์ ์ด๋ก ์ ์ผ๋ก ๊ธฐ์ฌํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ๋๋ฃํ๊ฐ์ ์ ์ ๊ณผ ๋ค์ค ํ๊ฐ ๋ชจ๋ธ ๋
ผ์๊ฐ ์ ๋ขฐ์ฑ ํ๊ฐ ํ๋ ์์ํฌ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ก ํ์ฉ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Pre: A peer review based large language model evaluator ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ํ๊ฐ์ ๋ฐฉ๋ฒ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ์ฌ, LLM ์์ฑ ๋ฆฌ๋ทฐ ํ์ง ์์คํ
์ ์ด๋ก ์ ํ ๋๋ฅผ ์ด๋ฃน๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Pre ํ๋ ์์ํฌ๋ ๋๋ฃํ๊ฐ ๊ธฐ๋ฐ LLM ํ๊ฐ์ ๊ตฌ์กฐ๋ฅผ, ORb ๋ฐ์ดํฐ์
์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ํ๊ฐ์ฉ ์ค์ ๋ฐ์ดํฐ๋ก ์๋ํ ํ๊ฐ์ ๋์์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ์ ์ ํ๊ฐ์ฉ LLM์ ์ฑ๋ฅ ํ๊ฐ์ ์ ๋ขฐ์ฑ ๋ฌธ์ ๋ ๋ค๋ฃจ๋ฉฐ, ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ๊ณผํ์ ์์ธก์ ๋ถํ์ค์ฑ ์ ๋ขฐ์ฑ๊ณผ ์ง์ ์ฐ๊ฒฐ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Peer review ๋ฉ์ปค๋์ฆ์์ ์๊ฐ์ ์ป์ LLM ํ๊ฐ ๋ฐฉ์๊ณผ, GPT๋ฅผ ์ด์ฉํ ์๋ ๋ฆฌ๋ทฐ ์์ฑ์ ์ฌ์ฉํ๋ ReviewerGPT ๋
ผ๋ฌธ์ ๋น๊ตํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
629๋ฒ ๋
ผ๋ฌธ์ ๋๋ฃํ๊ฐ ํ๊ฐ๋ฅผ ์ํ LLM ๊ธฐ๋ฐ ์์คํ
์ ๋ค๋ฃจ๋ฉฐ, 664๋ฒ ๋
ผ๋ฌธ์ด ์ ์ํ ๋
ผ๋ฌธ ๊ด๋ จ์ฑ ์๋ ํ๊ฐ์งํ์ ๋น๊ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๋ฃํ๊ฐ(ํผ์ด๋ฆฌ๋ทฐ) ๊ณผ์ ์ ์๋ํ์ LLM์ ํ์ฉํ ํ๊ฐ ํธํฅ ์ํ ๋ฐฉ๋ฒ์ ๊ฐ๊ฐ ์ ์ํ์ฌ ๋น๊ต ์ฐ๊ตฌ์ ์ ์ฉํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Pre: A peer review based large language model evaluator ๋
ผ๋ฌธ์ ํ๋ฅ ์ /๋ค์ค ๋ชจ๋ธ ํ๊ฐ ํ๋ ์๋ณด๋ค ์ค์ peer review๋ฅผ ํตํด ํ๊ฐ ์ ๋ขฐ๋ ๋ฌธ์ ์ ์ ๊ทผํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Pre: Peer Review ๊ธฐ๋ฐ LLM ํ๊ฐ ๋
ผ๋ฌธ์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ/๋ฉํธ๋ฆญ์ ๋์์ ์๋ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
629๋ Peer Review ํ๊ฐ์ ํนํ๋ LLM ๊ธฐ๋ฐ ํ๊ฐ์งํ๋ฅผ ๋์
ํ์ฌ, 244์ ์์ ๋ฆฌ๋ทฐ ํ๊ฐ ๋ฐฉ์๊ณผ๋ ์์ดํ ์ ๋ํ๊ฐ ์ ๊ทผ์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
629 ๋
ผ๋ฌธ์ Peer Review ํ๊ฐ์ ์ต์ ํ๋ LLM ๊ธฐ๋ฐ ํ๊ฐ๊ธฐ์ ๋ฅผ ์ ์ํ์ฌ, 809์ ๋ฆฌ๋ทฐ ํ๋ก์ธ์ค ๊ฐ์ ๋ฐฉ์๊ณผ ๋ฌธ์ ํด๊ฒฐ์ ์์ดํ ์ ๊ทผ์ ์๋ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
629์ Peer Review ๊ธฐ๋ฐ LLM ์ฑ๋ฅ ํ๊ฐ์ ๊ฐ๋ฐ์ 803์ OpenReview ๊ธฐ๋ฐ ๋ฐ์ดํฐ์
๊ตฌ์ถ๊ณผ ์ง๊ฒฐ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Supporting assessment of novelty of design problems ๋
ผ๋ฌธ์ LLM์ด ์์ฑํ ํผ์ด ๋ฆฌ๋ทฐ๋ฅผ ๋ฐํ์ผ๋ก ์ค์ ๋์์ธ ๋ฌธ์ ์์์ ์ถ์ฒ์ฑ ํ๊ฐ ๋ฑ PRE์ ์์ฉ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
LLM ํ๊ฐ์์ ์ฃผ์ฅ์ ํ์ง๋ก ํ๊ฐํ๋ ํ๋ ์์ํฌ๋ ๋
ผ๋ฌธ์ ์ฃผ์ฅ ์ถ์ถ ๋ฐ ํ๊ฐ์ ๊ด๋ จ์ด ๊น์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
AI ์์ฑ ๋ฆฌ๋ทฐ ๋ฐ LLM ํ๊ฐ์งํ์ ์ ๋ขฐ์ฑ ํ๊ฐ๋ฅผ ํ์ ์ฐ๊ตฌ๋ก, ๋ค์ํ ํ๊ฐ์งํ ๋ฐ ๊ฐ์ ๋ฃจํ ์ ์์ด ๋น์ทํ ๋ฌธ์ ๋ฅผ ๋ค๋ฃน๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM๊ฐ ์ํธ ํผ๋๋ฐฑ ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ์ธ๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ์ํธ์์ฉ ํ๊ฐ ํ๋ ์์ํฌ์ AI ๊ธฐ๋ฐ ํ๊ฐ์งํ์ ์ํธ ๋ณด์ ๊ด๊ณ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
์์ฉ ์ฌ๋ก
629๋ฒ์ ํผ์ด๋ฆฌ๋ทฐ ์๋ ํ๊ฐ(based on peer review)๋ฅผ ๋ค๋ฃจ์ด, 592๋ฒ์ด ์์ฑํ AI ์ฌ์ฌํ์ ํ์ง๊ณผ ํจ๊ณผ ์ธก์ ๋ฐฉ๋ฒ์ ์ค์ง์ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ค.
์์ฉ ์ฌ๋ก
AI๋ฅผ ํ์ฉํ ํ์ ํ๊ฐ ์๋ํ ๋ฐฉ์์ด AI ๊ธฐ๋ฐ ์ฐ๊ตฌ์๋ช
์ฃผ๊ธฐ ์๋ํ ๋
ผ์์ ์ง์ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๋ฐ๋ก /๋นํ
LLM ๋ฆฌ๋ทฐ ์์ฑ ๋ฅ๋ ฅ์ ํ๊ณ๋ฅผ ์๋ ํ๊ฐ ๊ด์ ์์ ๋ถ์ํ์ฌ Pre์ peer review ๊ธฐ๋ฐ ํ๊ฐ ๋ฐฉ์์ ํ๊ณ์ ๋ณด์์ ์ ์ ์ํฉ๋๋ค.