Essence
๋ณธ ์ฐ๊ตฌ๋ ์ฌ๋ฌ LLM ์ธ์คํด์ค ๊ฐ์ ํ๋ ฅ์ ๋ํ๋ฅผ ํตํด ๊ณผํ ๋
ผ๋ฌธ์ ๋ํ ํผ์ด ๋ฆฌ๋ทฐ ํผ๋๋ฐฑ์ ์์ฑํ๋ MARG(Multi-Agent Review Generation) ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ์ด๋ฅผ ํตํด ๊ธฐ๋ณธ ๋ชจ๋ธ์ ์
๋ ฅ ๊ธธ์ด ์ ํ์ ์ด๊ณผํ๋ ๊ธด ๋
ผ๋ฌธ๋ ์ฒ๋ฆฌํ ์ ์์ผ๋ฉฐ, ์ ๋ค๋ฆญํ ํผ๋๋ฐฑ ๋ฌธ์ ๋ฅผ ํฌ๊ฒ ๊ฐ์ ํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๋ค์ค ์์ด์ ํธ LLM ํ๋ ฅ์ ํตํด ๊ธด ๊ณผํ ๋
ผ๋ฌธ์ ๊ตฌ์ฒด์ ํผ๋๋ฐฑ ์์ฑ์ด๋ผ๋ ์ค์ง์ ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค. ์ฌ์ฉ์ ์ฐ๊ตฌ๋ก 2.2๋ฐฐ์ ์ฑ๋ฅ ๊ฐ์ ์ ์ค์ฆํ์ผ๋, ๋์ ๋น์ฉ๊ณผ ์์ด์ ํธ ํต์ ์ค๋ฅ๋ผ๋ ํ๊ณ๋ฅผ ๊ทน๋ณตํด์ผ ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ธ์ด๋ชจ๋ธ์ ์ธ๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ๋ฏธ์ธ์กฐ์ ์ด ์์ฑ ํ
์คํธ์ ํน์ฑ์ ๋ฏธ์น๋ ์ํฅ์ ๊ดํ ๊ธฐ๋ฐ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๋ฉํฐ์์ด์ ํธ ์์คํ
์ ๊ตฌ์กฐ์ ์ํธ์์ฉ ๋ฉ์ปค๋์ฆ ์๋ฒ ์ด๊ฐ ๋ค์ค ์์ด์ ํธ ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์์ฑ ์์คํ
์ค๊ณ ๋
ผ์์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ์ด์ฉํ ์๋ ๋ฆฌ๋ทฐ ์์ฑ ๋ฐฉ๋ฒ๋ก ์ผ๋ก, ๋ค์ค ์์ด์ ํธ ํ์
๋๋น ๋จ์ผ ๋ชจ๋ธ์ ํ๊ณ ๋ฐ ์
๋ ฅ ํ์ฅ์ฑ ์ฐจ์ด๋ฅผ ๋น๊ตํ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ค์ค ์์ด์ ํธ ๊ธฐ๋ฐ ํ๊ฐ๋ฅผ ํตํด LLM์ ์กฐํฉ์ ์ฐฝ์์ฑ๊ณผ ์ค์ ์์ด๋์ด ํ์ง ํ๋ณ ๊ธฐ์ค์ ๋ณด๋ค ์ฌํํ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
677(Reviewer2)์ ํ๋กฌํํธ ์์ฑ ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์๋ํ ๋ฐฉ์์ผ๋ก, 519์ ์์ด์ ํธ ํ์
๊ธฐ๋ฐ ๊ธด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์ฌ๋ก ์ด์ ๋จ๊ณ๋ก ์ฐธ๊ณ ํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋
ผ๋ฌธ ํผ์ด ๋ฆฌ๋ทฐ ์์ฑ์์ Multi-Agent ํ๋ ฅ์ ๋ํ ๊ธฐ๋ฐ ์ ๊ทผ์ ์ฌ์ฉํ ๋
ผ๋ฌธ์ผ๋ก, 515์ ๊ธฐ๊ณ-์ธ-๋ฃจํ ์ฐฝ์์ ์ด๋ฏธ์ง ์บก์
์์ฑ๊ณผ ์๋ ์ง๋จ์์ฑ์ ๋์์ด ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
519๋ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์๋์์ฑ ๋ฉํฐ์์ด์ ํธ ํ๋ ์์ํฌ๋ฅผ ๋์
ํด, 327์ ์ํํธ์จ์ด ๊ฐ๋ฐ ์ธ ๊ณผํ์ ์ง๋จ์์
์ผ๋ก ํ์ฅํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
MARG๋ ๊ณผํ ๋
ผ๋ฌธ์ ๋ฆฌ๋ทฐ ์์ฑ์ ์ํด ๋ค์ค ์์ด์ ํธ ํ๋ ฅ ์์คํ
์ ๋์
ํ์ฌ, 331์ ํ๋ ฅ ๋ฉ์ปค๋์ฆ ๋ฐ ์ธ๊ฐ ์ ์ฌ ํ๋ ๋
ผ์์ ์ ์ฉ ๊ด์ ์์ ๋๋น๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฉํฐ LLM ์์ด์ ํธ์ ํ๋์ ๊ณํ๊ณผ ์ถ๋ก ํ๋ ์์ํฌ๊ฐ ํผ์ด๋ฆฌ๋ทฐ ๋ฑ ์ค์ ํ์
์์คํ
์๋ ์ ์ฉ๋จ์ ๋ณด์ด๋ฉฐ, ์ฌํ์ ์๋ฎฌ๋ ์ด์
๊ณผ์ ์ฐ๊ณ ๋
ผ์์ ์ ํฉํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์๋ฌธ ์ง์ ์์คํ
์์ ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ๊ฐ๋๋ก ์ ๊ทผํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๋ฃ ํ๊ฐ์ ์ง ํ๊ฐ ๋ฐ ์๋ํ๋ฅผ ์ํ NLP ๋ฐฉ๋ฒ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
MARG๋ LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์์ด์ ํธ ๊ฐ ํ๋ ฅ์ ๊ฐ์กฐํ๋ ํ๋ ์์ํฌ๋ก, Peerarg์ ๋
ผ์ฆ ํตํฉ ๋ฆฌ๋ทฐ์ ์ ์ฌํ์ง๋ง ์ ๊ทผ๋ฒ์ด ๋ค๋ฅด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๊ธฐ๋ฐ ํผ์ด๋ฆฌ๋ทฐ ํ์ง ๋ฐฉ๋ฒ๊ณผ ๋ค์ค ์์ด์ ํธ ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์์ฑ ๋ฉ์ปค๋์ฆ์ ์๋ก ๋น๊ตํด, ์๋ํ๋ ๋ฆฌ๋ทฐ ์์ฑยท๊ฒ์ฆ ํ๋ ์์ํฌ ๋ฐ์ ์ ์ฐธ๊ณ ํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
665 ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์๋ ํผ์ด๋ฆฌ๋ทฐ ์์ฑ๊ณผ ๊ทธ ์ฒด๊ณํ ๋ฐฉ์์ ์ ์ํ์ฌ, 519(MARG)์ ๋ค์ค ์์ด์ ํธ ๋ฆฌ๋ทฐ ์์ฑ ๋ฐฉ๋ฒ๊ณผ ๋์กฐ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค์ค ์์ด์ ํธ ์์คํ
์ ์ด์ฉํ ๊ณผํ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์๋ํ ์ฐ๊ตฌ๋ก, FRAME์ ํผ๋๋ฐฑ-๋ฐ๋ณต ๊ตฌ์กฐ์ ์ฑ๋ฅ์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค์ค ์์ด์ ํธ ๊ธฐ๋ฐ ๋
ผ๋ฌธ ์ฌ์ฌ์ ์ฌํ์ ๊ฒํ ๋ฅผ ํตํด ๊ท๋ฒ/ํธํฅ ํ์ถ ํจ์ฉ์ฑ์ ๋ณด์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
519์ Multi-Agent Review Generation ์ฐ๊ตฌ๋ ๊ณผํ์ ํ๊ฐ ํ์คํฌ์์ agent๊ฐ ํ๋ ฅ ์ธก๋ฉด์ ๊ฐ์กฐํด, 3172์ debate-driven ๊ตฌ์กฐ ์ถ๋ก ๊ณผ ์ํธ ๋ณด์์ ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
MARG ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ํ๋ ฅํ ๋ฆฌ๋ทฐ ์๋ํ์์ AutoGen ํ๋ ์์ํฌ๋ฅผ ๋ฐํ์ผ๋ก ๋ค์ค ์์ด์ ํธ ์์คํ
์ ์ค์ ํ์ฉ ์ฌ๋ก๋ฅผ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
ํผ์ด๋ฆฌ๋ทฐ์์ ๋
ผ์ฆ์ ๊ตฌ์กฐ์ LLM ํ์ฉ ์ ๋ฐ ๋ถ์์ ํตํด, 519์ Multi-Agent์ ๋ฆฌ๋ทฐ ์์ฑ ํ๊ณ๋ฅผ ๋
ผ์ํ๊ฑฐ๋ ์ถ๊ฐ์ ๊ตฌ์กฐ ๋ถ์ ์ง์ ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
์ฌ๋ฌ LLM์ด ์ํธ์์ฉํ๋ฉฐ ํ๋ ฅ์ ์ผ๋ก ํผ๋๋ฐฑ์ ์์ฑํ๋ ๋ฐฉ์์ด, ์๋ด์ฌ-๋ด๋ด์ ์ญํ ์๋ฎฌ๋ ์ด์
๊ณผ ๊ตฌ์กฐ์ ์ผ๋ก ์ ์ฌํด ํ๋ ฅ๊ตฌ์กฐ ์ค๊ณ์ ์ฐธ๊ณ ๋๋ค.
ํ์ ์ฐ๊ตฌ
519๋ฒ ๋
ผ๋ฌธ์ LLM์ ๋ค์ค ์์ด์ ํธ ํ์
๊ธฐ๋ฐ ํผ์ด ๋ฆฌ๋ทฐ ์์ฑ ๋ฐฉ์์ ์ ์ํ์ฌ, 478๋ฒ์ ํ์ ์ํฌํ๋ก์ฐ LLM ํ์ฉ ํ๊ฐ๋ฅผ ๊ตฌ์ฒด์ ์ฌ๋ก๋ก ํ์ฅํ์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ค์ค ์์ด์ ํธ LLM ํ์
์ ํตํ ๊ณผํ์ ํ๊ฐ(ํผ์ด ๋ฆฌ๋ทฐ) ์์ฑ์ผ๋ก, ์ธ๊ฐ๊ณผ LLM ์ถ๋ก ๋ฐฉ์์ ํ๋ ฅ์ /์ฐจ๋ณ์ ํน์ฑ์ ์ฌ์ธต ํ์ํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
519๋ ์ฌ๋ฌ ์์ด์ ํธ๋ฅผ ํ์ฉํ ์๋ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์์ฑ์ผ๋ก, 668์ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ-๊ฒ์ฆ ์์ด์ ํธ ํ๋ฆ์ ํ์ฅํฉ๋๋ค.