Essence
Fig. 4: Overall Rating aggregated over three LLMs and four Prompt Levels.
๋ณธ ๋
ผ๋ฌธ์ LLM(GPT-3.5, PaLM2, LLaMA2)์ด ํ์ ๋
ผ๋ฌธ์ ํผ์ด ๋ฆฌ๋ทฐ ์๊ฒฌ๋ค์ ์ข
ํฉํ์ฌ ๋ฉํ๋ฆฌ๋ทฐ ์ด์ ์์ฑ์ ์ง์ํ ์ ์๋์ง ์ฐ๊ตฌํ ์ฌ๋ก ์ฐ๊ตฌ์ด๋ค.
Evaluation
Novelty: 3/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ํ์คํ๋ ํ๋กฌํํ
๋ถ๋ฅ์ฒด๊ณ๋ฅผ ์ ์ฉํ์ฌ ๋ฉํ๋ฆฌ๋ทฐ ์์ฑ ์ง์ ์์
์ ๋ํ LLM์ ์ฑ๋ฅ์ ์ต์ด๋ก ์ฒด๊ณ์ ์ผ๋ก ๋น๊ต ๋ถ์ํ์ผ๋ฉฐ, ๋๊ท๋ชจ ์ ์ฑ์ ํ๊ฐ๋ฅผ ํตํด LLM ์๋ ํ๊ฐ์ ์ ๋ขฐ์ฑ ๋ฌธ์ ๋ฅผ ๋ฐํ๋๋ค๋ ์ ์์ ํ์ ์ถํ ํ๋ก์ธ์ค ์๋ํ ์ฐ๊ตฌ์ ์ ์๋ฏธํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํผ์ด ๋ฆฌ๋ทฐ ์๊ฒฌ ์ข
ํฉ ๋ฐ ๋ฉํ๋ฆฌ๋ทฐ ์์ฑ์ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ ํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฒดํฌ๋ฆฌ์คํธ์ introspection ๊ธฐ๋ฐ ๋ฉํ๋ฆฌ๋ทฐ ์์ฑ ๊ธฐ๋ฒ์ ๋์
ํด, LLM ํ์ฉ ์๋ ๋ฆฌ๋ทฐ ์์ฝ์ ๋ค์ํ ๋ฐฉ๋ฒ๋ก ์ ๋น๊ต ํ์ธํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ์ ์ ๋ณด ํ์ง ๋ฐ ํฉํธ์ฒดํน์ ๋ค๋ฅธ ์์คํ
์ผ๋ก ๊ตฌํํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
022๋ ๊ฐ์ ํตํฉ ๊ธฐ๋ฐ ๋ฉํ๋ฆฌ๋ทฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ ๋
ผ๋ฌธ์ผ๋ก, 1089๊ฐ LLM์ ํ๋กฌํํธ ์ค๊ณ์ ์ด์ ์ ๋ง์ถ ๋ฐฉ์๊ณผ ์๋ก ๋น๊ต๋ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํนํ LLM(AI Reviewer)์ ํผ์ด๋ฆฌ๋ทฐ ๋ฐ ๋ฉํ๋ฆฌ๋ทฐ ์์ฑ ๋ฐฉ๋ฒ๋ก ์ ๋น๊ตํ์ฌ ๊ฐ ์ ๊ทผ๋ฒ์ ํ๊ณ์ ์ฅ์ ์ ํจ๊ป ์ดํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ฉํ ํ์ ๋ฆฌ๋ทฐ ์๋ํ๋ฅผ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ์ ๊ทผํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ํ์ ๋ฌธ์ ์์ฝ ๋ฐ ์ข
ํฉ์ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ผ๋ก ๊ตฌํํ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ์ด์ฉํ ๋ฉํ๋ฆฌ๋ทฐ ์์ฑ ์ง์์ ํน์ ํ์ ๋งฅ๋ฝ์ ํ์ฅ ์ ์ฉํ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
609๋ LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ๋
ผ๋ฆฌ์ , ๋
ผ๋ฐ ์ค์ฌ์ผ๋ก ์๋ํํ๋ ์ ๊ทผ์ ํํด ๋ฉํ๋ฆฌ๋ทฐ ์์ฑ์ ๋
ผ๊ฑฐ ๊ฐํ๋ฅผ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
์ฅ๋ฌธ ์ปจํ
์คํธ ์์ฑ์์ ํจ๊ณผ์ ํ๋กฌํํธ ์ค๊ณ ์์ธ์ ๊ณ ์ฐฐํ์ฌ, ๋ฉํ๋ฆฌ๋ทฐ ์์ฑ์ ํ์ง๊ณผ ์ผ๊ด์ฑ ๊ฐ์ ์ ์ํ ๊ตฌ์ฒด์ ์ ๋ต์ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
Peer review์ AI/์ธ๊ฐ ํ์
์ฌ๋ก๋ฅผ ๋ค๋ฃจ๋ฉฐ, ๋ฉํ๋ฆฌ๋ทฐ ์ด์ ์์ฑ ๋จ๊ณ์์ LLM์ ์ญํ ํ์ฅ ์ ์ ์ค์ฆ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.
์์ฉ ์ฌ๋ก
1089๋ฒ ๋
ผ๋ฌธ์ LLM ํ์ฉ ๋ฉํ๋ฆฌ๋ทฐ ์ด์ ์์ฑ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ์ด 654๋ฒ ๋ฐ์ดํฐ์
์ด ํ์ต์ฉ์ผ๋ก ์ด๋ป๊ฒ ํ์ฉ๋ ์ ์๋์ง ์ค์ ์ ์ฉ ์ฌ๋ก๋ก ์ฐ๊ฒฐ๋๋ค.