์ ์: Ilia Kuznetsov, Osama Mohammed Afzal, Koen Dercksen, Nils Dycke, Alexander Goldberg, Tom Hope, Dirk Hovy, Jonathan K. Kummerfeld, Anne Lauscher, Kevin Leyton-Brown, Sheng Lu, Mausam, Margot Mieskes, Aurรฉlie Nรฉvรฉol, Danish Pruthi, Lizhen Qu, Roy Schwartz, Noah A. Smith, Thamar Solorio, Jingyan Wang, Xiaodan Zhu, Anna Rogers, Nihar B. Shah, Iryna Gurevych | ๋ ์ง: 2024-05-10 | DOI: 10.48550/arXiv.2405.06563 📄 PDF
Essence
๊ทธ๋ฆผ 1: ๋๋ฃ ์ฌ์ฌ(Peer Review)๋ฅผ ํ๋์ ๊ณผ์ ์ผ๋ก ๋ณด๋ ๊ด์ ๊ณผ ๊ทธ๋ก ์ธํด ์์ฑ๋๋ ์ฐ์ถ๋ฌผ๋ค. ๊ฐ ๋จ๊ณ๋ณ๋ก ์์ ์ฝ๋ฉ๋จ.
๋ณธ ๋
ผ๋ฌธ์ ๊ณผํ ์ถํ์ ํต์ฌ ์ง๊ด๋ฆฌ ๋ฉ์ปค๋์ฆ์ธ ๋๋ฃ ์ฌ์ฌ ๊ณผ์ ์์ ์์ฐ์ธ์ด์ฒ๋ฆฌ(NLP)๊ฐ ๊ตฌ์ฒด์ ์ผ๋ก ์ด๋ค ์ญํ ์ ํ ์ ์๋์ง๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋งคํํ๊ณ , ์คํ ๊ฐ๋ฅํ NLP ์ง์ ๋ฐฉ์์ ์ ์ํ๋ ํฌ๊ด์ ์ธ ๊ธฐ์ด ์ฐ๊ตฌ์ด๋ค. ์ ์๋ค์ ์๊ณ ์ ์ถ๋ถํฐ ์ต์ข
์ถํ๊น์ง ์ ์ฒด ์ฌ์ฌ ๊ณผ์ ์ ๊ฐ ๋จ๊ณ์์์ ๋์ ๊ณผ์ ์ NLP ์ ์ฉ ๊ธฐํ๋ฅผ ์์ธํ ๋ถ์ํ๋ฉฐ, ์์ ์๋ํ๋ณด๋ค๋ ๋ฆฌ๋ทฐ์ด์ ํธ์ง์์ ํจ์จ์ฑ์ ๋์ด๋ ์ง์ ๋๊ตฌ ๊ฐ๋ฐ์ ์ด์ ์ ๋ง์ถ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ NLP๊ฐ ๋๋ฃ ์ฌ์ฌ ๊ฐ์ ์ ๊ธฐ์ฌํ ์ ์๋ ์์ญ์ ์ต์ด๋ก ์ฒด๊ณ์ ์ผ๋ก ๋งคํํ ์ค์ํ ๊ธฐ์ด ์ฐ๊ตฌ์ด๋ค. ์์ ์๋ํ์ ๋ถ๊ฐ๋ฅ์ฑ์ ๋์ฒ ํ ์ธ์ํ๋ฉด์๋ ํ์ค์ ์ด๊ณ ๋จ๊ณ์ ์ธ ๊ฐ์ ์์ ์ ์ํ๋ ์ฑ์ํจ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๊ตฌ์ฒด์ ์ธ call-for-action๊ณผ ๋ฐ์ดํฐ์
์ ์ฅ์ ๊ตฌ์ถ์ผ๋ก ํ์ ์ฐ๊ตฌ์ ๊ธฐ๋ฐ์ ๋ง๋ จํ๋ค๋ ์ ์์ ๋์ด ํ๊ฐํ ์ ์๋ค. ๋ค๋ง ํ์ฌ ๋ถ์์ด AI ํํ์ ํธ์ค๋๊ณ , ๊ฐ ๋จ๊ณ๋ณ ๊ธฐ์ ์ ์คํ ๋ฐฉ์์ด ๊ฐ๋ต์ ์์ค์ ๋จธ๋ฌผ๋ฌ ์์ผ๋ฉฐ, ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฐ ํ๊ฐ ๋ฉํธ๋ฆญ ๋ถ์ฌ ๋ฑ ๊ตฌ์กฐ์ ์ฅ์ ๋ฌผ๋ค์ด ์๋นํ ๋จ์ ์๋ค๋ ์ ์ ํฅํ ๊ทน๋ณตํด์ผ ํ ๊ณผ์ ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
609 ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ํผ์ด ๋ฆฌ๋ทฐ ๋ฐ ๋
ผ์ฆ์ ํ๊ฐ ์ค๊ณ๋ 877๋ฒ ๋
ผ๋ฌธ์์ ์ ๊ธฐํ ๋ฆฌ๋ทฐ์ด์ AI ํ์
์ ๋ฏธ๋ ์ ๋ง๊ณผ ์ด๋ก ์ ๊ธฐ๋ฐ์ ๊ณต์ ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
NLP ๊ด์ ์์ ํผ์ด ๋ฆฌ๋ทฐ ํ๋ก์ธ์ค์ LLM์ ํ์ฉํ๋ ๋ฐฉ๋ฒ ๋ฐ ๊ทธ ํ๊ณ๋ฅผ ๋ถ์ํด AnnotateGPT์ ์์๋ฅผ ๋ท๋ฐ์นจํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
877๋ฒ ๋
ผ๋ฌธ์ ์์ฐ์ด์ฒ๋ฆฌ ๊ธฐ๋ฐ ๋๋ฃํ๊ฐ์ ๊ฐ๋ฅ์ฑ๊ณผ ํ๊ณ, ํ์ง ์ด์๋ฅผ ๋ค๋ฃจ์ด, 628๋ฒ์ด ์ ๊ธฐํ AI ์ฌ์ฌ ์์คํ
์ ํ์ง ๋ณด์ฅ ๋
ผ์์ ๊ทผ๊ฑฐ์ ๋ฐฐ๊ฒฝ์ง์์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
AI ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์์คํ
์ ์ ๊ฒ๊ณผ ์ค์ ๋๋ฃํ๊ฐ(peer review) ์ฒด๊ณ ๊ฐ์ ๋
ผ์๋ฅผ ํตํด TreeReview์ ํ๊ฐ ๋ชฉ์ ์ ๋ณด์ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
AI ๊ธฐ๋ฐ ๋
ผ๋ฌธ ํ๊ฐ ๋ฐ ๋ฆฌ๋ทฐ ์์คํ
์ ํ์์ฑ๊ณผ ํ๊ณ๋ฅผ ๋ถ์ํ ์์ด์ ๋
ผ๋ฌธ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์์ฐ์ด์ฒ๋ฆฌ/AI๊ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ ์ถ์ฒ์ ์๋ํ์ ์ด๋ป๊ฒ ๊ธฐ์ฌํ๋์ง์ ๋ํ ๋
ผ์๋ ๊ด๊ด/์๋น์ค ๋ถ์ผ ์ ๊ธฐ์ ๋ฆฌ๋ทฐ๋ถ์์ ์ค์ง์ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Peer review์ ํ์ ์ถํ์ ๋ํ ์์ฐ์ด์ฒ๋ฆฌ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํ ๋
ผ๋ฌธ์ผ๋ก, ๊ฐ ๋ถ์ผ๋ณ ์ถํ ๊ดํ ๋ถ์์ ๋ณด์ ์ ๋ณด๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
877 ๋
ผ๋ฌธ์ NLP ๊ธฐ๋ฐ ํผ์ด๋ฆฌ๋ทฐ ์๋ํ ํ๊ฐ์ ๊ด๋ จํ์ฌ ๋ค์ํ ํ๊ฐ ๋๊ตฌ๋ฅผ ์๊ฐํ๋ฏ๋ก, 803์ ORB ๋ฐ์ดํฐ์
ํ์ฉ๋ฒ๊ณผ ์ง์ ๋น๊ตํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๋จธ์ ๋ฌ๋ ํ์ดํ๋ผ์ธ ์๋ํ์ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
ReviewerGPT ๋
ผ๋ฌธ์ LLM์ ํ์ฉํด ๋๋ฃ์ฌ์ฌ ๋ฌธ์์ ์์ฑ ๊ณผ์ ๊ณผ ํ๊ณ, ํ์ ๋ฑ์ ์ค์ ๋ก ์คํํ ๋์ฒด์ ์ ๊ทผ์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
What Can NLP Do for Peer Review? ๋
ผ๋ฌธ์ LLM์ ๋ฆฌ๋ทฐ ์์ฑยท์ ๋นํ ์ญํ ์ ๋ํ ํํฉ์ ๋ค๋ฅธ ์๊ฐ์์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ด ์ค์ ๋ก ๋ฆฌ๋ทฐ์ด ์ญํ ์ ์ ์ํํ ์ ์๋์ง ์๋ํ ํ๊ฐ ๋ฐฉ๋ฒ ๋ฐ ์คํ์ ํ๊ณ๋ฅผ ํจ๊ป ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Lazyreview ๋ฐ์ดํฐ์
์ ๊ตฌ์ฒด์ ์ธ ๋๋ฃ ์ฌ์ฌ ํผ๋๋ฐฑ ํ์ง ๋์(๊ฒ์ผ๋ฅธ ์ฌ๊ณ )์ ์ ๊ณต, NLP ๊ธฐ๋ฐ ๋๋ฃ ์ฌ์ฌ ์๋ํ ๋ฐฉ๋ฒ ์ฐ๊ตฌ์ ์ค์ ๋ฐ์ดํฐ๋ฅผ ๋ณด์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๊ธฐ๋ฐ ํผ์ด๋ฆฌ๋ทฐ, ๋
ผ๋ฌธ ํ๊ฐ์ ์ฌํ์ ์ํฅ๊ณผ ์๋ํ ํ๋ฆ ์ ๋
ผ์์ (๊ณต์ ์ฑ, ํฌ๋ช
์ฑ ๋ฑ)์ ์
์ฒด์ ์ผ๋ก ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI์ ์์ฐ์ด์ฒ๋ฆฌ ๊ธฐ๋ฐ์ผ๋ก ๋๋ฃ์ฌ์ฌ ๋ฐ ๋ฉํ๋ฆฌ๋ทฐ ์๋์์ฑ ์์คํ
์ ํจ๊ณผ๋ฅผ ๋ถ์ํ ์ฐ๊ตฌ๋ก, ์ค์ Peer Review ์๋ํ์์ ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ฉํ ๋
ผ๋ฌธ ๋นํ๊ณผ ๊ฒํ ์ญ๋ ๋ถ์์ด๋ผ๋ ์ ์์ 877๋ฒ ๋
ผ๋ฌธ๊ณผ ๊ทผ๋ณธ์ ์ผ๋ก ์ ์ฌํ๋, ์ ๊ทผ ๋ฐฉ์๊ณผ ํ๊ฐ ๋ฒ์๊ฐ ๋ค๋ฆ
๋๋ค.
ํ์ ์ฐ๊ตฌ
877์ ํผ์ด๋ฆฌ๋ทฐ์ LLM์ ์ญํ , ํ๊ณ๋ฅผ ๋ถ์ํ์ฌ, 883์ ํผ์ด๋ฆฌ๋ทฐ ๋ชจ์ ํ์ง์ ๊ฒฐํฉ๋ ๋ ๋์ ํ๊ฐ ์๊ฐ์ ์ ๊ณตํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Peer review์ ๋ค์ํ ๋จ๊ณ์์ LLM์ด ์ด๋ป๊ฒ ์ค์ง์ ๋์์ ์ฃผ๋์ง ์ ๋์ ๋ถ์ํ๋ ๋
ผ๋ฌธ์ผ๋ก, ๋ณธ ํ์ผ๋ฟ ์ฐ๊ตฌ๋ฅผ ๋ ํ์ฅํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
877๋ฒ ๋
ผ๋ฌธ์ LLM์ ํ์ฉํ ๋๋ฃํ๊ฐ์์ ๋
ผ๋ฌธ์ ์ฃผ์ ๋ฌธ์ ์ ์ ์ฌ์ธต ๋ถ์ํ์ฌ, 664๋ฒ์ ์๋ ํ์ ์์คํ
๋ณด์์ ์ค์ฆ์ ์ธ์ฌ์ดํธ๋ฅผ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
AI/LLM์ด ์์ฑํ ๊ณผํ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ ๊ฐ์ , ํ๊ณ, ์ธ๊ฐ๊ณผ ๋น๊ต ์ฑ๋ฅ์ ์ค์ ๋ฐ์ดํฐ์ ํจ๊ป ๋ถ์ํด NLP ๊ธฐ๋ฐ ๋๋ฃ์ฌ์ฌ ์ง์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ ๊น๊ฒ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
ReviewEval ๋
ผ๋ฌธ์ AI๋ก ์์ฑ๋ ๋ฆฌ๋ทฐ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ๋๋ฃ ์ฌ์ฌ ์๋ํ์์ ๋ฆฌ๋ทฐ์ ์ง ์ธก์ ๊ณผ ํฅ์์ ์ง์ ์ ์ผ๋ก ์ฐ๊ฒฐ๋๋ค.
ํ์ ์ฐ๊ตฌ
Three AI-powered steps ๋
ผ๋ฌธ์ ์ฌ์ฌ ์ ๋ฐ์์ NLP๋ฅผ ํฌํจํ AI์ ์ค์ง์ ์ง์ ๋ฐ ์๋ํ ์ํฌํ๋ก์ฐ๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ํ์ฅยท์ ์ฉํ ์ค์ ์ฌ๋ก์
๋๋ค.
์์ฉ ์ฌ๋ก
Lazyreview ๋ฐ์ดํฐ์
์ NLP ๋๋ฃ ์ฌ์ฌ ํ๋ก์ธ์ค ๋ด '๊ฒ์ผ๋ฅธ ์ฌ๊ณ ' ํ์ง๋ฅผ ์ํ ์ค์ ์์๋ก, peer review ์๋ํ์ ์ฌ๋ก ์ฐ๊ตฌ์ ์ง์ ์ ์ผ๋ก ์ฐ๊ฒฐ๋๋ค.
๋ฐ๋ก /๋นํ
AI ์์ด์ ํธ์ ์ ๋ขฐ์ฑ๊ณผ ๋๊ท๋ชจ ๋ชจ๋ธ ํธํฅ ๋ฌธ์ ๋ฑ SLM ๋๋น LLM์ ์ฐ์์ฑ ๋ฐ ํ๊ณ์ ๋ํ ๋
ผ์๋ฅผ ์ ๊ณตํ๋ค.