Essence
๋ณธ ๋
ผ๋ฌธ์ OpenReview.net๊ณผ SciPost.org์์ ์์งํ 36,000๊ฐ ์ด์์ ๊ณผํ๋
ผ๋ฌธ๊ณผ 89,000๊ฐ ์ด์์ ํผ์ด๋ฆฌ๋ทฐ๋ก ๊ตฌ์ฑ๋ ๊ณต๊ฐ ํผ์ด๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์
(ORB: Open Review-Based dataset)์ ์๊ฐํ๋ค. NLP ๊ธฐ๋ฐ ์๋ ๋
ผ๋ฌธ ํ๊ฐ ๋ฐ ๊ณ ์๋์ง๋ฌผ๋ฆฌ ์คํ ์ ์์ ์๋ ์ฌ์ฌ๋ฅผ ์ง์ํ๊ธฐ ์ํ ํฌ๊ด์ ์ธ ๋ฐ์ดํฐ ์ธํ๋ผ๋ฅผ ์ ๊ณตํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3.5/5 Significance: 4/5 Clarity: 3.5/5 Overall: 3.5/5
์ดํ: ORB ๋ฐ์ดํฐ์
์ ์คํ ํผ์ด๋ฆฌ๋ทฐ ๋ถ์ผ์ ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํฌ๊ฒ ์ํํ ์ ์๋ ์ค์ํ ์์์ด๋ฉฐ, ํนํ ๊ณ ์๋์ง๋ฌผ๋ฆฌ ์คํ ์ ์ ์๋ ํ๊ฐ๋ผ๋ ๊ตฌ์ฒด์ ์์ฉ์ ์ง์ํ๋ค๋ ์ ์์ ๊ฐ์น๊ฐ ์๋ค. ๋ค๋ง ๋ฐ์ดํฐ ํตํฉ์ ๋ณต์ก์ฑ, NLP ์คํ์ ๊ธฐ์ด์ ์์ค, ํ๋ซํผ ์์กด์ฑ ๋ฑ์ผ๋ก ์ธํด ๊ธฐ์ ์ ๊ฒฌ๊ณ ์ฑ์์ ๊ฐ์ ์ฌ์ง๊ฐ ์๊ณ , ๋๊ท๋ชจ ์ค์ ์์ฉ๊น์ง๋ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค. ์คํ ์ฌ์ด์ธ์ค ์ปค๋ฎค๋ํฐ์ ๊ธ์ ์ ๊ธฐ์ฌ๋ฅผ ํ ์ ์๋ ๋ฆฌ์์ค์ด๋, ๊ฐ๋ณ ๋
ผ๋ฌธ์ผ๋ก์์ ๊ธฐ์ ์ ํ์ ์ฑ์ ์ ํ์ ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํผ์ด ๋ฆฌ๋ทฐ ์ ๊ณผ์ ์ ๋ถ์ ๊ฐ๋ฅํ ์คํ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ฒค์น๋งํฌ์ด์, ๋ฆฌ๋ทฐ ์ฝ๋ฉํธ ๋ถ์ ์ฐ๊ตฌ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
803 ๋
ผ๋ฌธ์ ORB ์๋ํ ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์
์ ์ ๊ณตํ๋ฉฐ, 250์์ LLM ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์๋ํ์ ์ค์ฆ ๋ฐ ๋ฒค์น๋งํฌ๋ก ํ์ฉ๋ ์ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
803์ ๊ณต๊ฐ ํผ์ด๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์
์ ์ ๊ณตํ์ฌ 609์ LLM ๊ธฐ๋ฐ ๋
ผ์ฆ์ ํผ์ด๋ฆฌ๋ทฐ ์์คํ
์ ํต์ฌ ๋ฐ์ดํฐ ์ธํ๋ผ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ORb ๋ฐ์ดํฐ์
์ AI ์์ฑ ๋ฆฌ๋ทฐ์ ์๋ํ ํ๊ฐ ํ๋กํ ์ฝ ๋ฐ ๋ ์ด๋ธ๋ง ์ค๊ณ๋ฅผ ์ํ ๊ธฐ์ด๊ฐ ๋๋ ์ค์ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋
ผ๋ฌธ peer review์ ์๋ ํ๊ฐยท์ ๋ขฐ์ฑ ์งํ ์ค๊ณ์ฒ๋ผ, ๊ณผํ ์์ด์ ํธ ํ๊ฐ์์ ๋ฒค์น๋งํฌ ์ ๋ขฐ์ฑ๊ณผ ๊ฐ๊ด์ฑ ๋
ผ์๋ฅผ ๋ณด๊ฐํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
080 ๋
ผ๋ฌธ์ AI๊ฐ ํผ์ด๋ฆฌ๋ทฐ์ ๋ฏธ์น๋ ์ํฅ๊ณผ ์ํ์ ๋
ผ์ํด, 803์์ ์ ์ํ ์๋ํ ํ๊ฐ ๋ฐฉ๋ฒ์ ์ฌํ์ ยท์ค๋ฆฌ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
803์ OpenReview ๊ธฐ๋ฐ ๋๊ท๋ชจ ๋
ผ๋ฌธ/๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์
(ORB)์ 809์์ AI ๊ธฐ๋ฐ ํผ์ด๋ฆฌ๋ทฐ ์๋ํ ๋ฐฉ๋ฒ์ ์คํํ๊ณ ํ๊ฐํ๋ ๋ฐ ๋ฐ์ดํฐ ์ธํ๋ผ๋ก ์ง์ ํ์ฉ๋ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํ์ ๋ฌธํ์ ๊ณ๋์์งํ์ ๋ถ์์ ์ํ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
803 'The open review-based (orb) dataset' ๋
ผ๋ฌธ์ ์คํ ๋ฆฌ๋ทฐ ๊ธฐ๋ฐ ์๋ ํ๊ฐ์ ๋ฆฌ๋ทฐ์ด ํ๋ ๋ฐ์ดํฐ์ ์ด์ ์ ๋ง์ถ๋ฏ๋ก, 778 PEERSUM์ ๋ฉํ๋ฆฌ๋ทฐ ์๋์์ฑ๊ณผ ์๋ณด์ ์ผ๋ก ์ฝ์ผ๋ฉด ๋ฆฌ๋ทฐ ์๋ํ ์ฐ๊ตฌ ํ๋ฆ์ ํญ๋๊ฒ ํ์
ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ORBiC ๋ฐ์ดํฐ์
์ ํ์ ๋ฆฌ๋ทฐ ํ๊ฐ์ ์ด์ ์ ๋ง์ถ์์ผ๋, OAG-Bench์ ๊ฐ์ด ํ์ ๋น
๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ๊ณผ์ ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Pre ํ๋ ์์ํฌ๋ ๋๋ฃํ๊ฐ ๊ธฐ๋ฐ LLM ํ๊ฐ์ ๊ตฌ์กฐ๋ฅผ, ORb ๋ฐ์ดํฐ์
์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ํ๊ฐ์ฉ ์ค์ ๋ฐ์ดํฐ๋ก ์๋ํ ํ๊ฐ์ ๋์์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
The open review-based (orb) dataset๋ LLM ๊ธฐ๋ฐ ์ฐ๊ตฌ ์๋ํ์์ ํผ์ด๋ฆฌ๋ทฐ ์์ฑ ๋ฐ ๊ฒ์ฆ์ ์คํ ๋ฐ์ดํฐ์
์ ์ ๊ณตํ์ฌ ํ์ผ/์์ด์ ํธ ๊ธฐ๋ฐ AI ์๋ํ์ ์์ฉ ์ธก๋ฉด์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
ORb Dataset์ ๋ฆฌ๋ทฐ์ด์ ํ์ง ๋ฐ ์ ๋ขฐ๋ ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ์ฌ ๋
ผ๋ฌธ ์ฒ ํ ์ฐ๊ตฌ์์ ๋ํ๋๋ ๊ฒ์ฆ ๋ฌธ์ ์ ๊ทผ๋ฒ์ ๋ฌ๋ฆฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
803๋ฒ ๋
ผ๋ฌธ์ ์คํ ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์
ํ๊ฐ์ ์ด์ ์ ๋ง์ถฐ, 520๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๊ตฌ์กฐ์ ๋
ผ๋ฌธ ์์ฝยทํ๊ฐ์ ๋น๊ต๋ถ์ํ ์ ์๋ ์๊ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
877 ๋
ผ๋ฌธ์ NLP ๊ธฐ๋ฐ ํผ์ด๋ฆฌ๋ทฐ ์๋ํ ํ๊ฐ์ ๊ด๋ จํ์ฌ ๋ค์ํ ํ๊ฐ ๋๊ตฌ๋ฅผ ์๊ฐํ๋ฏ๋ก, 803์ ORB ๋ฐ์ดํฐ์
ํ์ฉ๋ฒ๊ณผ ์ง์ ๋น๊ตํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๊ธฐ๋ฐ ์๋ ๋
ผ๋ฌธ ํ๊ฐ ๋ฐ ๋ฆฌ๋ทฐ ํ์ง์ ๋ํ ๋ค์ํ ์กฐ์งํ ๋ฐ ํ๋กฌํํธ ์ ๋ต๊ณผ ๋์กฐ๋ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
591์ OpenReview๋ฅผ ํฌํจํ ํผ์ด๋ฆฌ๋ทฐ ํ๊ฐ ์ํ๊ณ ์์ฒด์ ๋ํ ๋ถ์์ผ๋ก 803 ๋
ผ๋ฌธ์ ORB ๋ฐ์ดํฐ์
์ธํ๋ผ์ ํ์ฉ๊ณผ ํ๊ธํจ๊ณผ๋ฅผ ํ์ฅ ๋งฅ๋ฝ์์ ์ดํดํ ์ ์๊ฒ ๋์์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์คํ๋ฆฌ๋ทฐ ๊ธฐ๋ฐ ํ๊ฐ ์๋ํ์ AI ๋ฆฌ๋ทฐ์ด์ ์ญํ , ์ฌ์ฌ ๊ณผ์ ๋ฐ์ดํฐ์
๊ตฌ์ถ ๋ฐฉ์์ ๋ค๋ฃฌ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์คํ๋ฆฌ๋ทฐ ๊ธฐ๋ฐ์ ํ์ ๋ฆฌ๋ทฐ์ ์ฌ๋ฐ๋ฐ ๋ฐ์ดํฐ์
์ ์ด์ฉํ ์๋ ํ๊ฐ์ ๋ฆฌ๋ทฐ ์์ฑ ์์คํ
์ฐ๊ตฌ๋ก์, ๋ฐ์ดํฐ ๊ตฌ์ถ ์ธก๋ฉด์์ ์ํธ ๋ณด์๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
803 ๋
ผ๋ฌธ์ ์คํ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์
๊ธฐ๋ฐ ์๋ํ ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ฉฐ, 807์ ๋น๋์ค ์ค๋ช
๊ธฐ๋ฐ ์์ด์ ํธ ํ๊ฐ์ ๋น๊ตํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ฐ๊ตฌ ํ๊ฐ ์ ์ฉ ๊ฐ๋ฅ์ฑ๊ณผ ํ๊ณ๋ฅผ ๋ถ์ํ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
803๋ฒ ๋
ผ๋ฌธ์ ์คํ ๋ฆฌ๋ทฐ ํ๊ฐ ๋ฐ์ดํฐ์
๊ตฌ์ถ ๋ฐ ์๋ํ ํ๊ฐ ๋ฐฉ๋ฒ์ ๊ธฐ์ ํด, ํผ์ด ๋ฆฌ๋ทฐ ์ฝ๋ฉํธ์ ํ์ค ์ฉ์ดํ์ ๊ทธ ํ์ค ์ ์ฉ ๋ฌธ์ ์ ์ฌ์ ์ ๊ณต์ ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
OpenReview ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์๋ ํ๊ฐ ๋๊ตฌ์ ๊ณต๊ฐ ๋ฐ์ดํฐ์
์ ํตํ ํ์ต๋ถ์ ํ๋ฆ์ ๋น๊ตยท์ฐธ์กฐํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
The open review-based (orb) dataset: Towards automatic assessment ๋
ผ๋ฌธ์ ๋์๊ด ๊ธฐ๋ฐ ์ฌ๋ก ๋์ ๊ณต๊ฐ peer review ๋ฐ์ดํฐ๋ฅผ ๊ณผํ-์ฌํ ์ฐ๊ฒฐ์ ์ฌ๋ก๋ก ๋ณด๊ณ , ์๋ฏธ๋ก ๋ถ์ ๋ฐฉ์์ ์ ์ฉ ๋์์ ์ฐจ๋ณํํจ์ผ๋ก์จ 942์ ์ฐ๊ตฌ ์ ๊ทผ๋ฒ์ ๋น๊ต์ ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋ฌธํ ๋ถ์์ ์ํ ๊ณ๋์์งํ์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จ๋ฐฑ์ง ๊ธฐ๋ฅ ์์ธก์ ์ฌํ์ฑ ๋ฐ ์ผ๋ฐํ๋ฅผ ๋ค๋ฅธ ๊ด์ ์์ ํ๊ฐํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ ๋ฉด์ญ์น๋ฃ ์ฐ๊ตฌ ๋ํฅ์ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ๋ถ์ํ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
629์ Peer Review ๊ธฐ๋ฐ LLM ์ฑ๋ฅ ํ๊ฐ์ ๊ฐ๋ฐ์ 803์ OpenReview ๊ธฐ๋ฐ ๋ฐ์ดํฐ์
๊ตฌ์ถ๊ณผ ์ง๊ฒฐ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
ORb ๋ฐ์ดํฐ์
์ ReviewMT์ ์ ์ฌํ๊ฒ ์๋ํ๋ ๋ฆฌ๋ทฐ ํ๊ฐ๋ฅผ ์ํ ์ค์ ์คํ ๋ฐ ํ๊ฐ ์ผ์ด์ค๋ฅผ ์ ๊ณตํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
262 ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์์ฑ ๋ฐ ์ธ๊ฐ ํ๊ฐ ์ง์นจ์ ํตํด ORB ๋ฐ์ดํฐ์
์ ํ์ฉํ ์๋ํ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
OpenReview์ ๋ฆฌ๋ทฐ-๋ฉํ๋ฆฌ๋ทฐ-๋
ผ๋ฌธ ์ ์ฒด ๊ณต๊ฐ์ ์๋ ํ๊ฐ๋ฅผ ์ํ ๋ฐ์ดํฐ์
๊ตฌ์ถ ์์ ํต์ฌ ๋
ผ์์ ์ค์ ์ ์ฉ ์ฌ๋ก๋ฅผ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
The open review-based (orb) dataset ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ๊ณผํ ํ๊ฐ ๋ฐ ์ฌํ์ฑ ๊ฒ์ฆ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ์ฌ 698์ AI ๊ธฐ๋ฐ ์ฌํ๊ฐ ์์คํ
์ ์ฉ ์์ญ์ ๋ํ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
Neural ODE์ ๊ณผํ์ ๋ฐฉ์ ์ ๋ฐ๊ฒฌ์ ์ ๋ชฉ์ ๋ํ ๋ฒค์น๋งํน ๋
ผ๋ฌธ์ผ๋ก, ์ค์ ๋ฐฉ์ ์ ๋ฐ๊ฒฌ ๋ฌธ์ ์ Neural ODE ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ์ดํด๋ณผ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
803์ ๋ฐ์ดํฐ์
์ 021์์ LLM ๊ธฐ๋ฐ ๊ณผํ ์ง์ ์ถ์ถ ๋ฐ ์๋ ๋ฆฌ๋ทฐ ํ๊ฐ์ ์ค์ฆ์ ์คํ ์๋ฃ๋ก ํ์ฉ๋ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
803์ ๋
ผ๋ฌธ-ํผ์ด๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์
์ ์ ๊ณตํ์ฌ 670์์ ๋ชจ๋ธ์ด ์ฐ๊ตฌ ๋ฐฉ๋ฒ๋ก ๊ณผ ์ค์ ์ฝ๋ ๊ตฌํ์ ์ฐ๊ฒฐํ๋ ํ๋ จ ์๋ฃ๋ก ํ์ฉ๋ ์ ์์ต๋๋ค.