Essence
Figure 2. Retrospective analysis of LLM and human scientific feedback. a, Retrospective overlap analysis
๋ณธ ๋
ผ๋ฌธ์ GPT-4๋ฅผ ์ด์ฉํ์ฌ ๊ณผํ ๋
ผ๋ฌธ์ ๋ํ ํผ๋๋ฐฑ์ ์๋์ผ๋ก ์์ฑํ ์ ์๋์ง ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๋ ์ฐ๊ตฌ์ด๋ค. Nature ์ ๋ ๋ฐ ICLR ํํ์ 3,096๊ฐ ๋ฐ 1,709๊ฐ ๋
ผ๋ฌธ์ ๋์์ผ๋ก LLM๊ณผ ์ธ๊ฐ ๋ฆฌ๋ทฐ์ด์ ํผ๋๋ฐฑ ๊ฒน์นจ์ ๋น๊ตํ์ผ๋ฉฐ, 308๋ช
์ ์ฐ๊ตฌ์ ๋์ ์ฌ์ฉ์ ์กฐ์ฌ๋ฅผ ํตํด LLM ํผ๋๋ฐฑ์ ์ ์ฉ์ฑ์ ํ๊ฐํ๋ค.
Achievement
Figure 1. Characterizing the capability of LLM in providing helpful feedback to researchers. a, Pipeline for
LLM-์ธ๊ฐ ํผ๋๋ฐฑ ๊ฒน์นจ: Nature ์ ๋ ํ๊ท 30.85%, ICLR ํ๊ท 39.23%๋ก ์ธ๊ฐ ๋ฆฌ๋ทฐ์ด ๊ฐ ๊ฒน์นจ(Nature 28.58%, ICLR 35.25%)๊ณผ ์ ์ฌํจ. ์ฌ์ฉ์ ์ธ์: 57.4%์ ์ฐ๊ตฌ์๊ฐ GPT-4 ํผ๋๋ฐฑ์ ๋์/๋งค์ฐ ๋์์ด ๋๋ค๊ณ ํ๊ฐํ์ผ๋ฉฐ, 82.4%๋ ์ผ๋ถ ์ธ๊ฐ ๋ฆฌ๋ทฐ์ด๋ณด๋ค ๋ ์ ์ฉํ๋ค๊ณ ํ๋จ. ์ฝํ ๋
ผ๋ฌธ์ ๋ํ ์ฑ๋ฅ: ๊ฑฐ์ ๋ ICLR ๋
ผ๋ฌธ์์ ๊ฒน์นจ์ด 43.80%๋ก ๋์ LLM์ด lower-quality ๋
ผ๋ฌธ ์๋ณ์ ๋ ํจ๊ณผ์ .
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM์ด ๊ณผํ ํผ๋๋ฐฑ ์์ฑ์์ ์ค์ง์ ์ธ ๊ฐ์น๋ฅผ ์ ๊ณตํ ์ ์์์ ๋๊ท๋ชจ ์ค์ฆ ๋ฐ์ดํฐ๋ก ์ฒ์ ๋ณด์ฌ์ค ์ค์ํ ๊ธฐ์ฌ์ด๋ค. ์ธ๊ฐ ๋ฆฌ๋ทฐ์ด์์ ๋น๊ต ๋ถ์์ด ์ฒด๊ณ์ ์ด๊ณ , ์ฌ์ฉ์ ์กฐ์ฌ๊ฐ ํ์ค์ ์ ์ฉ์ฑ์ ๊ฐํํ๋, LLM์ ๋ฐฉ๋ฒ๋ก ์ ์ฝ์ ๊ณผ ์ฃผ์ ํธํฅ์ ๋ํ ํด๊ฒฐ์ฑ
์ด ์ ์๋์ง ์์ ์ค๋ฌด ์ ์ฉ์๋ ์ ์ฝ์ด ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
712์ SciCode ๋ฒค์น๋งํฌ๋ 184์ ๋
ผ๋ฌธ๊ณผ ๊ฐ์ด LLM์ด ์ค์ ์ฐ๊ตฌ ์ง์(ํผ๋๋ฐฑ, ์ฝ๋ฉ ๋ฑ) ์ญํ ์ ํ๊ฐํ๋ ๊ทผ๊ฑฐ ์๋ฃ๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
RAG ๊ธฐ๋ฐ ํ
์คํธ ์์ฑ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ ํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
184๋ LLM์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ ์ผ๋ง๋ ์ ์ฉํ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋์ง์ ๋ํ ๋๋ค๋ฅธ ํ๊ฐ ๋
ผ๋ฌธ์ผ๋ก, 1087๊ณผ ์ํธ๋ณด์์ ์ผ๋ก ์ฝ์ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ฉํ ํ์ ๋
ผ๋ฌธ ํ๊ฐ ๋ฐ ํผ๋๋ฐฑ ์์ฑ ๋ฅ๋ ฅ์ ์ฐ๊ตฌํ๋ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ์์ ์ทจํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ๊ณผํ์ ํ
์คํธ ํ๊ฐ ๋ฅ๋ ฅ์ ๋ถ์ํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ด ํ์ ํผ์ด ๋ฆฌ๋ทฐ์์ ์ ์ฉํ ํผ๋๋ฐฑ์ ์ค ์ ์๋์ง ์ค์ฆ์ ์ผ๋ก ๊ฒ์ฆํ์ฌ, 104๋ฒ ๋
ผ๋ฌธ์ ๋ณด์ ์ํ ๋
ผ์์ ์๋ฐ๋๋ ์๊ฐ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ด ๋
ผ๋ฌธ ๋ฐ ์ฐ๊ตฌ ํ๊ฐ ๊ณผ์ ์์ ์ธ๊ฐ ์ฌ์ฌ์์ ๋นํด ์ง์ ํผ๋๋ฐฑ์ ์ด๋ป๊ฒ ์ ๊ณตํ๋์ง๋ฅผ ๋น๊ต ๋ถ์ํ์ฌ, ์ธ๊ฐ/AI ๋น๊ต์ ๋ค๋ณํ๋ ์๊ฐ์ ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๊ธฐ๋ฐ ํ์ ๋ฆฌ๋ทฐ ์์คํ
์ ํจ์ฉ์ฑ์ ํ๊ฐํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
GPT ๋ชจ๋ธ์ ํ์ฉํ ํ
์คํธ ํ๊ฐ ์์
์ ์ฑ๋ฅ์ ๋น๊ตํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI๊ฐ ์์ฑํ ๋ฆฌ๋ทฐ๊ฐ ์ค์ ํ๊ฐ์ ์ผ๋ง๋ ์ ํฉํ์ง, ๋ค์ํ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํตํด ๊ฒ์ฆํ๋ค.
ํ์ ์ฐ๊ตฌ
184 ๋
ผ๋ฌธ์ LLM์ด ๋
ผ๋ฌธ ํผ๋๋ฐฑ ๋ฐ ๋ฆฌ๋ทฐ์ ์ค์ง์ ๋์์ ์ฃผ๋์ง ๋ค๊ฐ๋๋ก ๊ฒ์ฆํด, 227์์ ์ ์ํ ์๋ํ ํผ๋๋ฐฑ ์์คํ
์ ์คํจ์ฑ์ ํ๊ฐํ๋ค.
ํ์ ์ฐ๊ตฌ
Peer Review as A Multi-Turn Dialogue ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ๋ฅผ ๋ค์คํด ๋ํ ๊ด์ ์ผ๋ก ๋ถ์ํ์ฌ ์ค์ ์ ์ฉ์ฑ ๋
ผ์๋ฅผ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ํ์ฉํ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ํ๊ฐ์ ํ์ฅ์ฑ๊ณผ ํ์ฉ์ ๋ํ์ฌ ๊ท๋ชจ ๋ฐ ์ค์ ์ฑ ์ฐจ์์ ๋ถ์์ ๋ํ๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ํ์ฉํ ์ฐ๊ตฌ ๋
ผ๋ฌธ ํผ๋๋ฐฑ ์์ฑ ์์คํ
์ ํ์ฅํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
Can large language models provide useful feedback on research ๋
ผ๋ฌธ์ ์ค์ LLM์ ๋ฆฌ๋ทฐ ๋นํ ๋ฐ ํผ๋๋ฐฑ ๋ฅ๋ ฅ์ ๊ดํ ํ๊ฐ๋ก, AAAR-1.0 ๋ฒค์น๋งํฌ์ ์ค์ ํ๊ฐ ํญ๋ชฉ์ ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
CoAuthor ๋
ผ๋ฌธ์ ์ค์ ๋
ผ๋ฌธ ์งํ ์ LLM์ ํ๋ ฅ์ ํผ๋๋ฐฑ๊ณผ ์งํ ์ง์ ์ญ๋์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก ๋ถ์ํด, ํผ์ด ๋ฆฌ๋ทฐ ๋จ๊ณ๋ฟ ์๋๋ผ ์์ฑ ๊ณผ์ ์์ LLM ํผ๋๋ฐฑ ์์ฌ์ ์ ์ ์ํ๋ค.
๋ฐ๋ก /๋นํ
104๋ฒ ๋
ผ๋ฌธ์ LLM์ด ํผ์ด ๋ฆฌ๋ทฐ์์ ๋ณด์ผ ์ ์๋ ์ํ๊ณผ ์ทจ์ฝ์ฑ์ ๋ค๋ฃจ๋ ๋ฐ๋ ๊ด์ ์
๋๋ค.
๋ฐ๋ก /๋นํ
184๋ฒ ๋
ผ๋ฌธ์ LLM์ด ๊ณผํ ๋ฌธํ์ ์ค ์ ์๋ ํผ๋๋ฐฑ์ ํ๊ณ์ ํ์ฉ๊ฒฐ๊ณผ๋ฅผ ํ๊ฐํ์ฌ, 530๋ฒ ๋
ผ๋ฌธ์์ ์ ์ํ QA ์ฑ๋ฅ ๊ฐ์ ์ฃผ์ฅ์ ๋ํ ๋นํ์ ์๊ฐ์ ์ ๊ณตํฉ๋๋ค.