Essence
Figure 1: Comparison of the two paradigms for scien-
๋ณธ ๋
ผ๋ฌธ์ LLMs(Large Language Models)์ ํ์ฉํ ์๋ํ๋ ํ์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ(ASPR: Automated Scholarly Paper Review) ํํฉ์ ๋ํ ์ข
ํฉ์ ์ธ ์๋ฒ ์ด ์ฐ๊ตฌ์ด๋ค. ChatGPT ์ถ์ ์ดํ LLMs๊ฐ ํ์ ์ถํ ๋ฐ ํผ์ด ๋ฆฌ๋ทฐ ๊ณผ์ ์ ๋ฏธ์น ์ํฅ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๊ณ , ํ์ฌ์ ASPR๊ณผ ์ ํต์ ํผ์ด ๋ฆฌ๋ทฐ์ ๊ณต์กด ๋จ๊ณ๋ฅผ ๋ค๋ฃฌ๋ค.
Evaluation
Novelty: 3/5 Technical Soundness: 3/5 Significance: 3/5 Clarity: 3/5 Overall: 3/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLMs๋ฅผ ํ์ฉํ ์๋ํ๋ ํ์ ๋ฆฌ๋ทฐ์ ํํฉ์ ์ต์ด๋ก ์ฒด๊ณ์ ์ผ๋ก ์กฐ์ฌํ ์ข
ํฉ ์๋ฒ ์ด๋ก, ASPR ๋ถ์ผ์ LLM ์ํ๊ณ(๋ชจ๋ธ ์ ํ, ๊ธฐ์ ์ ๊ธฐ์ฌ, ์๋ก์ด ๋ฆฌ์์ค, ์ค๋ฆฌ ์ด์)๋ฅผ ์ผ๋ชฉ์์ฐํ๊ฒ ์ ๋ฆฌํ ์ค์ฉ์ ๊ฐ์น๊ฐ ์๋ค. ๋ค๋ง ์ ๊ณต๋ ์ด๋ฐ ์น์
๋ง์ผ๋ก๋ ๋
ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ(๊ธฐ์ ์ ๋ณ๋ชฉ ํด๊ฒฐ, ์ฑ๋ฅ ๋ถ์, ์ถํ๊ณ ๋ฐ์, ํฅํ ๊ณผ์ )๋ฅผ ์์ ํ ํ๊ฐํ๊ธฐ ์ด๋ ค์ฐ๋ฉฐ, ๋น ๋ฅด๊ฒ ๋ณํํ๋ LLM ๋ถ์ผ์ ๋์ ์ฑ๊ฒฉ์ ์ฅ๊ธฐ์ ์ ์ฉ์ฑ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ํตํ ๊ณผํ์ ๊ฐ์ค ์์ฑ ๊ธฐ์ด์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ก ์ ํ๊ณ๋ฅผ ์ค๋ช
ํ์ฌ, ๋ณธ ๋
ผ๋ฌธ์ด ์ด๋ฃฌ ๋์ฝ์ ์ดํดํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ํ์ฉํ ๊ฐ๋ฐฉ ๋๋ฉ์ธ ๊ณผํ ๊ฐ์ค ์๋ ์์ฑ ์์คํ
์ ์ ์ํ์ฌ, ์ฌ๋ฃ๊ณผํ ๊ฐ์ค์์ฑ ์์ฉ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ฉํ ๋
ผ๋ฌธ ์์ด๋์ด ์๋ ์ ์ ์์คํ
์ผ๋ก, ๊ฐ์ค ์์ฑ ์๋ํ์ ๋ค์ํ ์ค์ ๊ตฌํ์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ์ ์ค๋ณด ํ์ง ๋ฐ ์๋ ์คํ๋๋ฉ์ธ ๊ฐ์ค ํ์ธ์ ๋ํ LLM ๊ธฐ๋ฐ ์ ๊ทผ์ ์ค์ ์์คํ
์ ์ ์ฉํ ์ฌ๋ก์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
473 'Large Language Models for Automated Open-domain Scientific Hypothesis Generation' ๋
ผ๋ฌธ์ ๋ฏธ๋ ์ฐ๊ตฌ ์ง๋ฌธ ์์ฑ์ด๋ผ๋ ๋ชฉ์ ์ ๋ํด LLM ๊ธฐ๋ฐ์ ํ์ดํฌ์์ค ์๋ ์์ฑ ์ ๊ทผ๋ฒ์ ์ ์ํด ๋ ๋
ผ๋ฌธ์ ๋น๊ตํ๋ฉด RAG vs ์๋ตํ ๋ฐฉ๋ฒ๋ก ์ ์ฐจ์ด๋ฅผ ์ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
719๋ LLM ๊ธฐ๋ฐ ๊ฐ๋ฐฉํ ๊ณผํ ๊ฐ์ค์์ฑ์ ์ ์ฌ๋ ฅ๊ณผ ํ๊ณ์ ๋ํ ๋น๊ต ํ๊ฐ๋ฅผ ํตํด, 473 ๋
ผ๋ฌธ์ ์๋ํ ์์คํ
๊ณผ ์ํธ ๋ณด์์ ๋
ผ์๊ฐ ๊ฐ๋ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
473๋ฒ ๋
ผ๋ฌธ์ LLM์ ํ์ฉํ ๊ณผํ์ ๊ฐ์ค ์๋์์ฑ ์คํ๊ณผ ํ๊ฐ ๋ฐฉ๋ฒ์ ์ด์ ์ ๋ง์ถ๋ฉฐ, 882๋ฒ ์ธ์ฉยทLLM ์ํธ์์ฉ ์ฌ์ธต ์กฐ์ฌ์ ์์ฉํ์ด๋ค.
ํ์ ์ฐ๊ตฌ
479๋ ๋๊ท๋ชจ LLM์ ํ์ฉํ ๊ณผํ ์ง์ ํฉ์ฑยท๋ฐ๊ฒฌ ๊ณผ์ ์ ์ฒด๊ณ์ ํ๋ ์์ ์ ์ํ๋ฉฐ, 473์ ๊ฐ๋ฐฉํ ๊ฐ์ค์์ฑ ์ฐ๊ตฌ๋ฅผ ํฌ๊ด์ ์ผ๋ก ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
ResearchAgent(668)๋ LLM์ ์ด์ฉํ ์ฐ๊ตฌ์์ด๋์ด ์์ฑ๊ณผ ๊ฒ์ฆ์ ๋ฐ๋ณตํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, 473 ๋
ผ๋ฌธ์ ์๋ ์ฐ๊ตฌ ๊ฐ์ค ์์คํ
์ ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
LLM์ ํ์ฉํ ์ค์ ๊ณผํ์ ๊ฐ์ค ์์ฑ ๋ฐ ์๋ ๋ฌธํ QA ์์ฉ ์ฌ๋ก๋ก, 467์ LLM ๊ฐ๋
์ ์ค๋ช
์ด ์ค์ง์ ์ผ๋ก ์ฐ๊ตฌ์ ํ์ฉ๋๋ ๋ฐฉ์์ ๋ณด์ฌ์ค๋๋ค.
์์ฉ ์ฌ๋ก
HypoBench(417)๋ LLM ๊ธฐ๋ฐ ์คํ ๋๋ฉ์ธ ๊ณผํ ๊ฐ์ค ํ์ ์ฑ๋ฅ์ ์ํํ ์ค์ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์ ์ ๊ณตํ๋ค.