Essence
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๊ณผํ ๋
ผ๋ฌธ์ ๋นํ์ ์ค๋ฅ ๊ฒ์ถ ๋๊ตฌ๋ก ํ์ฉํ๋ ๋ฐฉ์์ ์ ์ํ๋ฉฐ, ์ฒ ํ๋ arXiv ๋
ผ๋ฌธ ๋ฐ์ดํฐ์
์ ๋ฐํ์ผ๋ก ์ถ๋ก ํ LLM๋ค์ ์ฑ๋ฅ๊ณผ ๋น์ฉ์ ํ๊ฐํฉ๋๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM์ ๋๋ฃ ์ฌ์ฌ ๋ณด์กฐ ๋๊ตฌ๋ก ์์น์ง์ด ์ฑ
์๊ฐ ์๋ ํ์ฉ์ ์ถ๊ตฌํ๋ฉฐ, ์ค์ ์ฒ ํ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ํ ์ค์ฆ์ ํ๊ฐ์ ์๋ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ํ์ ์ถํ ์์คํ
์ ๊ฐ์ ์ ์ ์๋ฏธํ ๊ธฐ์ฌ๋ฅผ ํฉ๋๋ค. ๋ค๋ง ์๋ ํ๊ฐ ๋ฐฉ์์ ๊ฒ์ฆ๊ณผ ๋๋ฉ์ธ ๋ณ ์ผ๋ฐํ ์ธก๋ฉด์์ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
680 ๋
ผ๋ฌธ์ด ํ์ฉํ ์ฒ ํ ๋
ผ๋ฌธ ๋ฐ์ดํฐ์
์ 885์ ๋๊ท๋ชจ retraction ๋ฐ์ดํฐ ๊ตฌ์ถ์ ๊ธฐ๋ฐํ๋ฏ๋ก ์ํธ์ฐธ์กฐ๊ฐ ์ค์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Meta-assessment of bias in science ๋
ผ๋ฌธ์ ๋ค์ํ ํธํฅ ๋ฐ ๋ฌธ์ ๊ฒ์ถ์ ํ๊ฐํ๋ ๋์ฒด์ ๋ถ์ํ์ ์ ๊ณตํ์ฌ LLM ์ค๋ฅ ํ์ง ์ ๊ทผ๊ณผ ๋น๊ตํ๊ธฐ์ ์ ํฉํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
680๋ฒ์ LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ ๋ฌธ์ ์ ํฌ์ธํธ์ ๋นํ์ ํ๊ฐ ๋ฅ๋ ฅ์ ์ง์ค์ ์ผ๋ก ๋น๊ตํด, 678๋ฒ์ ReviewerGPT ์คํ ๊ฒฐ๊ณผ ํด์์ ๋ณด์์ด ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
183์ ๊ณผํ์ ํ์์ ๋ณด ํ์ง์์ LLM์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ค๋ฃจ๋ฉฐ 680๊ณผ ์ ์ฌ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ์๊ฐ์ผ๋ก ์ ๊ทผํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciTrust๋ LLM์ ์ ๋ขฐ์ฑ ํ๊ฐ์งํ๋ฅผ ๊ณผํ ์ ๋ณด ์ถ์ถ/๊ฒ์ฆ ๋งฅ๋ฝ์์ ๊ฒํ ํ์ฌ ๋นํ์ ๊ด์ ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ฉํ ๋
ผ๋ฌธ ๋นํ๊ณผ ๊ฒํ ์ญ๋ ๋ถ์์ด๋ผ๋ ์ ์์ 877๋ฒ ๋
ผ๋ฌธ๊ณผ ๊ทผ๋ณธ์ ์ผ๋ก ์ ์ฌํ๋, ์ ๊ทผ ๋ฐฉ์๊ณผ ํ๊ฐ ๋ฒ์๊ฐ ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
665๋ LLM ๊ธฐ๋ฐ ์๋ ๋ฆฌ๋ทฐ ์์ฑ์์ reasoning๊ณผ hallucination ๋์ ๋ฐฉ์์ ๋ค๋ค 680๊ณผ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
680 ๋
ผ๋ฌธ์ LLM ๋ฆฌ๋ทฐ๊ฐ ์ค์ ๋ก ์น๋ช
์ ๋ฌธ์ ๋ฅผ ๋์น์ง ์๋์ง, ์ด์ ๊ธฐ๋ฐ ํ๊ฐ๋ฅผ ํตํด ๋ธ๋ผ์ธ๋ ์คํ(537) ํ์ง์ ๋ค๋ฅธ ๊ด์ ์ ๋นํ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
680๋ฒ์ LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ์ฌ์ฌ์ ํต์ฌ ๋ฌธ์ ๋ฐ๊ฒฌ ๋ฐ ๋นํ์ ํ๊ฐ๋ฅผ ์ค์ ์ ์ผ๋ก ๋ค๋ฃจ๋ฏ๋ก, 630๋ฒ์ ์ฐ๊ตฌ ์์ด๋์ด outcome ์์ธก๊ณผ ๋ณด์์ ์ผ๋ก ์ฝ์ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ฉํ ๊ณผํ ๋
ผ๋ฌธ ํ์ง ํ๊ฐ ์ ๊ทผ๋ฒ์ ๋ค๋ฃจ๋ ๋งค์ฐ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ฐ๋ก /๋นํ
541 ๋
ผ๋ฌธ์ ๊ฒฐ๋ก ์ ๋ฐ์ฆ์ด ์ด๋ ค์ด NLP fact-checking์ ํ๊ณ๋ฅผ ๋
ผ์ํด 680์์ LLM ๊ธฐ๋ฐ ์ค๋ฅ ๊ฒ์ถ์ ํ์ค์ ํ๊ณ๋ฅผ ๋นํํฉ๋๋ค.
๋ฐ๋ก /๋นํ
AI ๊ณผํ์์ ์ค์ ๊ตฌํ ์ญ๋ ํ๊ณ๋ฅผ ๋นํ์ ์ผ๋ก ๋ค๋ฃฌ 81๋ฒ ๋
ผ๋ฌธ๊ณผ ๋์กฐ์ ์ผ๋ก, 680๋ฒ ๋
ผ๋ฌธ์ LLM์ ์ค์ ๋
ผ๋ฌธ ์ค๋ฅ ๊ฒ์ถ ๊ฐ๋ฅ์ฑ์ ๋ถ์ํฉ๋๋ค.