์ ์: Guijin Son, Jiwoo Hong, Honglu Fan, Heejeong Nam, Hyunwoo Ko, Seungwon Lim, Jinyeop Song, Jinhang Choi, Gonรงalo Paulo, Youngjae Yu, Stella Biderman | ๋ ์ง: 2025 | DOI: N/A
Essence
SPOT ๋ฒค์น๋งํฌ์ ๊ตฌ์ถ ๊ณผ์ : ์๋ ์์ง(๋
น์)๋ถํฐ ๊ฒ์ฆ, ์ ๊ทํ๋ฅผ ๊ฑฐ์ณ ํ๊ฐ ๋จ๊ณ(ํ๋์)๊น์ง LLM ์ถ๋ ฅ์ ๊ธฐ์ค ์ค๋ฅ์ ๋น๊ต
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ด ๊ณผํ ๋
ผ๋ฌธ์ ์ค๋ฅ๋ฅผ ์๋์ผ๋ก ๊ฒ์ฆํ ์ ์๋๊ฐ๋ฅผ ๋ฌป๋ ๋ณธ ๋
ผ๋ฌธ์ 83๊ฐ ์ถํ ๋
ผ๋ฌธ๊ณผ 91๊ฐ์ ๊ฒ์ฆ๋ ์ค๋ฅ๋ก ๊ตฌ์ฑ๋ SPOT ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์ต์ LLM๋ค๋ 21.1% ์ดํ์ ์ฌํ์จ(recall)์ ๋จธ๋ฌผ๋ฌ ์ ๋ขฐ์ฑ ์๋ ํ์ ๊ฒ์ฆ ์๋ํ๋ ์์ง ๋ถ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ค๋ค.
How
TP/FP/FN ๋ถ๋ฅ: ๋ชจ๋ธ์ด ์ ํํ ์์น์ ์ค๋ฅ๋ฅผ ๋ฐ๊ฒฌํ๋ฉด TP, ๋ฒค์น๋งํฌ์ ์๋ ์ค๋ฅ๋ฅผ ์ง์ ํ๋ฉด FP, ์ค์ ์ค๋ฅ๋ฅผ ๋์น๋ฉด FN
๋ฐ์ดํฐ ์์ง ๋ฐ ์ ๊ทํ:
- WithdraxIV(์ฒ ํ ๋
ผ๋ฌธ 14,000ํธ)์ PubPeer(์ฌํ ์ต๋ช
๋๋ฃํ๊ฐ ์ฌ์ดํธ)์์ ์๋ ์์ง
- GPT-4o๋ฅผ ํตํ ์๋ ํํฐ๋ง: (1) ๋ช
์์ ์์น ์ง์ ์ฌ๋ถ, (2) ์ธ๋ถ ์๋ฃ ํ์ ์ฌ๋ถ
- 2024๋
์ดํ ๋ฐํ ๋
ผ๋ฌธ๋ง ์ ๋ณ(๋ชจ๋ธ ํ์ต ๋ฐ์ดํฐ ์ค์ผ ๋ฐฉ์ง)
- ์ ์ ์ง์ ํ์ธ: PubPeer ๋๊ธ์ ์ ์ ์๋ต ๋๋ WithdraxIV ์๋ ์ฒ ํ๋ก๋ง ํ์
- ์ธ๊ฐ ๊ฒ์ฆ(2๋จ๊ณ): ์กฐ๊ฑด ์ถฉ์กฑ(์์ฒดํฌํจ์ฑ, ์๋ณ๊ฐ๋ฅ์ฑ, ์ ์ ํ์ธ) ์ฌ๋ถ ํ์ธ โ ์ข
ํฉ ๊ฐ์ฌ
- PDF ์ ๊ทํ: Llama-Parse๋ก ๋งํฌ๋ค์ด ๋ณํ โ ๊ณ ์ถฉ์ค ์คํฌ๋ฆฐ์ท ์ถ์ถ(ํ์ด์ง๋น 8๊ฐ ์ด๋ฏธ์ง) โ GPT-4o๋ก OCR ์ค๋ฅ ์์ โ ์๋ ๊ฐ์ฌ
ํ๊ฐ ํ๋กํ ์ฝ:
- ์๋ฌธ(ํ
์คํธ+์ด๋ฏธ์ง)๊ณผ ํจ๊ป ๊ตฌ์กฐํ๋ JSON ํ์์ ์ค๋ฅ ๋ฐํ ํ๋กฌํํธ ์ ์
- ์ง์์ฑ(TP): ๋ชจ๋ธ ๋ณด๊ณ ์์น์ ๋ฒค์น๋งํฌ ์ฃผ์์ด ์ผ์น + LLM ํ์ธ์ ํตํ ๋์ผ ์ค๋ฅ ํ์
- ์ฌํ์จ(recall), ์ ๋ฐ๋(precision), pass@K ๋ฉํธ๋ฆญ ์ฌ์ฉ
์ค๋ฅ ๋ถ๋ฅ:
- ๊ท๋ฉ์ ๋ถ๋ฅ๋ก 6๊ฐ์ง ๋ฒ์ฃผ ๋์ถ: ์์/์ฆ๋ช
(37), ๊ทธ๋ฆผ ์ค๋ณต(27), ๋ฐ์ดํฐ ๋ถ์ผ์น(18), ํต๊ณ ๋ณด๊ณ (4), ์์ฝ ์ ์ฒด์ฑ(3), ์คํ ์ค๊ณ(2)
- ์ฌ๊ฐ๋: ์ ์ ๋
ผ๋ฌธ(59) vs. ์ฒ ํ(32)
Evaluation
์ดํ: SPOT์ LLM์ ์ฝ์ ์ ์ฒด๊ณ์ ์ผ๋ก ๋๋ฌ๋ด๋ ๊ฒฌ๊ณ ํ ๋ฒค์น๋งํฌ๋ก, ํ์ฌ AI ์์คํ
์ด ์ ๋ขฐ์ฑ ์๋ ๊ณผํ ๊ฒ์ฆ์๊ฐ ๋๊ธฐ ์ํด ๋์ด์ผ ํ ์ค์ง์ ๊ฑฐ๋ฆฌ๊ฐ ์ผ๋ง๋ ํฐ์ง๋ฅผ ์ฆ๋ช
ํ๋ค. ๊ท๋ชจ ํ๊ณ๋ ์์ผ๋, ์ ์ ํ์ธ + ์ด์ค ๊ฒ์ฆ์ ํตํ ์ง์ ์ฐ์์ฑ๊ณผ ๋ค์ค๋ชจ๋ฌ ์ฅ๋ฌธ๋งฅ์ ํ์ค์ ๋ณต์ก๋์์ ์์๊ฐ ํฌ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
882๋ LLM๊ณผ ์ธ์ฉ ๋ถ์์ ์ํธ ์์ฉ์ ๋ฆฌ๋ทฐํ๋ ๋
ผ๋ฌธ์ผ๋ก, 881์ ๋
ผ๋ฌธ ๊ฒ์ฆ ์๋ํ๊ฐ ์ธ์ฉ ์ ๋ขฐ์ฑ ํ๊ฐ์๋ ๋ฐ์ ํ๊ฒ ๊ด๋ จ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Withdrarxiv ๋
ผ๋ฌธ์ ๋
ผ๋ฌธ ์ฒ ํ ๋ฐ์ดํฐ์
๊ตฌ์ถ ์ฌ๋ก๋ก, SPOT ๋ฒค์น๋งํฌ์ ํจ๊ป LLM์ ๋
ผ๋ฌธ ์ค๋ฅ ํ์ง ์ฑ๋ฅ ๋น๊ต์ ์ ํฉํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
852๋ฒ ๋
ผ๋ฌธ์ ๊ณผํ ๋
ผ๋ฌธ ์ ๋ฌ ๊ณผ์ ์์ ์ธ๋ฐํ ์ฌ์ค ์๊ณก์ ํจํด์ ๋ถ๋ฅํ๋ฏ๋ก, ๋
ผ๋ฌธ ์ค๋ฅ ํ์ง ํ์คํฌ์ ๊ธฐ์ค์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ๊ณผํ ์ง์ ์ถ์ถ ๋ฐ ๊ฒ์ฆ ๊ณผ์ ์ ํํฉ๊ณผ ๋ฌธ์ ์ ์ ํญ๋๊ฒ ๋ค๋ฃน๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
When AI Co-Scientists Fail: SPOT๋ ๊ณผํ ๋
ผ๋ฌธ ์๋ ๊ฒ์ฆ ๋ฒค์น๋งํฌ๋ก, ๋ฌธํ ์๋ ๋ฆฌ๋ทฐ(897)์ ํ๊ฐ ์ ๋ขฐ์ฑ ๋ฌธ์ ์ ํต์ฌ์ ์ผ๋ก ๊ด๋ จ๋ ๋ฐ์ดํฐ์ ํ๊ฐ ๊ด์ ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
FactKG๋ ๊ณผํ๋ฌธํ ์ค๋ฅ ๊ฒ์ฆ์ ๋ ๋ค๋ฅธ ์๋ํ ์ ๊ทผ๋ฒ(์ง์๊ทธ๋ํ ๊ธฐ๋ฐ)์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ฌ์ค ํ์ธ ๋ฐ ์ค๋ณด ํ์ง ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI๊ฐ ๊ณผํ ๋
ผ๋ฌธ ๋ฌธํ ๊ฒํ ๋ฐ ์ค๋ฅ ํ์์ ์ค์ ๋ก ํ์ํ๊ฐ์ ๋ํ ์ฑ์ฐฐ์ ๋
ผ์๋ก, ์๋ ์ค๋ฅ ๊ฒ์ฆ์ ํ์์ฑ๊ณผ ํ๊ณ๋ฅผ ์
์ฒด์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
scientometric ๋ฐฉ๋ฒ์ ํ์ฉํ ์ฐ๊ตฌ ํ์ง ํ๊ฐ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Scaling Reproducibility: An AI-Assisted Workflow for Large-Scale Science ๋
ผ๋ฌธ์ ๋
ผ๋ฌธ ์ค๋ฅ ์๋ ๊ฒ์ฆ(881)๊ณผ ์ ์ฌ ๋งฅ๋ฝ์์ ์ฌํ์ฑ ์๋ํ ์ง์ ์ํฌํ๋ก์ฐ๋ฅผ ํตํด ๋ฌธ์ ๋ฅผ ๊ฐ์ ํด๊ฒฐํ๋ ๋์์ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
SPOT ๋ฒค์น๋งํฌ(881)๋ LLM์ด ๋
ผ๋ฌธ ์ค๋ฅ๋ฅผ ํ์งํ๋ ์ค์ ์ฑ๋ฅ ์ธก์ ๊ธฐ์ค์ผ๋ก, ๊ณผํ ์ปค๋ฎค๋์ผ์ด์
์๊ณก ํ์ง ์ฐ๊ตฌ์ ํ์ฅ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
SPOT(881)์ ๋
ผ๋ฌธ ์ค๋ฅ ์๋ ๊ฒ์ฆ์ ์ค์ ๋ฒค์น๋งํฌ๋ก, claim ๊ฒ์ฆ๊ฐ๋ฅ์ฑ ๋ถ์ ์ฐ๊ตฌ๋ฅผ ์ค์ ์ ์ฉ์ผ๋ก ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๊ณผํ ๋ถ์ผ LLM์ ์ ๋ขฐ์ฑ ํ๊ฐ๋ฅผ ๋ค์ํ ์งํ๋ก ๋ค๋ค, ๋
ผ๋ฌธ ์ค๋ฅ ๊ฒ์ฆ ์คํจ์ ํ๊ณ์ ๋ณด์์ ์ ํจ๊ป ๊ณ ๋ฏผํ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
์ค์ ๋
ผ๋ฌธ ์ค๋ฅ ์๋ ๊ฒ์ฆ ์คํจ ์ฌ๋ก๊ฐ ๋ฆฌ๋ทฐ ๋
ผ๋ฌธ์์ ์ง์ ํ LLM ๊ณผ์ ์ ๊ตฌ์ฒด์ ์์๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค.
์์ฉ ์ฌ๋ก
SciTrust ์ ๋ขฐ์ฑ ํ๊ฐ ํ๋ ์์ํฌ๊ฐ ๋
ผ๋ฌธ ์ค๋ฅ ๊ฒ์ฆ ์๋ํ ์คํจ ์ฌ๋ก๋ฅผ ํด์ํ๋ ๋ฐ ๋์์ ์ค๋๋ค.
๋ฐ๋ก /๋นํ
When AI Co-Scientists Fail ๋
ผ๋ฌธ์ ์๋ํ ๋ฆฌ๋ทฐยทํ๊ฐ์ ์ทจ์ฝ์ ๊ณผ ์คํจ ์ฌ๋ก๋ฅผ ๋ด์, OpenReviewer ์์คํ
์ ํ๊ณ์ ๊ฐ์ ๋ฐฉํฅ์ ์๊ฐํด ๋ณผ ์ ์๋ค.
๋ฐ๋ก /๋นํ
AI ๊ณผํ์ ์คํ์ค์ ์ฑ๊ณต ์ฌ๋ก์ ๋ฌ๋ฆฌ, LLM์ด ๊ณผํ ๋
ผ๋ฌธ ์ค๋ฅ ๊ฒ์ฆ์ ํ๊ณ๋ฅผ ๋ณด์ธ๋ค๋ ์ ์์ ์๋ฐ๋ ์๊ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ฐ๋ก /๋นํ
AI๊ฐ ๊ณผํ ์์ฐ์ฑ์ ๊ธฐ์ฌํ ์ฑ๊ณต ์ฌ๋ก์, ์๋ ๊ฒ์ฆ ์์คํ
์ ๋ถ์กฑํจ์ด ๋๋น๋์ด ์๋ฏธ์๊ฒ ์ฝ์ ์ ์์ต๋๋ค.
๋ฐ๋ก /๋นํ
Towards AI for science: developing a conceptual basis for trustworthy, responsible scientific discovery ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๊ฒ์ฆ ์๋ํ์ ํ๊ณ(881)์ ๋ฌ๋ฆฌ ์ ๋ขฐํ ์ ์๋ ํ์ ๊ฒ์ฆ AI ํ๋ ์์ ํ์์ฑ๊ณผ ์ค๊ณ๋ฅผ ์ ์ํ๋ค.
๋ฐ๋ก /๋นํ
When AI Co-Scientists Fail ๋
ผ๋ฌธ์ ์๋ํ๋ LLM ๊ธฐ๋ฐ ๊ฐ์ค ๊ฒ์ฆ๊ณผ์ ์ ํ๊ณ๋ฅผ ๋ฒค์น๋งํฌ๋ก ๋ณด์ฌ์ฃผ๋ฉฐ, Co-Scientist ์ ๊ทผ์ ์ทจ์ฝ์ ์ ๋ณด์ํ๋ค.