Essence
NSF ์ฃผ์ ์ง์ ๋ถ์ผ๋ณ ๋ถํฌ: ์ฌ๋ฃ๊ณผํ(3.9%), ์ํ๋ฌผ๋ฆฌ๊ณผํ(16.5%), ์ง๊ตฌ๊ณผํ(13.8%) ๋ฑ
NSF(๋ฏธ๊ตญ ๊ตญ๋ฆฝ๊ณผํ์ฌ๋จ) ์ง์๊ธ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ๊ณผํ์ ์ฃผ์ฅ(scientific claims)๊ณผ ์ฐ๊ตฌ ์ ์(investigation proposals)์ ๋๊ท๋ชจ๋ก ์ถ์ถํ ๋ฐ์ดํฐ์
NSF-SCIFY๋ฅผ ์ ์ํ๋ค. 1970๋
๋ถํฐ 2024๋
๊น์ง 50๋
๊ฐ 400K๊ฐ ์ด์์ ์ง์๊ธ ์ด๋ก์์ ์ถ์ 280๋ง ๊ฐ์ ๊ณผํ์ ์ฃผ์ฅ์ ์ถ์ถํ์ฌ ํ์ฌ๊น์ง ๊ฐ์ฅ ํฐ ๊ท๋ชจ์ ๊ณผํ์ ์ฃผ์ฅ ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๋ค.
Evaluation
์ดํ: NSF-SCIFY๋ ์ง์๊ธ ์ ์์๋ผ๋ ์๋ก์ด ์ถ์ฒ๋ก๋ถํฐ ๊ท๋ชจ ๋ฉด์์ ํ๊ธฐ์ ์ธ ๊ณผํ์ ์ฃผ์ฅ ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ์ผ๋ฉฐ, ์ฃผ์ฅ๊ณผ ์ฐ๊ตฌ ์ ์์ ๊ตฌ๋ถ ์ถ์ถ์ด๋ผ๋ ์๋ก์ด ๊ณผ์ ๋ฅผ ์ ์ํจ์ผ๋ก์จ ๊ณผํ ๊ฒ์ฆ ๋ฐ ๋ฉํ๊ณผํ ์ฐ๊ตฌ์ ์ค์ํ ์์ฐ์ ์ ๊ณตํ๋ค. ๋ค๋ง LLM ๊ธฐ๋ฐ ์ถ์ถ๊ณผ ํ๊ฐ์ ์ ๋ขฐ์ฑ ๊ฒ์ฆ์ด ๋์ฑ ๊ฐํ๋ ํ์๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
CLAIMVER๋ ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ์ ์ํ ํด์๊ฐ๋ฅํ ๊ทผ๊ฑฐ-์ถ๋ก ์ฒด๊ณ๋ก NSF-SCIFY์ ๋ฐ์ดํฐ์ธํธ ํ์ฉ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ResearchBench์ ์๊ฐ/๊ฐ์ค ๋ฒค์น๋งํน ์์
์ NSF-SCIFY์ ๊ฑฐ๋ ๊ณผํ์ ์ฃผ์ฅ ๋ฐ์ดํฐ์
์ ๊ธฐ๋ฐ ์์ค๋ก ํ์ฉํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
579 ๋
ผ๋ฌธ์ ๊ณผํ์ ์ฃผ์ฅ ์์ฑ ๋ฐ ๊ฒ์ฆ์ ์ํ ๋ฐ์ดํฐ๋ง์ด๋ ๋ฐฉ์์ ์ ์ํด 719์ LLM ๊ธฐ๋ฐ ๊ฐ์ค ์์ฑ์ ๊ธฐ์ด๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
235(Comparing knowledge sources...)์ ๋ค์ํ ์ถ์ฒ ๊ธฐ๋ฐ์ ๊ณผํ์ ์ฃผ์ฅ/ํด๋ ์ ๊ฒ์ฆ ์ ๊ทผ๋ฒ์ ์คํ์ ์ผ๋ก ๋น๊ตํ์ฌ, 579์ NSF-SCIFY๊ฐ ์ถ์ถํ ์ฃผ์ฅ ๋ฐ์ดํฐ์ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ํจ๊ป ์กฐ๋งํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋
ผ๋ฌธ ๊ด๋ จ ์
๋ฌด ์๋ ์์ฝ ๋ฐ์ดํฐ์
๊ตฌ์ถ๊ณผ ๊ฐ์ด, LLM ๊ธฐ๋ฐ ๊ณผํ์ ์ฃผ์ฅยทํ
์คํธ ๊ตฌ์กฐํ ๋ฐ ๋ฐ์ดํฐ์
ํ์ฅ ๋ฐฉ์์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciClaims๋ ๋ฐ์ด์ค๋ฉ๋์ปฌ ๋๋ฉ์ธ์์ ์๋์ ์ผ๋ก ๊ณผํ์ ์ฃผ์ฅ ์ถ์ถ ๋ฐ ๊ฒ์ฆ ์์คํ
์ ์ ์ํ์ฌ, NSF-SCIFY์ ๋ฐฉ์๊ณผ ๋น๊ต๋ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
NSF-SCIFY์ ๋๊ท๋ชจ ๊ณผํ ์ฃผ์ฅ ๋ฐ์ดํฐ์
๊ณผ ๋ฌ๋ฆฌ, SciClaimHunt๋ ์ฆ๊ฑฐ ๊ธฐ๋ฐ ๊ฒ์ฆ์ ์ด์ ์ ๋ง์ถ๋ฉฐ ๋ฐ์ดํฐ ์ฑ๊ฒฉ ๋ฐ ํ์ฉ ๋ฐฉํฅ์ด ์์ดํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
์ฆ๊ฑฐ ๊ธฐ๋ฐ ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ์์ ๋๊ท๋ชจ ์ฃผ์ฅ ๋ฐ์ดํฐ์
์ ํ์ฉํจ์ผ๋ก์จ, ํ์์ ๋ณด ํ์ง์ ์๋ฃ ํ์ฅ ์ฌ๋ก๋ก ์ฐธ๊ณ ํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
579 ๋
ผ๋ฌธ์ ๋ฏธ๊ตญ NSF ๋ฐ์ดํฐ์์ ๊ณผํ์ ์ธ์ฉ ๋คํธ์ํฌ๋ฅผ ์ถ์ถ ๋ฐ ๋ถ์ํ๋ฉฐ, 150์ ์ธ์ฉ ์ถ์ฒ ๋ฒค์น๋งํฌ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ฐ์ดํฐ ์ค์ผ์ผ์์ ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
NSF ์ ์์๋ฅผ ๋์์ผ๋ก ๋๊ท๋ชจ ๊ณผํ์ ์ฃผ์ฅ ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๋ฉฐ ํ์์ ๋ณด ๋ถ์์ ์ค์ ์ฌ๋ก๋ก ์ฐธ๊ณ ํ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
NSF-SCIFY ๋ฐ์ดํฐ์
์ ๋ดํฌ๋ ๊ณผํ์ ์ฃผ์ฅ ๊ฒ์ฆ ๋ฌธ์ ๋ฅผ LLM ๊ธฐ๋ฐ ์ฌ์ค ๊ฒ์ฆ ์์คํ
์ ์ค์ ๋ก ์ ์ฉํ๋ ์ฌ๋ก์
๋๋ค.