Essence
Figure 1:
๋ณธ ๋
ผ๋ฌธ์ ์ฐ๊ตฌ ๋
ผ๋ฌธ์์ ์๊ณ ๋ฆฌ์ฆ ์ค๋ช
์ ๊ธฐ๋ฐ์ผ๋ก ์ฝ๋๋ฅผ ์์ฑํ๋ LLM์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด SciReplicate-Bench๋ผ๋ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค. ์ด๋ ์๊ณ ๋ฆฌ์ฆ ์ดํด์ ์ฝ๋ฉ ์ ๋ฌธ์ฑ์ด๋ผ๋ ๋ ๊ฐ์ง ํต์ฌ ์ญ๋์ด ํ์ํ ๋ณตํฉ์ ์ธ ๊ณผ์ ์ด๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM์ ๊ณผํ์ ์ฌํ์ฑ ํ๊ฐ๋ผ๋ ์ค์ํ๊ณ ๋ฏธ๊ฐ์ฒ๋ ์์ญ์ ์ฒซ ๋ฒ์งธ ์ ์ฉ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ค. SciReplicate-Bench์ reasoning graph accuracy ๋ฉํธ๋ฆญ์ ํ์ ์ ์ผ๋ก ๊ฐ์น ์์ผ๋ฉฐ, ์คํ ๊ธฐ๋ฐ์ ๊ฐ๊ด์ ํ๊ฐ๋ก ๊ธฐ์กด ์ฐ๊ตฌ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ค. ๋ค๋ง ๋ฒค์น๋งํฌ ๊ท๋ชจ ํ๋์ overthinking ํ์์ ์ฌ์ธต ๋ถ์์ด ํฅํ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
AI ์์ด์ ํธ์ ์๊ณ ๋ฆฌ์ฆ ์ฌํ์ฑ๊ณผ ์คํ์๋ํ ํ๊ฐ์ ์ด์ ์ ๋ ๋ฒค์น๋งํฌ์์ ๋น๊ต๋ฅผ ํตํด ํ๊ฐ๋ฐฉ์ ์งํ๋ฅผ ๋ถ์ํ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Why AI cannot do good science without humans ๋
ผ๋ฌธ์ AI๊ฐ ์ฐ๊ตฌ ์ฌํ์ฑ ์๋ํ์์ ๊ฒช๋ ์ธ๊ฐ์ ํ๊ณ๋ฅผ ๋
ผ์ํ์ฌ, SciReplicate์ ์๊ณ ๋ฆฌ์ฆ ์ฌํ ํ๊ฐ์ ์ฐ๊ฒฐ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Evaluating large language models trained on code ๋
ผ๋ฌธ์ LLM์ด ๋
ผ๋ฌธ ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์์ ์๋ก์ด ์ฝ๋ ์์ฑ ์์
์ ํด๊ฒฐํ๋ ์ญ๋์ ์ธก์ ํ๋ ๋์์ ์ ๊ทผ์ ์ทจํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciCode๋ ๊ณผํ ์ฐ๊ตฌ์์ ์ฝ๋ ๊ตฌํ ๋ฅ๋ ฅ์ ๋ํ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์ ์ ์ํ์ฌ SciReplicate-Bench์ ์ง์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
SWE-bench๋ ์ค์ ์ํํธ์จ์ด ๊ตฌํ ๋ฐ ๋ฌธ์ ํด๊ฒฐ ๊ณผ์ ์์ LLM์ ์ฝ๋ ์์ฑ ๋ฐ ์ดํด ์ญ๋์ ํ๊ฐํ์ฌ, SciReplicate-Bench์ ์ฝ๋๊ธฐ๋ฐ ํ๊ฐ์ถ์ ๊ณต์ ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Dynamic multi-agent orchestration and retrieval ๋
ผ๋ฌธ์ ๋ค์ค ์์ด์ ํธ ๊ธฐ๋ฐ์ ๋ณต์กํ AI ์ฐ๊ตฌ ์์
์๋ํ์ ์ค์ ์ ๋๋ฉฐ, ์ฝ๋ ๊ธฐ๋ฐ ์ฌํ์ฑ ํ๊ฐ์ ์ํธ๋ณด์์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Autoreproduce ๋
ผ๋ฌธ๋ AI ๊ธฐ๋ฐ์ ์คํ ์ฌํ ์๋ํ์ ๋ฒค์น๋งํฌ ๊ตฌ์ถ์ ๋ค๋ฃจ๋ฏ๋ก, SciReplicate-Bench์ ์ ์ฌ ๊ด์ ์์ ์ ์ฑ
ยท๊ธฐ์ ์ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์์ด์ ํธ ๊ธฐ๋ฐ ํ์ ์ ์คํ ๋ฐ ๊ฐํํ์ต ์ค๋ ฅ ํ๊ฐ๋ฅผ ๋ค๋ฃจ์ด, ์นํ๊ฒฝ ๊ธฐ๋ฐ ์์ด์ ํธ์ ์ค์ ์ ์ฉ ์์์ ์ฑ๋ฅ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ธ์ด ๋ชจ๋ธ์ ์ฝ๋ ์ถ๋ก ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์ ์ฌํ ๋ฒค์น๋งํฌ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋
ผ๋ฌธ์ผ๋ก๋ถํฐ ์ฝ๋๋ฅผ ์๋์ผ๋ก ์์ฑํ๋ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ์์ ๋ค๋ฃจ๋ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
์ค๋ฏน์ค ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์์
์์ AI ๊ณผํ์ ๋ฒค์น๋งํฌ๋ก ๋ฐ์ด์คํ
์คํธ ๋ง์ด๋ ๋ฐ BioBERT ํ์ฉ ์ฌ๋ก๊ฐ ๋ฒ์ฉ ๋ชจ๋ธ ํ๊ฐ์ ์ง๊ฒฐ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Exp-bench๋ AI๊ฐ ์์ ์ข
๋ฃํ ์ฐ๊ตฌ ์คํ์ ์ํํ ์ ์๋์ง๋ฅผ ํ๊ฐํ๋ฏ๋ก, SciReplicate-Bench์ ์๊ณ ๋ฆฌ์ฆ ์ฌํํ๊ฐ๋ฅผ ํ์ฅํ ์ฌ๋ก์ด๋ค.
ํ์ ์ฐ๊ตฌ
SciReplicate-Bench๋ ์๊ณ ๋ฆฌ์ฆ์ ์ฌํ ์คํ์ ๋ฒค์น๋งํฌํํ์ฌ, ๋์ ์ธ๊ณผ ์ถ๋ก ์ฐ๊ตฌ ์๋ํ ์์คํ
์ ๊ฐ๊ด์ ํ๊ฐ ๋ฐ ํ์ฅ์ ์ฐธ๊ณ ํ ๋งํฉ๋๋ค.
์์ฉ ์ฌ๋ก
Towards LLM-based Fact Verification on News Claims ๋
ผ๋ฌธ์์ ๋จ๊ณ์ ํ๋กฌํํธ ๊ธฐ๋ฐ ์ฆ๊ฑฐ ๊ฒ์ฆ ๋ฐฉ์์ ํ์ฉํ์ฌ ๋
ผ๋ฌธ ์๊ณ ๋ฆฌ์ฆ ์ฌํ ํ๊ฐ ๋ฐฉ์์๋ ์๊ฐ์ ์ค ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
617(Phi-4)์ฒ๋ผ LLM์ STEM/์คํ ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ 731(SciReplicate-Bench)์ ์ค์ ์คํ์ ๋ณต์ ์ฑ ๊ฒ์ฆ์ LLM์ ์ ์ฉํ ๊ตฌ์ฒด์ ์ฌ๋ก์
๋๋ค.