Autoreproduce: Automatic AI Experiment Reproduction with Paper Lineage
์ ์: Xuanle Zhao, Zilin Sang, Yuxuan Li, Qi Shi, Wei Zhao | ๋ ์ง: 2025 | DOI: arXiv:2505.20662v2 📄 PDF
Essence
Figure 1: The paper content, instructions and data processing code (if necessary) are provided for each
๋ณธ ๋
ผ๋ฌธ์ ์ฐ๊ตฌ ๋
ผ๋ฌธ์ ์คํ์ ์๋์ผ๋ก ์ฌํํ๊ธฐ ์ํด paper lineage ์๊ณ ๋ฆฌ์ฆ๊ณผ multi-agent ํ๋ ์์ํฌ์ธ AUTOREPRODUCE๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ๋ถ๋ถ์ ์ธ ์์
๋ง ์๋ํํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, ๋ณธ ๋ฐฉ์์ end-to-end ์คํ ์ฌํ์ ์ํํ๋ฉฐ ์์ฑ๋ ์ฝ๋์ ์คํ์ฑ๊น์ง ๊ฒ์ฆํ๋ค.
Motivation
- Known: LLM์ ํ์ฉํ ๋จธ์ ๋ฌ๋ ์ํฌํ๋ก์ฐ ์๋ํ๋ ๋ฐ์ดํฐ ์์ง๋์ด๋ง, ๋ชจ๋ธ ์ ํ, ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ ๋ฑ ์ด์ฐ์ ์ธ ์์
๋จ๊ณ์ ์ง์คํด์๋ค. ๋ํ ์ฝ๋ ์์ฑ์ ์ํ ๋ค์ค ์์ด์ ํธ ํ๋ ์์ํฌ ์ฐ๊ตฌ๋ ์งํ ์ค์ด๋, ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๋
ผ๋ฌธ์ ๋ช
์๋์ง ์์ ์๋ฌต์ ๋๋ฉ์ธ ์ง์์ ๋ถ์ฌ ๋ฌธ์ ๊ฐ ์๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ์คํ์ ํน์ ๋จ๊ณ๋ง ์๋ํํ๊ฑฐ๋ ์์ฑ๋ ์ฝ๋์ ์คํ ๊ฐ๋ฅ์ฑ์ ๊ฒ์ฆํ์ง ์๋๋ค. ๋ํ ๋
ผ๋ฌธ์ ๋ช
์๋์ง ์์ ์๋ฌต์ ๋๋ฉ์ธ ์ง์(์: ๊ตฌ์ฒด์ ๋ชจ๋ ์ํคํ
์ฒ, ๋ฐ์ดํฐ ์ฒ๋ฆฌ ํ์ดํ๋ผ์ธ)์ ์ด๋ป๊ฒ ํ์ฉํ ์ง์ ๋ํ ์ฒด๊ณ์ ์ ๊ทผ์ด ๋ถ์ฌํ๋ค.
- Why: AI ์คํ์ ์ฌํ์ฑ์ ์ฐ๊ตฌ ์งํ์ ๊ฐ์ํํ๋ ๋ฐ ์ค์ํ์ง๋ง, ๋ฐฉ๋ฒ ์ค๊ณ์ ๋ณต์ก์ฑ๊ณผ ๋๋ฉ์ธ ํนํ ์ง์์ ํ์์ฑ์ผ๋ก ์ธํด ์๋ํ๊ฐ ์ด๋ ต๋ค. ๋
ผ๋ฌธ์ ์๋ฌต์ ์ง์์ ์ถ์ถํ๊ณ end-to-end ์๋ ์ฌํ์ ๋ฌ์ฑํ๋ ๊ฒ์ AI ์ฐ๊ตฌ์ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
- Approach: AUTOREPRODUCE๋ three-stage ํ์ดํ๋ผ์ธ์ผ๋ก ๊ตฌ์ฑ๋๋ค: (1) Literature Review: ์ฐ๊ตฌ ์์ด์ ํธ๊ฐ PDF๋ฅผ Mineru๋ก ๋ณํํ์ฌ ๋
ผ๋ฌธ ๋ด์ฉ์ ์์ฝ, (2) Paper Lineage: ์ธ์ฉ ๊ด๊ณ์ ์ฝ๋ ์ ์ฅ์ ๋ถ์์ ํตํด ์๋ฌต์ ๋๋ฉ์ธ ์ง์ ์ถ์ถ, (3) Code Development: ์ฝ๋ ์์ด์ ํธ๊ฐ batch sampling์ ํตํ ๋จ์ ํ
์คํธ์ ํจ๊ป ์คํ ๊ฐ๋ฅํ ์ฝ๋ ์์ฑ. ์ฐ๊ตฌ ์์ด์ ํธ์ ์ฝ๋ ์์ด์ ํธ์ ํ๋ ฅ์ผ๋ก ์คํ๋๋ค.
Achievement
Figure 1: The paper content, instructions and data processing code (if necessary) are provided for each
๊ธฐ์ ์ ์ฑ๊ณผ: AUTOREPRODUCE๋ REPRODUCEBENCH์ 5๊ฐ ํ๊ฐ ์งํ ์ ์ฒด์์ ๊ธฐ์กด agent baseline์ ์ต๋ 70% ์ด์ ์ด๊ณผ ๋ฌ์ฑ. ์คํ ์ฑ๊ณผ: ๊ณต์ ๊ตฌํ๊ณผ ๋น๊ตํ์ฌ 89.74%์ ์คํ ๊ฐ๋ฅํ ์คํ์์ ํ๊ท 22.1%์ ์ฑ๋ฅ ๊ฒฉ์ฐจ๋ง ๋ฐ์. ํ๊ฐ ์ฒด๊ณ: 13๊ฐ ๋
ผ๋ฌธ์ ํฌํจํ REPRODUCEBENCH์ ์ฌํ ๋ฐ ์คํ ์ถฉ์ค๋๋ฅผ ํ๊ฐํ๋ ๋ค์ธต ์งํ ๋์
.
How
Figure 1: The paper content, instructions and data processing code (if necessary) are provided for each
โข Paper lineage ์๊ณ ๋ฆฌ์ฆ: ์ธ์ฉ ๊ทธ๋ํ์ ๊ด๋ จ ์ฝ๋ ์ ์ฅ์๋ฅผ ๋ถ์ํ์ฌ ๋๋ฉ์ธ ํนํ ํฉ์์ ๊ตฌํ ๊ดํ ์๋ณ
โข ์ธ ๋จ๊ณ ์์ฝ ํ๋ก์ธ์ค: ์ ์ฒด ๋ด์ฉ ์์ฝ โ ๋ฐฉ๋ฒ ์์ธ โ ์คํ ์ค์ ์์ผ๋ก ์ ๋ณด ์ถ์ถ
โข Mineru ๊ธฐ๋ฐ PDF ์ฒ๋ฆฌ: ์์, ํ
์ด๋ธ ๋ฑ ์ค์ ์ ๋ณด ๋ณด์กด
โข ๋จ์ ํ
์คํธ ์์ฑ: batch sampling์ ํตํด ์ฝ๋ ์คํ์ฑ ๊ฒ์ฆ
โข ๋ค์ค ์์ด์ ํธ ํ๋ ฅ: ์ฐ๊ตฌ ์์ด์ ํธ(ํ
์คํธ ์์
)์ ์ฝ๋ ์์ด์ ํธ(์ฝ๋ ์์
) ์ญํ ๋ถ๋ด
Originality
โข Paper lineage ๊ฐ๋
์ ๋์
: ์ธ์ฉ ๊ด๊ณ ๊ธฐ๋ฐ ์๋ฌต์ ๋๋ฉ์ธ ์ง์ ์ถ์ถ ๋ฐฉ์์ ์๋ก์ด ์ ๊ทผ๋ฒ
โข End-to-end ์๋ ์ฌํ ํ๋ ์์ํฌ: ๊ธฐ์กด์ ๋ถ๋ถ์ ์๋ํ๋ฅผ ๋์ด ์ ์ฒด ํ์ดํ๋ผ์ธ ๊ตฌ์ถ
โข ์คํ์ฑ ๊ฒ์ฆ ํฌํจ: ์ฝ๋์ ์์ฑ๋ฟ๋ง ์๋๋ผ ์คํ ๊ฐ๋ฅ์ฑ๊ณผ ์ถฉ์ค๋ ํ๊ฐ ๋ฉ์ปค๋์ฆ ์ถ๊ฐ
โข ํฌ๊ด์ ํ๊ฐ ๋ฒค์น๋งํฌ: 13๊ฐ ๋
ผ๋ฌธ์ ์๋ ๊ฒ์ฆ๋ ์ฐธ์กฐ ์ฝ๋์ ๋ค์ธต ์งํ๋ก ๊ตฌ์ฑ
Limitation & Further Study
โข ๋ฒค์น๋งํฌ ๊ท๋ชจ: 13๊ฐ ๋
ผ๋ฌธ๋ง ํฌํจ๋์ด ๋ค์ํ AI ๋๋ฉ์ธ์ ๋ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์ ํ์
โข Paper lineage์ ๋ฒ์: ์ธ์ฉ ๊ด๊ณ ๋ถ์์ด ๋งค์ฐ ๊น์ ๋๋ฉ์ธ ์ง์(์: ํน์ ๋ถ์ผ์ ๋น๊ณต์ ๊ด๋ก)์ ๋ชจ๋ ํฌํจํ์ง ๋ชปํ ๊ฐ๋ฅ์ฑ
โข ์ฝ๋ ํ์ง ํ๊ฐ: 22.1% ์ฑ๋ฅ ๊ฒฉ์ฐจ๋ ์ฌ์ ํ ์๋นํ๋ฉฐ, ํน์ ๋ณต์กํ ๊ตฌํ์์์ ํ๊ณ ๋ฏธ๊ฒํ
โข ํ์ ์ฐ๊ตฌ: (1) ๋ ํฐ ๊ท๋ชจ์ ๋
ผ๋ฌธ ์งํฉ์ผ๋ก ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฒ์ฆ, (2) ํน์ ๋๋ฉ์ธ์ ๋ํ paper lineage ๋ฐฉ๋ฒ์ ์ต์ ํ, (3) ์ฑ๋ฅ ๊ฒฉ์ฐจ ๊ฐ์๋ฅผ ์ํ ์ถ๊ฐ ์ธ๋ฐ ์กฐ์ ๋ฉ์ปค๋์ฆ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ paper lineage๋ผ๋ ํ์ ์ ๊ฐ๋
๊ณผ multi-agent ๊ธฐ๋ฐ์ end-to-end ์คํ ์ฌํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ AI ์ฐ๊ตฌ์ ์ฌํ์ฑ ๋ฌธ์ ๋ฅผ ์ค์ง์ ์ผ๋ก ํด๊ฒฐํ๋ ค๋ ๊ฐ์น ์๋ ์๋์ด๋ค. ์คํ์ฑ ๊ฒ์ฆ์ ํฌํจํ ํฌ๊ด์ ํ๊ฐ ๋ฐฉ์๊ณผ ์ฐ์ํ ์คํ ๊ฒฐ๊ณผ๊ฐ ๊ฐ์ ์ด๋, ๋ฒค์น๋งํฌ ๊ท๋ชจ์ ๋๋ฉ์ธ ์ผ๋ฐํ ๋ฅ๋ ฅ ์ธก๋ฉด์์ ๊ฐ์ ์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
581์ ๋๊ท๋ชจ ์ฐ๊ตฌ ๊ด๋ จ ๋ฐ์ดํฐ์
์ 145์ ๋
ผ๋ฌธ ๊ณ๋ณด ๊ธฐ๋ฐ ์๋ํ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Deep Research Agent์ ํ๊ฐ ํ๋ ์์ํฌ ์ค๊ณ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
145๋ LLM์ ๊ตฌ์กฐ์ ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ๋ฅผ ์ํ ์ด๋ก ์ ยท๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ์ฌ GraphInstruct ์ค๊ณ์ ํ์ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
145๋ฒ ๋
ผ๋ฌธ์ AI ๊ธฐ๋ฐ ์คํ ์ฌํ ์๋ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํด, 925๋ฒ ์ฌํ์ฑ ์๊ธฐ ํ์์ ๋ํ ์๋ฃจ์
์ ์๊ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Autokaggle ๋
ผ๋ฌธ์ ์๋ ์ฌํ/์คํ ์ธํ
์๋ํ์ ์ด์ ์ ๋ง์ถ๋ ๋ฐฉ๋ฒ๋ก ์ผ๋ก, paper-lineage ๋์ workflow ์ค์ฌ์ผ๋ก ์ ๊ทผํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ์ฐ๊ตฌ ๋
ผ๋ฌธ์ ์๋ ์ฌํ ๋ฐ ์ฝ๋ ์์ฑ์ ์ํ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ์์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ์ ๋
ผ๋ฌธ ๊ตฌํ ์๋ํ๋ฅผ ์ํ LLM ๊ธฐ๋ฐ ์์คํ
์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
326๋ฒ ๋
ผ๋ฌธ์ AI ์ฐ๊ตฌ์์
์ ์๋ํ ๊ฐ๋ฅ์ฑ์ ์คํ์ ๊ด์ ์์ ๊ฒ์ฆํ๋ฏ๋ก 145๋ฒ์ ๋
ผ๋ฌธ ๊ณ๋ณด ๊ธฐ๋ฐ ์๋ ์ฌํ ์์คํ
๊ณผ ์ฌ์ธต์ ์ผ๋ก ๋์กฐํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๊ธฐ๋ฐ ๊ณผํ ์คํ ์ฌํ ์๋ํ์ ๊ดํ ์ฐ๊ตฌ๋ก, ์ง์์๋ต(QA)์ด ์๋ ๋ณต์กํ ์คํ์ ๊ณผํ์ ์์
์ ์ ๋ขฐ์ฑ๊ณผ ๊ฒ์ฆ ๊ฐ๋ฅ์ฑ ๊ด์ ์์ ๋๊ตฌ(MedBioLM) ์ ๊ทผ์ ๋ณด์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋
ผ๋ฌธ์ผ๋ก๋ถํฐ ์คํ ๊ฐ๋ฅํ ์ฝ๋๋ฅผ ์๋ ์์ฑํ๋ ์ ์ฌํ ๋ชฉํ์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ์คํ ์ฌํ์ฑ ๋ฐ ์๋ํ ์ฝ๋ ์์ฑ์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ธ์ฉ ๊ด๊ณ ๋ถ์๊ณผ ์ฝ๋ ์ฌํ์ ์ฐ๊ฒฐํ๋ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ์์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
698์ ๋๊ท๋ชจ ์คํ์ ์ฌํ์ฑ ๋ณด์ฅ์ ์ํ AI ์ง์ ์ํฌํ๋ก์ฐ๋ฅผ ์ ์ํ๋ฉฐ, 145์ ์๋ ์ฌํ ํ๋ ์์ํฌ์ ๋์กฐ์ ์ผ๋ก ํ์ค์ ์ ์ฉ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค.
ํ์ ์ฐ๊ตฌ
828์ AI ์ฐ๊ตฌ์ End-to-End ์๋ํ๋ก ํ์ฅํ๋ ๋ฐฉ์์ ์ ์ํ์ฌ, 145์ ์๋ ์คํ ์ฌํ์ ๋ ํฌ๊ด์ ์ธ ์ฐ๊ตฌ ์๋ํ๋ก ๋ฐ์ ์ํจ๋ค.
์์ฉ ์ฌ๋ก
594๋ฒ ๋
ผ๋ฌธ์ ๋ชจ๋ธ์ค๊ณ ์๋ํ์์ LLM ๊ธฐ๋ฐ ์์ด์ ํธ ํ์ฉ ์ค์ฆ์ ๋ณด์ฌ์ฃผ์ด, 145๋ฒ์ ์คํ ๋จ์ ๋ฐ๋ณต์ฑ์ ์ค์ง์ ํ์ ๊ณผ ํตํฉํ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
145 ๋
ผ๋ฌธ์ ๋
ผ๋ฌธ ๊ณ๋ณด๋ฅผ ํ์ฉํ ์๋ํ AI ์คํ ์ฌํ์ ๊ตฌ์ฒด์ ์ฌ๋ก๋ก, 2199๋ฒ์์ ์ฃผ์ฅํ๋ foundation model ๊ธฐ๋ฐ ๊ณผํ ํจ๋ฌ๋ค์ ํ์ ์ ์ค์ฆ์ ์ผ๋ก ๋ณด์ฌ์ค๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์