์ ์: Li, Yifei, Moussa, Hanane Nour, Chen, Ziru, Chen, Shijie, Yu, Botao et al. (The Ohio State University, Cisco Research, University of WisconsinโMadison) | ๋ ์ง: 2025 | DOI: arXiv:2506.08140 📄 PDF
Essence
AutoSDT-Coder-32B๊ฐ ScienceAgentBench์์ GPT-4o์ ๋๋ฑํ ์ฑ๋ฅ(7.8% SR) ๋ฌ์ฑ
LLM์ ์ฝ๋ฉ ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ์๋์ผ๋ก ๊ณ ํ์ง ๋ฐ์ดํฐ ์ฃผ๋ํ ๋ฐ๊ฒฌ(data-driven discovery) ํ์คํฌ 5,404๊ฐ๋ฅผ ์์งํ AutoSDT ํ์ดํ๋ผ์ธ์ ์ ์ํ๊ณ , ์ด๋ฅผ ํตํด ๊ตฌ์ถํ ๋ฐ์ดํฐ์
์ผ๋ก ๋ฏธ์ธ์กฐ์ ํ ๋ชจ๋ธ์ด ๊ธฐ์กด ์คํ ๊ฐ์ค์น ๋ชจ๋ธ ๋๋น ๋ํญ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ค.
How
AutoSDT-5K์ ๋ค๋จ๊ณ ํ์คํฌ ๋ถํฌ ๋ฐ ํ๋ฌธ ๋ถ์ผ๋ณ ๊ตฌ์ฑ
AutoSDT-Search (์์ค ํ์)
- ์ฌ์ฉ์ ์ ๊ณต ์ด๊ธฐ ํค์๋(์: "bioinformatics")๋ฅผ LLM ๊ธฐ๋ฐ ์ฟผ๋ฆฌ ์ฆ๊ฐ์ผ๋ก ํ์ฅ
- GitHub์ PapersWithCode API๋ฅผ ์ด์ฉํ ์ ์ฅ์ ๊ฒ์
- README.md ๊ธฐ๋ฐ LLM ํ๋จ์ผ๋ก ์ฐ๊ตฌ ๊ด๋ จ ์ ์ฅ์ ํํฐ๋ง
- ํค์๋ "neuroscience" ์ฌ๋ก: ๋จ๋
์ฌ์ฉ ์ 332๊ฐ โ ํ์ฅ ํ 693๊ฐ ์ ์ฅ์ ๋ฐ๊ฒฌ
AutoSDT-Select (ํ๋ก๊ทธ๋จ ์ ํ)
- Python ํ์ผ ์๋ ์ถ์ถ ๋ฐ ๊ท์น ๊ธฐ๋ฐ ํํฐ๋ง(1,000์ค ์ด๊ณผ ์ ์ธ, 'config'/'tests' ๋๋ ํ ๋ฆฌ ์ ์ธ)
- LLM์ ํ์ฉํ ๋ฐ์ดํฐ ์ฃผ๋ํ ๊ณผํ ์ฝ๋ ํ์ : (1) ๊ณผํ ์ํฌํ๋ก์ฐ ๊ด๋ จ์ฑ, (2) ๋ฐ์ดํฐ์
์
๋ ฅ ์ฌ์ฉ ์ฌ๋ถ, (3) ์์น ๊ฒฐ๊ณผ/์ฒ๋ฆฌ ๋ฐ์ดํฐ/์๊ฐํ ์ถ๋ ฅ ์์ฑ ํ์ธ
- ์์กด์ฑ ์๋ ์ถ์ถ ๋ฐ ์์
๊ณต๊ฐ ์ค๋น: ํ๊ท 264.98MBโ40.42MB ํฌ๊ธฐ ๊ฐ์ถ
AutoSDT-Adapt (ํ๋ก๊ทธ๋จ ์ ์ ๋ฐ ์ง์๋ฌธ ์์ฑ)
- 3๋จ๊ณ ํ๋ก๊ทธ๋จ ์ ์: (1) Claude-3.5-Sonnet์ ํตํ ์ด๊ธฐ ์ ์(import/IO/๊ฒฝ๋ก ์์ ), (2) pipreqs๋ก ์์กด์ฑ ์ถ์ถ ๋ฐ conda ํ๊ฒฝ ๊ตฌ์ฑ, (3) ์ต๋ 3ํ ๋ฐ๋ณต ์๋ ๋๋ฒ๊น
- ์คํ ์ค๋ฅ ์ง์ ์ ํ๊ธฐ
- ์ญ๋ฒ์ญ(back-translation)์ ํตํ ์๋ ์ง์๋ฌธ ์์ฑ: ์ ์๋ ํ๋ก๊ทธ๋จโ๋ช
ํํ ํ์คํฌ ์ค๋ช
Evaluation
Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 5/5 Clarity: 4/5 Overall: 4.5/5
์ดํ: AutoSDT๋ LLM ์๋ํ๋ก ๊ณ ํ์ง ๊ณผํ ํ์คํฌ ๋ฐ์ดํฐ์ ์์ง ๋ณ๋ชฉ์ ํ์ ์ ์ผ๋ก ํด๊ฒฐํ๊ณ , ๊ตฌ์ถํ ๋ฐ์ดํฐ์
์ผ๋ก ์คํ ๊ฐ์ค์น ๋ชจ๋ธ์ด ํ์ํ ๋ชจ๋ธ ์์ค ์ฑ๋ฅ ๋๋ฌ์ ์ค์ฆํจ์ผ๋ก์จ ๊ฐ๋ฐฉ์ AI ๊ณผํ์ ์๋์ ๋ฌผ์ ํ ๋๋ฅผ ๋ง๋ จํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
AutoSDT์ ๊ณ ํ์ง ๋ฐ์ดํฐ ์ฃผ๋ ๋ฐ๊ฒฌ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ์ด Data Interpreter์ ๋์ ์ํฌํ๋ก์ฐ ๋ชจ๋ธ๋ง๊ณผ ์์ฐ์ค๋ฝ๊ฒ ์ด์ด์ง๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ์ ๋ฐ๊ฒฌ์ ์ํ LLM ์์ด์ ํธ์ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ์ ์ง์ ๋ฐ๊ฒฌ์ ์ํ LLM ์์ด์ ํธ ์์คํ
์ ์ด๋ก ์ ํ ๋์ ๋ค์ํ ํ์ฉ ์ฌ๋ก๋ฅผ ๋ค๋ฃจ๊ณ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ํ๋ ๊ณผํ ๋ฐ๊ฒฌ ํ์คํฌ ๊ตฌ์ถ์ ์ํ ์ ์ฌํ ๋ฐ์ดํฐ์
๊ตฌ์ถ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ฝ๋ฉ ๋ฅ๋ ฅ์ ํ์ฉํ ๋ฐ์ดํฐ ๊ณผํ ํ์คํฌ ์๋ํ์ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์ฝ๋ ์์ฑ ๋ฐ ๋ฐ์ดํฐ ๋ถ์ ์๋ํ์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฐ์ดํฐ ์ฃผ๋ํ ๊ณผํ ๋ฐ๊ฒฌ ์๋ํ๋ฅผ ์ํ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ์์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฐ์ดํฐ ํด์ํ ์๋ํ ๊ธฐ๋ฐ ๋๊ท๋ชจ LLM ์์ด์ ํธ๋ฅผ ํ์ฉํ ๋ฐ์ดํฐ ๋ถ์ ์๋ํ ์ฌ๋ก๋ก, ์ ์ฌ ๋ฌธ์ ์ ๋ค์ํ ์ ๊ทผ์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
704 ๋
ผ๋ฌธ๊ณผ ๊ฐ์ด ๊ณผํ ์๋ํ์์ ๋ค๋จ๊ณ ๊ณผํ ์ํฌํ๋ก์ฐ๋ฅผ ๋ค๋ฃจ์ง๋ง, 146์ ๋ค์ํ ์คํ ๊ณผํ์ ๋ฐ๊ฒฌ ์์
์ ์ด์ ์ ๋ง์ถ๋ค๋ ์ ์์ ์ ๊ทผ ๋ฐฉ์์ด ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ณผํ์ ๋ฐ๊ฒฌ์ ์ํ ์๋ ํฌ ์๋ ์คํ ๋ฉ์ด์
ํ๋ ์์ํฌ๋ก ๋์ ์์คํ
๋ฐ๊ฒฌ ์๋ํ๋ผ๋ ์ ์ฌ ๋ชฉํ๋ฅผ ๊ณต์ ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Co-Scientist๋ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ณผํ์ ๋ฐ๊ฒฌ์ ๋ค์ค LLM์์ด์ ํธ์ ํ ๋๋จผํธ ๊ตฌ์กฐ๋ก ์ถ์งํ๋ ๋ฐฉ์์ผ๋ก, AutoSDT์ ๋ฌธ์ ์์๊ณผ ์ ๊ทผ๋ฒ์ด ๋ค๋ฅด๋ค.
ํ์ ์ฐ๊ตฌ
AutoSDT์ ์๋ํ๋ ๋ฐ์ดํฐ ๊ณผํ ๋ฐ๊ฒฌ ํ์ดํ๋ผ์ธ๊ณผ Data Interpreter์ LLM ๊ธฐ๋ฐ ์๋ ํฌ ์๋ ๋ฐ์ดํฐ ์ํฌํ๋ก์ฐ ๊ด๋ฆฌ๊ฐ ์ํธ ๋ณด์๋๋ค.
์์ฉ ์ฌ๋ก
๊ธฐ๊ณํ์ต ํฌํ
์
์ ์ ๋ขฐ ๊ตฌ๊ฐ ์ถ๋ก ์ ์ค์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ผ๋ก ๊ฒ์ฆํ๋ ์ฌ๋ก๋ก, eยฒIP์ ๋ถํ์ค์ฑ ๋ชจ๋ธ๊ฐ ํด์์ ์ฐธ๊ณ ๊ฐ ๋ฉ๋๋ค.