AutoSDT: Scaling Data-Driven Discovery Tasks Toward Open Co-Scientists

์ €์ž: Li, Yifei, Moussa, Hanane Nour, Chen, Ziru, Chen, Shijie, Yu, Botao et al. (The Ohio State University, Cisco Research, University of Wisconsinโ€“Madison) | ๋‚ ์งœ: 2025 | DOI: arXiv:2506.08140 📄 PDF


Essence

Figure 1

AutoSDT-Coder-32B๊ฐ€ ScienceAgentBench์—์„œ GPT-4o์™€ ๋™๋“ฑํ•œ ์„ฑ๋Šฅ(7.8% SR) ๋‹ฌ์„ฑ

LLM์˜ ์ฝ”๋”ฉ ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•˜์—ฌ ์ž๋™์œผ๋กœ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ์ฃผ๋„ํ˜• ๋ฐœ๊ฒฌ(data-driven discovery) ํƒœ์Šคํฌ 5,404๊ฐœ๋ฅผ ์ˆ˜์ง‘ํ•œ AutoSDT ํŒŒ์ดํ”„๋ผ์ธ์„ ์ œ์‹œํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ๊ตฌ์ถ•ํ•œ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋ฏธ์„ธ์กฐ์ •ํ•œ ๋ชจ๋ธ์ด ๊ธฐ์กด ์˜คํ”ˆ ๊ฐ€์ค‘์น˜ ๋ชจ๋ธ ๋Œ€๋น„ ๋Œ€ํญ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

Motivation

Achievement

Figure 2

AutoSDT ํŒŒ์ดํ”„๋ผ์ธ: Searchโ†’Selectโ†’Adapt 3๋‹จ๊ณ„ ๊ตฌ์„ฑ

  1. AutoSDT-5K ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: 5,404๊ฐœ์˜ ๋ฐ์ดํ„ฐ ์ฃผ๋„ํ˜• ๋ฐœ๊ฒฌ ํƒœ์Šคํฌ ์ž๋™ ์ˆ˜์ง‘, 4๊ฐœ ํ•™๋ฌธ ๋ถ„์•ผ(์ƒ๋ฌผ์ •๋ณดํ•™, ์ „์‚ฐํ™”ํ•™, ์ง€๋ฆฌ์ •๋ณด๊ณผํ•™, ์‹ฌ๋ฆฌํ•™/์ธ์ง€์‹ ๊ฒฝ๊ณผํ•™)์™€ 756๊ฐœ์˜ ๊ณ ์œ  Python ํŒจํ‚ค์ง€ ํฌํ•จ, ํƒœ์Šคํฌ๋‹น ํ‰๊ท  $0.55 ๋น„์šฉ
  2. ๋†’์€ ํ’ˆ์งˆ ๊ฒ€์ฆ: ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€ 9๋ช…(๋ฐ•์‚ฌ๊ณผ์ •์ƒ ๋ฐ ๊ต์ˆ˜)์ด 256๊ฐœ ํƒœ์Šคํฌ ํ‰๊ฐ€ ๊ฒฐ๊ณผ โ€” 93%์˜ ๊ณผํ•™์  ์ง„์ •์„ฑ(ecological validity) ํ™•์ธ, 92.2%์˜ ์ƒ์„ฑ ์ฝ”๋“œ ์ •ํ™•์„ฑ ๋‹ฌ์„ฑ
  3. ํ˜„์ €ํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ:
    • ScienceAgentBench: AutoSDT-Coder-32B๊ฐ€ GPT-4o(2024-05-13)์™€ ๋™๋“ฑํ•œ 7.8% SR ๋‹ฌ์„ฑ (๊ธฐ๋ณธ ๋ชจ๋ธ 3.9% ๋Œ€๋น„ 2๋ฐฐ)
    • DiscoveryBench: ๊ฐ€์„ค ๋งค์นญ ์ ์ˆ˜ 6.9โ†’8.1๋กœ 17.4% ์ƒ๋Œ€ ๊ฐœ์„ , GPT-4o์™€์˜ ๊ฒฉ์ฐจ ์ถ•์†Œ

How

Figure 3

AutoSDT-5K์˜ ๋‹ค๋‹จ๊ณ„ ํƒœ์Šคํฌ ๋ถ„ํฌ ๋ฐ ํ•™๋ฌธ ๋ถ„์•ผ๋ณ„ ๊ตฌ์„ฑ

AutoSDT-Search (์†Œ์Šค ํƒ์ƒ‰)

AutoSDT-Select (ํ”„๋กœ๊ทธ๋žจ ์„ ํƒ)

AutoSDT-Adapt (ํ”„๋กœ๊ทธ๋žจ ์ ์‘ ๋ฐ ์ง€์‹œ๋ฌธ ์ƒ์„ฑ)

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.5/5 Significance: 5/5 Clarity: 4/5 Overall: 4.5/5

์ดํ‰: AutoSDT๋Š” LLM ์ž๋™ํ™”๋กœ ๊ณ ํ’ˆ์งˆ ๊ณผํ•™ ํƒœ์Šคํฌ ๋ฐ์ดํ„ฐ์˜ ์ˆ˜์ง‘ ๋ณ‘๋ชฉ์„ ํ˜์‹ ์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๊ณ , ๊ตฌ์ถ•ํ•œ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์˜คํ”ˆ ๊ฐ€์ค‘์น˜ ๋ชจ๋ธ์ด ํ์‡„ํ˜• ๋ชจ๋ธ ์ˆ˜์ค€ ์„ฑ๋Šฅ ๋„๋‹ฌ์„ ์‹ค์ฆํ•จ์œผ๋กœ์จ ๊ฐœ๋ฐฉ์  AI ๊ณผํ•™์ž ์‹œ๋Œ€์˜ ๋ฌผ์  ํ† ๋Œ€๋ฅผ ๋งˆ๋ จํ•œ ์˜๋ฏธ ์žˆ๋Š” ์—ฐ๊ตฌ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AutoSDT์˜ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ์ฃผ๋„ ๋ฐœ๊ฒฌ ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์ถ•์ด Data Interpreter์˜ ๋™์  ์›Œํฌํ”Œ๋กœ์šฐ ๋ชจ๋ธ๋ง๊ณผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ด์–ด์ง„๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ LLM ์—์ด์ „ํŠธ์˜ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์  ์ง€์‹ ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ LLM ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์˜ ์ด๋ก ์  ํ† ๋Œ€์™€ ๋‹ค์–‘ํ•œ ํ™œ์šฉ ์‚ฌ๋ก€๋ฅผ ๋‹ค๋ฃจ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž๋™ํ™”๋œ ๊ณผํ•™ ๋ฐœ๊ฒฌ ํƒœ์Šคํฌ ๊ตฌ์ถ•์„ ์œ„ํ•œ ์œ ์‚ฌํ•œ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์ฝ”๋”ฉ ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ํƒœ์Šคํฌ ์ž๋™ํ™”์˜ ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ž๋™ํ™”์˜ ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐ์ดํ„ฐ ์ฃผ๋„ํ˜• ๊ณผํ•™ ๋ฐœ๊ฒฌ ์ž๋™ํ™”๋ฅผ ์œ„ํ•œ ์œ ์‚ฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐ์ดํ„ฐ ํ•ด์„ํ˜• ์ž๋™ํ™” ๊ธฐ๋ฐ˜ ๋Œ€๊ทœ๋ชจ LLM ์—์ด์ „ํŠธ๋ฅผ ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ž๋™ํ™” ์‚ฌ๋ก€๋กœ, ์œ ์‚ฌ ๋ฌธ์ œ์˜ ๋‹ค์–‘ํ•œ ์ ‘๊ทผ์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
704 ๋…ผ๋ฌธ๊ณผ ๊ฐ™์ด ๊ณผํ•™ ์ž๋™ํ™”์—์„œ ๋‹ค๋‹จ๊ณ„ ๊ณผํ•™ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ, 146์€ ๋‹ค์–‘ํ•œ ์˜คํ”ˆ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ์ž‘์—…์— ์ดˆ์ ์„ ๋งž์ถ˜๋‹ค๋Š” ์ ์—์„œ ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ ์—”๋“œ ํˆฌ ์—”๋“œ ์˜คํ† ๋ฉ”์ด์…˜ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๋™์  ์‹œ์Šคํ…œ ๋ฐœ๊ฒฌ ์ž๋™ํ™”๋ผ๋Š” ์œ ์‚ฌ ๋ชฉํ‘œ๋ฅผ ๊ณต์œ ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Co-Scientist๋Š” ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ๋‹ค์ค‘ LLM์—์ด์ „ํŠธ์™€ ํ† ๋„ˆ๋จผํŠธ ๊ตฌ์กฐ๋กœ ์ถ”์ง„ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, AutoSDT์™€ ๋ฌธ์ œ์˜์‹๊ณผ ์ ‘๊ทผ๋ฒ•์ด ๋‹ค๋ฅด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AutoSDT์˜ ์ž๋™ํ™”๋œ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ๋ฐœ๊ฒฌ ํŒŒ์ดํ”„๋ผ์ธ๊ณผ Data Interpreter์˜ LLM ๊ธฐ๋ฐ˜ ์—”๋“œ ํˆฌ ์—”๋“œ ๋ฐ์ดํ„ฐ ์›Œํฌํ”Œ๋กœ์šฐ ๊ด€๋ฆฌ๊ฐ€ ์ƒํ˜ธ ๋ณด์™„๋œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ธฐ๊ณ„ํ•™์Šต ํฌํ…์…œ์˜ ์‹ ๋ขฐ ๊ตฌ๊ฐ„ ์ถ”๋ก ์„ ์‹ค์ œ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฒ€์ฆํ•˜๋Š” ์‚ฌ๋ก€๋กœ, eยฒIP์˜ ๋ถˆํ™•์‹ค์„ฑ ๋ชจ๋ธ๊ฐ’ ํ•ด์„์— ์ฐธ๊ณ ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •