ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery

์ €์ž: Ziru Chen, Shijie Chen, Yuting Ning, Qianheng Zhang, Boshi Wang, Botao Yu, Yifei Li, Zeyi Liao, Chen Wei, Zitong Lu, Vishal Dey, Mingyi Xue, Frazier N. Baker, Benjamin Burns, Daniel Adu-Ampratwum, Xuhui Huang, Xia Ning, Song Gao, Yu Su, Huan Sun | ๋‚ ์งœ: 2025-03-31 | DOI: 10.48550/arXiv.2410.05080 | ์ถœํŒ์ฒ˜: ICLR 2025 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ์–ธ์–ด๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜ ์–ธ์–ด์—์ด์ „ํŠธ(Language Agents)์˜ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋ฐœ๊ฒฌ ์ˆ˜ํ–‰๋Šฅ๋ ฅ์„ ์—„๋ฐ€ํ•˜๊ฒŒ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ ScienceAgentBench๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์ตœ๊ทผ LLM์ด ๊ณผํ•™ ์—ฐ๊ตฌ ์ž๋™ํ™”๋ฅผ ์™„์ „ํžˆ ์ž๋™ํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ฃผ์žฅ๋“ค์— ๋Œ€ํ•ด, ๊ฐœ๋ณ„ ๊ณผํ•™์  ์ž‘์—… ๋‹จ์œ„์—์„œ์˜ ์ฒด๊ณ„์  ํ‰๊ฐ€์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•˜๊ณ  ํ˜„์žฌ ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ์—ญ๋Ÿ‰์˜ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ํ•œ๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: ScienceAgentBench์˜ ์„ธ๋ถ€ ์ž‘์—… ๋ถ„ํฌ(์ƒ) ๋ฐ ์ƒ๋ฌผ์ •๋ณดํ•™, ๊ณ„์‚ฐํ™”ํ•™, ์ง€๋ฆฌ์ •๋ณด๊ณผํ•™, ์‹ฌ๋ฆฌ์‹ ๊ฒฝ๊ณผํ•™์˜ ์ด์งˆ์  ๋ฐ์ดํ„ฐ ์œ ํ˜•(ํ•˜)

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: 4๊ฐœ ๋ถ„์•ผ, 44๊ฐœ ๋…ผ๋ฌธ, 102๊ฐœ ์ž‘์—…์œผ๋กœ ๊ตฌ์„ฑ๋œ ๊ณผํ•™์ ์œผ๋กœ ๊ฒ€์ฆ๋œ ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ. ๊ฐ ์ž‘์—…์€ ํ”ผ์–ด๋ฆฌ๋ทฐ ๋…ผ๋ฌธ์˜ ๊ณต๊ฐœ ์ฝ”๋“œ/๋ฐ์ดํ„ฐ์—์„œ ์ง์ ‘ ์ถ”์ถœ๋˜์–ด ์‹ค์ œ ๊ณผํ•™ ๋ฌธ์ œ์˜ ๋†’์€ ๋Œ€ํ‘œ์„ฑ ํ™•๋ณด.
  2. ์—„๊ฒฉํ•œ ํ‰๊ฐ€ ์ฒด๊ณ„ ์ˆ˜๋ฆฝ: ์ƒ์„ฑ ํ”„๋กœ๊ทธ๋žจ, ์‹คํ–‰ ๊ฒฐ๊ณผ(๋ Œ๋”๋ง๋œ ๊ทธ๋ฆผ, ํ…Œ์ŠคํŠธ์…‹ ์˜ˆ์ธก), ๊ณ„์‚ฐ๋น„์šฉ์„ ๋ชจ๋‘ ๊ฒ€ํ† ํ•˜๋Š” ๋‹ค์ฐจ์› ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ๊ณผ ์ž‘์—… ํŠนํ™” ๋ฃจ๋ธŒ๋ฆญ ์ œ์‹œ. ์ฃผ์„์ž-์ „๋ฌธ๊ฐ€ ๋‹ค๋‹จ๊ณ„ ๊ฒ€์ฆ์œผ๋กœ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ๋ณด์ฆ.
  3. ํ˜„์‹ค์  ์„ฑ๋Šฅ ํ‰๊ฐ€: 5๊ฐœ LLM(์˜คํ”ˆ์›จ์ดํŠธ/๋…์ )์„ 3๊ฐœ ํ”„๋ ˆ์ž„์›Œํฌ(์ง์ ‘ ํ”„๋กฌํ”„ํŒ…, OpenHands CodeAct, ์ž์ฒด ๋””๋ฒ„๊น…)๋กœ ํ‰๊ฐ€ํ•œ ๊ฒฐ๊ณผ, ์ตœ๊ณ  ์„ฑ๋Šฅ ์—์ด์ „ํŠธ๊ฐ€ 3๋ฒˆ์˜ ์‹œ๋„๋กœ๋„ 32.4%๋งŒ ๋…๋ฆฝ์  ์™„์ˆ˜, ์ „๋ฌธ๊ฐ€ ์ง€์‹ ์ œ๊ณต ์‹œ 34.3% ๋‹ฌ์„ฑ. OpenAI o1์€ 42.2%์ด๋‚˜ ๋น„์šฉ์ด 10๋ฐฐ ์ด์ƒ ๋†’์Œ.
  4. ํšจ์œจ์„ฑ-์„ฑ๋Šฅ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ๋ถ„์„: Claude-3.5-Sonnet ์ž์ฒด ๋””๋ฒ„๊น…์ด OpenHands CodeAct ๋Œ€๋น„ 10.8% ๋” ๋†’์€ ์ •ํ™•๋„๋ฅผ 17๋ฐฐ ๋‚ฎ์€ API ๋น„์šฉ์œผ๋กœ ๋‹ฌ์„ฑํ•จ์„ ์ž…์ฆ, ์‹ค๋ฌด์  ์—์ด์ „ํŠธ ์„ค๊ณ„์— ๋Œ€ํ•œ ํ†ต์ฐฐ ์ œ๊ณต.

How

Figure 2

Figure 2: ๊ณ„์‚ฐํ™”ํ•™ ์ž‘์—…์˜ 4๊ฐœ ๊ตฌ์„ฑ์š”์†Œ: (a) ์ž‘์—… ์ง€์‹œ์‚ฌํ•ญ, (b) ๋ฐ์ดํ„ฐ์…‹ ์ •๋ณด, (c) ์ „๋ฌธ๊ฐ€ ์ œ๊ณต ์ง€์‹, (d) ์ฃผ์„๋œ ์ฐธ์กฐ ํ”„๋กœ๊ทธ๋žจ

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4.3/5 Significance: 4.6/5 Clarity: 4.2/5 Overall: 4.4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์—์ด์ „ํŠธ์˜ ์„ฑ๋Šฅ์„ ์—„๋ฐ€ํ•˜๊ฒŒ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ๊ณ ํ’ˆ์งˆ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•จ์œผ๋กœ์จ, ๊ณผ์žฅ๋œ ์ฃผ์žฅ๋“ค์— ๋Œ€ํ•œ ๊ฐ๊ด€์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ํŠนํžˆ ํ”ผ์–ด๋ฆฌ๋ทฐ ๋…ผ๋ฌธ ๊ธฐ๋ฐ˜ ์ž‘์—… ์ถ”์ถœ๊ณผ ๋ถ„์•ผ๋ณ„ ์ „๋ฌธ๊ฐ€ ๊ฒ€์ฆ์„ ํ†ตํ•ด ๊ณผํ•™์  ์ง„์ •์„ฑ์„ ํ™•๋ณดํ•œ ์ ์ด ํ•ต์‹ฌ ๊ธฐ์—ฌ์ด๋ฉฐ, ์‹ค์ œ ๊ณผํ•™์ž๋“ค์˜ ์ƒ์‚ฐ์„ฑ ํ–ฅ์ƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ ํ˜„์‹ค์  ๋ฌธ์ œ ์„ค์ •์ด ๋‹๋ณด์ธ๋‹ค. ๋‹ค๋งŒ ํ˜„์žฌ ์—์ด์ „ํŠธ์˜ 32-42% ์„ฑ๋Šฅ์œผ๋กœ๋Š” ์‹ค๋ฌด ํ™œ์šฉ์— ์•„์ง ์ œ์•ฝ์ด ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•œ ์žฅ๊ธฐ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•˜๋Š” ๋ฐ ๋…ผ๋ฌธ์˜ ๊ฐ€์น˜๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ์‹คํ—˜ ์ž๋™ํ™”๋ฅผ ์œ„ํ•œ LLM ์—์ด์ „ํŠธ์˜ ๊ธฐ๋ฐ˜ ๊ฐœ๋…์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์  ์–ธ์–ด์—์ด์ „ํŠธ์˜ ํ‰๊ฐ€ยท๋ฒค์น˜๋งˆํ‚น์„ ์œ„ํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๋ณต์žกํ•œ ์›Œํฌํ”Œ๋กœ์šฐ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ ๊ฒ€์ฆ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ž๋™ํ™” ์—์ด์ „ํŠธ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํ™”ํ•™ ๋„๋ฉ”์ธ์—์„œ LLM ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ LLM ์—์ด์ „ํŠธ์˜ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
716 ๋…ผ๋ฌธ์€ ์ž๋™ ๊ณผํ•™ ์—ฐ๊ตฌ ์—์ด์ „ํŠธ์˜ ์ˆ˜ํ–‰๋Šฅ๋ ฅ ํ‰๊ฐ€์— ์ดˆ์ ์„ ๋งž์ถ”์–ด, 248์˜ ์‹คํ—˜ ์ž๋™ํ™” ์—์ด์ „ํŠธ์˜ ํ‰๊ฐ€ ๋ฐ ๊ฒ€์ฆ ๋ชฉ์ ๊ณผ ๊ธด๋ฐ€ํžˆ ์—ฐ๊ฒฐ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
353์€ ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ž๋™ํ™”(์—์ด์ „ํŠธ) ๊ด€๋ จ ์ตœ์‹  ๋™ํ–ฅ๊ณผ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ๋‹ค๋ฃจ์–ด, 716 ๋…ผ๋ฌธ์˜ ์ „์ฒด์  ๋งฅ๋ฝ ์ดํ•ด๋ฅผ ๋•๋Š”๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
716์€ LLM๊ณผ ์™ธ๋ถ€ ๋„๊ตฌ ํ†ตํ•ฉ์˜ ์ด๋ก ์ ยท๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜์—ฌ ToolUniverse ์„ค๊ณ„์— ๊ธฐ์ดˆ๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋ฐœ๊ฒฌ ์—์ด์ „ํŠธ์˜ ์ด๋ก ์ ยท๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
822 ๋…ผ๋ฌธ์€ AI ๊ณผํ•™ ์—์ด์ „ํŠธ์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ด๋ก ์ ์œผ๋กœ ๋…ผ์˜ํ•˜์—ฌ, 716์˜ ๋ฒค์น˜๋งˆํฌ ๋ชฉ์ ์— ์ค‘์š”ํ•œ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ์ž๋™ํ™”๋ฅผ ์œ„ํ•œ LLM ์—์ด์ „ํŠธ์˜ ๊ธฐ๋ฐ˜ ๊ฐœ๋…์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
716๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ 170์€ ๊ณผํ•™ ๋ฐœ๊ฒฌ ๊ณผ์ œ์— ๋Œ€ํ•œ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ํ‰๊ฐ€๋ฅผ ๋ชฉํ‘œ๋กœ ํ•˜์ง€๋งŒ ์„œ๋กœ ๋‹ค๋ฅธ ๋ฒค์น˜๋งˆํฌ์™€ ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ScienceAgentBench๋Š” LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ๊ณผํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ๋ ฅ(๋‹ค์ˆ˜ ๋‹จ๊ณ„ ์ถ”๋ก  ํฌํ•จ)์— ์ง‘์ค‘ํ•˜์—ฌ, ๊ณ„์ธต์  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํ™•์žฅ์  ๋ถ„์„ ํ‹€์„ ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋„๊ตฌ ์‚ฌ์šฉ ์—์ด์ „ํŠธ์˜ ๋ฒค์น˜๋งˆํฌ ๋ฐ ์„ฑ๋Šฅ ํ‰๊ฐ€๋ฅผ ์—ฐ๊ตฌํ•˜๋Š” ๊ด€๋ จ ๋…ผ๋ฌธ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์˜๋ฃŒ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋˜๋Š” ์ž„์ƒ ์˜์‚ฌ๊ฒฐ์ • ์ง€์›์„ ์œ„ํ•œ LLM ์—์ด์ „ํŠธ๋ฅผ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์ž‘์—… ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ๋‹ค๋ฅธ ๋ฒค์น˜๋งˆํฌ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ™”ํ•™ ๋ฐ ์žฌ๋ฃŒ ์„ค๊ณ„์— AI๋ฅผ ์ ์šฉํ•œ ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
820๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€์— ์ดˆ์ ์„ ๋งž์ถ”์–ด, ์–ธ์–ด ์—์ด์ „ํŠธ์˜ ๊ณผํ•™์  ์‹ค๋ฌด ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ๋‹ค์–‘ํ•œ ํ‰๊ฐ€ ๋ฐฉ์‹์„ ์„œ๋กœ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ScienceAgentBench๋„ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์—์ด์ „ํŠธ์˜ ํ‰๊ฐ€๋ฅผ ๋ชฉํ‘œ๋กœ ํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ง€ํ‘œ์™€ ํ”„๋กฌํ”„ํŠธ ์ฒด๊ณ„ํ•˜์—์„œ ๋น„๊ต ์—ฐ๊ตฌ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ScienceAgentBench๋Š” LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์—์ด์ „ํŠธ์˜ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ์ œ๊ณตํ•˜๋ฏ€๋กœ EAIRA์™€ ๋น„๊ตํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๊ณผํ•™์  ์ž๋™ํ™” ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํƒ์ƒ‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI4Science ๋ถ„์•ผ๋ณ„ LLM ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ ์ œ์•ˆ์ด๋ผ๋Š” ๋™์ผ ์ฃผ์ œ๋กœ Rigorous Assessment ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ๋ฌผ์ •๋ณดํ•™ ๋˜๋Š” ๊ฒŒ๋…ธ๋ฏน ๋ฐ์ดํ„ฐ ๋ถ„๋ฅ˜์— AI๋ฅผ ์ ์šฉํ•˜๋Š” ์œ ์‚ฌํ•œ ์ ‘๊ทผ๋ฒ•์˜ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
716 ๋…ผ๋ฌธ์€ ์—์ด์ „ํŠธ์˜ ๊ณผํ•™์  ํˆด ์‚ฌ์šฉ ์—ญ๋Ÿ‰์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋กœ, AIRS-Bench์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๊ณผํ•™ AI ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ AI ์—์ด์ „ํŠธ ์šด์˜ ํ™˜๊ฒฝ์˜ ๋Œ€์•ˆ์  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋…ผ๋ฌธ ์žฌํ˜„์„ฑ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ AI ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์œผ๋กœ ํ•ด๊ฒฐํ•˜๋ ค๋Š” ์œ ์‚ฌ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์–ธ์–ด๋ชจ๋ธ์˜ ์—”์ง€๋‹ˆ์–ด๋งยท๊ตฌ์ฒด ์ฝ”๋“œ ๊ตฌํ˜„ ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ, ๊ตฌ์กฐ ์„ค๊ณ„์—์„œ LLM ์‘์šฉ์˜ ์‹ค์ œ ์„ฑ๋Šฅ ๊ฒ€ํ†  ์ž๋ฃŒ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
248๋ฒˆ ๋…ผ๋ฌธ์€ LLM ์—์ด์ „ํŠธ๋ฅผ ์ด์šฉํ•ด ์ž๋™ํ™” ์‹คํ—˜ ์ˆ˜ํ–‰์„ ํ‰๊ฐ€ํ•˜๋Š” ์ฒด๊ณ„์  ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, 716๋ฒˆ ScienceAgentBench๊ฐ€ ์ง€ํ–ฅํ•˜๋Š” ์–ธ์–ด ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ์—ญ๋Ÿ‰ ํ‰๊ฐ€ ๋ฐฉํ–ฅ์— ์‹ค์งˆ์  ์‚ฌ๋ก€๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
716์€ ๋‹ค์–‘ํ•œ ๊ณผํ•™ ๋ถ„์•ผ์—์„œ ์–ธ์–ด ์—์ด์ „ํŠธ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ™•์žฅํ•˜์—ฌ ์ œ๊ณตํ•˜๋Š” ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
840 ๋…ผ๋ฌธ์€ 716์˜ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์ž๋™ํ™” ํ‰๊ฐ€ ์—ฐ๊ตฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ LLM์ด ๊ณผํ•™ ๋ถ„์•ผ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์— ๋Œ€ํ•ด ์ข…ํ•ฉ์ ์œผ๋กœ ๋…ผ์˜ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
716 ๋…ผ๋ฌธ์€ 704์˜ ๋ฉ€ํ‹ฐ์Šคํ… ๋„๊ตฌ ํ™œ์šฉ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์—์ด์ „ํŠธ์˜ ์‹ค์ œ ๋ฐœ๊ฒฌ ๋Šฅ๋ ฅ ํ‰๊ฐ€๋กœ ํ™•์žฅํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
SciAgents ๋…ผ๋ฌธ์€ ์ƒ๋ฌผ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋ฐœ๊ฒฌ ์ž๋™ํ™”๋ฅผ ์‹ค์ œ๋กœ ๊ตฌํ˜„ํ•˜๊ณ  ํ‰๊ฐ€ํ•˜์—ฌ ScienceAgentBench ๋ฒค์น˜๋งˆํฌ์˜ ์‹ค์งˆ์  ํ™œ์šฉ ์˜ˆ์‹œ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
381 ๋…ผ๋ฌธ์€ ์‹œ์Šคํ…œ ์ƒ๋ฌผํ•™ ์—ฐ๊ตฌ ์ž๋™ํ™”๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ์ ์šฉํ•จ์œผ๋กœ์จ, LLM ๊ธฐ๋ฐ˜ ์–ธ์–ด ์—์ด์ „ํŠธ์˜ ์‹ค์ œ์  ์—ฐ๊ตฌ ์ž๋™ํ™” ๋ฐ hypothesis testing ์‚ฌ๋ก€๋กœ์จ ๋ฒค์น˜๋งˆํ‚นํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •