Discoverybench: Towards data-driven discovery with large language models

์ €์ž: Bodhisattwa Prasad Majumder, Harshit Surana, D. P. Agarwal, Bhavana Dalvi Mishra, Abhijeetsingh Meena, Aryan Prakhar, Tirth Vora, Tushar Khot, Ashish Sabharwal, Peter E. Clark | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

Figure 1

๊ฐ DiscoveryBench ๊ณผ์ œ๋Š” ๋ชฉํ‘œ์™€ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ํ†ต๊ณ„ ๋ถ„์„๊ณผ ๊ณผํ•™์  ์˜๋ฏธ ์ถ”๋ก ์ด ํ•„์š”ํ•˜๊ณ , ๋‹ค๋ฉด์  ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ์—„๋ฐ€ํ•˜๊ฒŒ ํ‰๊ฐ€๋จ

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์ด ๋ฐ์ดํ„ฐ์…‹๋งŒ์œผ๋กœ ๊ฐ€์„ค์„ ์ž๋™์œผ๋กœ ํƒ์ƒ‰ํ•˜๊ณ  ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ตœ์ดˆ์˜ ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ DiscoveryBench๋ฅผ ์ œ์‹œํ•œ๋‹ค. 264๊ฐœ์˜ ์‹ค์ œ ๊ณผ์ œ์™€ 903๊ฐœ์˜ ํ•ฉ์„ฑ ๊ณผ์ œ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์œผ๋ฉฐ, ํ˜„์žฌ ์ตœ๊ณ  ์„ฑ๋Šฅ LLM๋„ 25%์˜ ์ •ํ™•๋„๋งŒ ๋‹ฌ์„ฑํ•˜์—ฌ ์ž๋™ํ™”๋œ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋ฐœ๊ฒฌ์˜ ๋‚œ์ œ๋ฅผ ๋“œ๋Ÿฌ๋‚ธ๋‹ค.

Motivation

Achievement

Figure 4

DB-REAL๊ณผ DB-SYNTH์—์„œ ๋‹ค์–‘ํ•œ ์—์ด์ „ํŠธ-LLM ์กฐํ•ฉ์˜ ๊ฐ€์„ค ๋งค์นญ ์Šค์ฝ”์–ด(HMS)

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: ์‚ฌํšŒํ•™, ๊ณตํ•™ ๋“ฑ 6๊ฐœ ๋„๋ฉ”์ธ์—์„œ ๋ฐœํ–‰๋œ 20๊ฐœ ์ด์ƒ์˜ ๋…ผ๋ฌธ์œผ๋กœ๋ถ€ํ„ฐ 264๊ฐœ์˜ ์‹ค์ œ ๋ฐœ๊ฒฌ ๊ณผ์ œ ์ถ”์ถœ ๋ฐ ๊ฒ€์ฆ๋œ ์›Œํฌํ”Œ๋กœ์šฐ ์ œ๊ณต. ๋ณต์žก๋„ ์ œ์–ด๋ฅผ ์œ„ํ•ด 48๊ฐœ ๋„๋ฉ”์ธ์— ๊ฑธ์นœ 903๊ฐœ์˜ ํ•ฉ์„ฑ ๊ณผ์ œ ์ถ”๊ฐ€
  2. ์ •ํ˜•ํ™”๋œ ๋ฐœ๊ฒฌ ํ”„๋ ˆ์ž„์›Œํฌ: ๊ฐ€์„ค์„ ๋ฌธ๋งฅ(context), ๋ณ€์ˆ˜(variables), ๊ด€๊ณ„(relationship)์˜ 3๊ฐœ ์ฐจ์›์œผ๋กœ ๋ถ„ํ•ดํ•˜๋Š” ๊ตฌ์กฐํ™”๋œ ํ˜•์‹ ์ œ์‹œ. ๊ฐ€์„ค ์˜๋ฏธ ํŠธ๋ฆฌ(hypothesis semantic tree)๋ฅผ ๋„์ž…ํ•˜์—ฌ ๋ณต์žกํ•œ ๊ณ„์ธต์  ๊ฐ€์„ค ํ‘œํ˜„ ๊ฐ€๋Šฅ
  3. ์ฒด๊ณ„์ ์ธ ํ‰๊ฐ€ ๋ฐฉ์‹: ๊ฐœ๋ฐฉํ˜• ๋‹ต๋ณ€์„ ๋‹ค๋ฉด์ ์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ์—„๋ฐ€ํ•œ ํ‰๊ฐ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๊ฐœ๋ฐœ. ๊ธฐ์กด ์ˆ˜์น˜ ๋‹ต๋ณ€ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ  ๋ถ€๋ถ„ ์ •ํ™•๋„ ๋ฐ˜์˜
  4. ๊ด‘๋ฒ”์œ„ํ•œ ์„ฑ๋Šฅ ๋ถ„์„: ์˜คํ”ˆ์†Œ์Šค ๋ฐ ํ์‡„ํ˜• LLM์„ ํฌํ•จํ•œ ์—ฌ๋Ÿฌ ์ถ”๋ก  ํ”„๋ ˆ์ž„์›Œํฌ ํ‰๊ฐ€. ์ตœ๊ณ  ์„ฑ๋Šฅ์ด 25%์— ๋ถˆ๊ณผํ•จ์„ ์ž…์ฆํ•˜์—ฌ ๋ฏธํ•ด๊ฒฐ ๊ณผ์ œ ๋ช…์‹œ

How

Figure 2

๊ฐ€์„ค์˜ ๊ณ„์ธต์  ๊ตฌ์กฐ๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ์˜๋ฏธ ํŠธ๋ฆฌ: ๋ฃจํŠธ๋Š” ๋ชฉํ‘œ ๋ณ€์ˆ˜, ๋ฆฌํ”„๋Š” ๋…๋ฆฝ ๋ณ€์ˆ˜, ๋‚ด๋ถ€ ๋…ธ๋“œ๋Š” ์ค‘๊ฐ„ ๊ฐ€์„ค์˜ ๋ชฉํ‘œ ๋ณ€์ˆ˜

Originality

Limitation & Further Study

Evaluation

์ดํ‰: DiscoveryBench๋Š” LLM ๊ธฐ๋ฐ˜ ์ž๋™ํ™”๋œ ๊ณผํ•™์  ๋ฐœ๊ฒฌ์˜ ๋Šฅ๋ ฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์ค‘์š”ํ•œ ์ฒซ ๋ฒˆ์งธ ๋ฒค์น˜๋งˆํฌ๋กœ์„œ, ์ƒˆ๋กœ์šด ํ˜•์‹ํ™” ํ”„๋ ˆ์ž„์›Œํฌ์™€ ๋‹ค๋ฉด์  ํ‰๊ฐ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ œ์‹œํ•œ๋‹ค. 264๊ฐœ์˜ ์‹ค์ œ ๊ณผ์ œ์™€ 903๊ฐœ์˜ ํ•ฉ์„ฑ ๊ณผ์ œ๋กœ ๊ตฌ์„ฑ๋œ ํฌ๊ด„์ ์ธ ์ž์›์„ ์ œ๊ณตํ•˜๋ฉฐ, ํ˜„์žฌ LLM์˜ 25% ์ €์กฐํ•œ ์„ฑ๋Šฅ์€ ์ด ๋ถ„์•ผ์˜ ๋ฏธํ•ด๊ฒฐ ๊ณผ์ œ๋ฅผ ๋ช…ํ™•ํžˆ ๋“œ๋Ÿฌ๋‚ธ๋‹ค. ๋‹ค๋งŒ ํ‰๊ฐ€ ์ผ๊ด€์„ฑ ๊ฒ€์ฆ์ด ๋ณด์™„๋˜๊ณ , ์‹คํŒจ ๋ชจ๋“œ์— ๋Œ€ํ•œ ๋” ๊นŠ์€ ๋ถ„์„์ด ์ด๋ฃจ์–ด์ง„๋‹ค๋ฉด ์ด ๋ฒค์น˜๋งˆํฌ๋Š” ํ–ฅํ›„ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ์ž๋™ํ™” ์—ฐ๊ตฌ์˜ ์ค‘์š”ํ•œ ์ถ”์ง„๋ ฅ์ด ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Towards a client-centered assessment of llm therapists by cl ๋…ผ๋ฌธ์€ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์‹ค์ œ LLM ํ™œ์šฉ ์ธก์ •์˜ ๊ธฐ์ดˆ๋ฅผ ๋…ผ์˜ํ•˜๋ฏ€๋กœ, ์ƒˆ๋กœ์šด ํ‰๊ฐ€ ์ง€ํ‘œ ๊ฐœ๋ฐœ์— ๊ธฐ๋ฐ˜์  ์—ญํ• ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ LLM ํ™œ์šฉ์˜ ์ด๋ก ์ ยท๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
DiscoveryBench ๋…ผ๋ฌธ์€ LLM์ด ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ํƒ์ƒ‰ ๋ฐ ๊ฒ€์ฆ์„ ์‹œ๋„ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋กœ, ๊ณ ์ฐจ์› ์ž„๋ฒ ๋”ฉ ํ™œ์šฉ ๋ฐ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐ ๊ณผํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ๋ฒค์น˜๋งˆํฌ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ์ž๋™ํ™”๋œ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐ ๊ฒ€์ฆ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ๋ฒค์น˜๋งˆํฌ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Blade ์—ญ์‹œ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋ฐœ๊ฒฌ ๋Šฅ๋ ฅ์„ LLM agent๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋กœ, DiscoveryBench์™€ ํ‰๊ฐ€ ๋ฐฉ์‹์ด๋‚˜ ํ•œ๊ณ„์  ๋น„๊ต๊ฐ€ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋™์ผํ•˜๊ฒŒ LLM์ด ๋ฐ์ดํ„ฐ ๊ณผํ•™ ์‹คํ—˜๊ณผ์ •์„ ์ž๋™ํ™”ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํƒ๊ตฌํ•˜๋ฉฐ, DiscoveryBench์™€ ๋น„๊ตํ•  ๋งŒํ•œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
EarthSE ๋…ผ๋ฌธ๋„ ํŠน์ • ๋ถ„์•ผ(์ง€๊ตฌ๊ณผํ•™)์—์„œ LLM์˜ ์‹ฌ์ธต ํƒ๊ตฌ ๋ฐ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋‹ค๋ฃจ๋ฏ€๋กœ, DiscoveryBench์™€ ๊ณผ์ œ ๋‚œ์ด๋„ยท๊ฒฐ๊ณผ๋ฅผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์ฝ”๋”ฉ ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ ๊ณผํ•™ ํƒœ์Šคํฌ ์ž๋™ํ™”์˜ ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ์ž๋™ํ™”๋œ ์—ฐ๊ตฌ ๋ฐœ๊ฒฌ ํŒŒ์ดํ”„๋ผ์ธ์˜ ๋Œ€์•ˆ์  ๊ตฌํ˜„ ๋ฐฉ์‹์„ ํƒ๊ตฌํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ LLM ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ํ†ตํ•œ ๊ณผํ•™ ๋ฐœ๊ฒฌ ํŠธ๋ Œ๋“œ ์˜ˆ์ธก ์—ฐ๊ตฌ๋กœ, ์ „์ž์ƒ๊ฑฐ๋ž˜ ์—ฐ๊ตฌ ๋™ํ–ฅ์˜ ๊ณ„๋Ÿ‰์  ๋ถ„์„๊ณผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
277๋ฒˆ ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๋Œ€๊ทœ๋ชจ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋‹ค๋ฃจ์–ด 2865๋ฒˆ์˜ ๋ถ„์•ผ๋ณ„ ์„œ์ง€ํ•™์  ์ •๋Ÿ‰ํ‰๊ฐ€์™€ ๋น„๊ต ๋Œ€์ƒ์ด ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI scientist๊ฐ€ ํ˜์‹ ์  ์•„์ด๋””์–ด ํƒ์ง€ ๋ฐ ์‹คํ—˜ ์ž๋™ํ™”๋ฅผ ์‹ค์ œ ์—ฐ๊ตฌ ํ˜„์žฅ์— ์ ์šฉํ•œ ๊ฒฐ๊ณผ(313)๋ฅผ ํ†ตํ•ด, LLM์˜ ๊ณผํ•™๋ฐœ๊ฒฌ ์ž๋™ํ™” ํ•œ๊ณ„์™€ ์‹ค์งˆ์  ํŒŒ๊ธ‰ํšจ๊ณผ๋ฅผ ์กฐ๋งํ•  ์ˆ˜ ์žˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Bridging the Gap Between Climate Science and Machine Learning ๋…ผ๋ฌธ์€ ๊ธฐํ›„ ๋ชจํ˜• ์ ์šฉ ์‚ฌ๋ก€๋กœ, ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๋ฐœ๊ฒฌ์˜ ์‹ค์ œ ์ ์šฉ ์˜ˆ์‹œ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •