Predicting field experiments with large language models

์ €์ž: Yaoyu Chen, Yuheng Hu, Yingda Lu | ๋‚ ์งœ: 2025 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ์ด์šฉํ•˜์—ฌ ๊ฒฝ์ œํ•™ ๋ฌธํ—Œ์˜ ํ˜„์žฅ ์‹คํ—˜(field experiment) ๊ฒฐ๊ณผ๋ฅผ ์ž๋™์œผ๋กœ ์˜ˆ์ธกํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๊ณ , 276๊ฐœ ์‹คํ—˜์—์„œ 78%์˜ ์˜ˆ์ธก ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

Motivation

Achievement

Figure 1: The Data Collection Workflow

๋…ผ๋ฌธ ์ˆ˜์ง‘ ๋ฐ ํ•„ํ„ฐ๋ง ๊ณผ์ •: 6,544๊ฐœ ๋…ผ๋ฌธ์—์„œ ์ตœ์ข… 276๊ฐœ์˜ ํ˜„์žฅ ์‹คํ—˜ ์„ ์ •

  1. ๋Œ€๊ทœ๋ชจ ์ž๋™ํ™” ํ‰๊ฐ€: 2000-2024๋…„ ๊ฒฝ์ œํ•™ ์ฃผ์š” ์ €๋„ 276๊ฐœ ๋…ผ๋ฌธ(1,261๊ฐœ ๊ฒฐ๋ก )์—์„œ 78% ํ‰๊ท  ์˜ˆ์ธก ์ •ํ™•๋„ ๋‹ฌ์„ฑ - ๊ธฐ์กด ์†Œ๊ทœ๋ชจ ์ˆ˜๋™ ๋ฐฉ์‹์˜ ํ•œ๊ณ„ ๊ทน๋ณต
  2. ์ด๋ถ„ํฌ/์™œ๋„ ํŠน์„ฑ ๋ฐœ๊ฒฌ: ์˜ˆ์ธก ๊ฒฐ๊ณผ๊ฐ€ ์–‘๊ทน๋‹จ ๋ถ„ํฌ - 71%์˜ ๊ฒฐ๋ก ์—์„œ ๊ฑฐ์˜ 100% ์ •ํ™•๋„, 18%์—์„œ๋Š” ๊ฑฐ์˜ 0% ์ •ํ™•๋„๋กœ ๋‚˜ํƒ€๋‚˜, ํŠน์ • ์ฃผ์ œ์— ๋Œ€ํ•œ LLM์˜ ๊ทผ๋ณธ์  ํ•œ๊ณ„ ์‹œ์‚ฌ
  3. ๋ฐ์ดํ„ฐ ๋ˆ„์ˆ˜ ๋ฐฉ์ง€ ๋ฐ ๋ณต์žก์„ฑ ์ฆ๋Œ€: Claude(์ถ”์ถœ/๊ฒ€์ฆ์šฉ)์™€ GPT(์˜ˆ์ธก์šฉ) ๋ถ„๋ฆฌ ์‚ฌ์šฉ, ์ธ๊ฐ„-๊ฐ์ฒด ์ƒํ˜ธ์ž‘์šฉ ํฌํ•จ ๋ณต์žกํ•œ ์ฒ˜์น˜ ์„ค๊ณ„ ์ง€์›

How

Figure 2: Prediction Framework

3๋‹จ๊ณ„ ํ”„๋ ˆ์ž„์›Œํฌ: ์ •๋ณด ์ถ”์ถœ(Claude) โ†’ ๋ณ€ํ˜• ์ƒ์„ฑ(Claude) โ†’ ์˜ˆ์ธก(GPT)

ํ”„๋ ˆ์ž„์›Œํฌ ๊ตฌ์„ฑ:

์ฃผ์š” ํŠน์ง•:

Originality

Limitation & Further Study

ํ•œ๊ณ„:

ํ›„์† ์—ฐ๊ตฌ:

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: ํ˜„์žฅ ์‹คํ—˜ ์˜ˆ์ธก์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๋„๋ฉ”์ธ์œผ๋กœ LLM ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ํ™•์žฅํ•˜๊ณ  ๋Œ€๊ทœ๋ชจ ์ž๋™ํ™” ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ์‹ค์งˆ์  ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์˜€์œผ๋‚˜, LLM์˜ ๊ทผ๋ณธ์  ํ•œ๊ณ„(๋ณต์žกํ•œ ์‚ฌํšŒ ์ด์Šˆ ์ฒ˜๋ฆฌ ๋ถ€์กฑ)๊ฐ€ ๋ช…ํ™•ํ•˜์—ฌ ์‹ค๋ฌด ์ ์šฉ ์‹œ ์ฃผ์˜๊ฐ€ ํ•„์š”ํ•œ ์—ฐ๊ตฌ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
419๋ฒˆ์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ƒ์„ธํžˆ ๋‹ค๋ฃจ์–ด, 631๋ฒˆ์˜ ํ˜„์žฅ์‹คํ—˜(outcome) ์˜ˆ์ธก ํƒœ์Šคํฌ๊ฐ€ ์–ด๋–ค ์ „์ œ์™€ ํ•œ๊ณ„ ์œ„์— ์„ค๊ณ„๋˜๋Š”์ง€ ์ดํ•ด๋ฅผ ๋•๋Š”๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ์ œ๋กœ์ƒท ์ธ๊ณผ๊ตฌ์กฐ ์ถ”๋ก  ๋ฐ ์‹คํ—˜ ๊ฒฐ๊ณผ ์˜ˆ์ธก ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ๊ธฐ์ดˆ์  ํƒ๊ตฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Scientific hypothesis generation by large language models ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜์˜ ๊ณผํ•™์  ๊ฐ€์„ค ๋ฐ ์‹คํ—˜ ์˜ˆ์ธก์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ์™€ ์—ฐ๊ตฌ๋™ํ–ฅ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์ธ๊ฐ„ ํ–‰๋™ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋Šฅ๋ ฅ๊ณผ ์‚ฌํšŒ์  ํŽธํ–ฅ์˜ ์˜ํ–ฅ์„ ๋ถ„์„ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI๋กœ ์‹คํ—˜์„ฑ๊ณผ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•œ ์‚ฌ๋ก€๋กœ, ๋„๋ฉ”์ธ(๊ฒฝ์ œ vs AI/ML) ๋ฐ ์˜ˆ์ธก ๋ฐฉ์‹(๋…ผ๋ฌธ ๋ฒค์น˜๋งˆํฌ vs ๊ฒฝ์ œ ๋ฐ์ดํ„ฐ)๋ณ„๋กœ ์ฐจ์ด์ ์„ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Interesting Scientific Idea Generation using Knowledge Graph ๋…ผ๋ฌธ์€ ๊ฒฝ์ œํ•™ ์ด์™ธ ๋ถ„์•ผ์—์„œ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ์ƒ์„ฑ๊ณผ ํ‰๊ฐ€๋ฌธ์ œ๋ฅผ ์‹ฌ์ธต ๋ถ„์„ํ•˜๋ฏ€๋กœ 631 ์ฃผ์ œ๋ฅผ ๋„“ํž ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
191๋ฒˆ ๋…ผ๋ฌธ์€ ์‚ฌํšŒ์ ์œผ๋กœ ์ฑ…์ž„๊ฐ ์žˆ๋Š” AI์™€ ์ธ๊ณผ ์ถ”๋ก ์˜ ํ†ตํ•ฉ์„ ๋‹ค๋ฃจ๋ฉฐ, 631๋ฒˆ LLM ๊ธฐ๋ฐ˜ ํ˜„์žฅ์‹คํ—˜ ์˜ˆ์ธก์˜ ์ •์ฑ…์  ์˜์˜์™€ ์—ฐ๊ณ„ํ•ด์„œ ์ฝ์œผ๋ฉด ์ข‹๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
627๋ฒˆ์—์„œ ์ฃผ์žฅํ•˜๋Š” LLM์„ ํ†ตํ•œ ๊ณผํ•™์  ์ถ”๋ก ยท์‹คํ—˜ ํ˜์‹  ๋…ผ์˜๋Š”, 631๋ฒˆ์ฒ˜๋Ÿผ ๊ฒฝ์ œํ•™ ํ˜„์žฅ์‹คํ—˜ ์ž๋™ ์˜ˆ์ธก ๋“ฑ ๊ตฌ์ฒด์  ์‚ฌ๋ก€์™€ ์—ฐ๊ฒฐ๋œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •