Can AI Replace Human Subjects? A Large-Scale Replication of Psychological Experiments with LLMs

์ €์ž: Ziyan Cui, Ning Li, Huaikang Zhou (Tsinghua University) | ๋‚ ์งœ: 2024 | DOI: [๋ฏธ์ œ๊ณต] 📄 PDF


Essence

๋Œ€๊ทœ๋ชจ ์‹ฌ๋ฆฌํ•™ ์‹คํ—˜ 156๊ฐœ๋ฅผ GPT-4, Claude 3.5 Sonnet, DeepSeek v3 ๋“ฑ 3๊ฐœ์˜ ์ตœ์‹  LLM์œผ๋กœ ์žฌํ˜„ํ•œ ๊ฒฐ๊ณผ, LLM์€ ์ฃผํšจ๊ณผ 73-81%์˜ ๋†’์€ ์žฌํ˜„์œจ์„ ๋ณด์ด์ง€๋งŒ ์ธ์ข…, ์„ฑ๋ณ„ ๋“ฑ ์‚ฌํšŒ์ ์œผ๋กœ ๋ฏผ๊ฐํ•œ ์ฃผ์ œ์—์„œ๋Š” ํ˜„์ €ํžˆ ๋‚ฎ์€ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, ํšจ๊ณผํฌ๊ธฐ๊ฐ€ ์ธ๊ฐ„ ์—ฐ๊ตฌ๋ณด๋‹ค 2-3๋ฐฐ ํฌ๋‹ค๋Š” ์ฒด๊ณ„์  ํŽธ์ฐจ๋ฅผ ๋“œ๋Ÿฌ๋ƒˆ๋‹ค.

Motivation

Achievement

Figure 3

GPT-4์˜ ์›๋ณธ ๋ฐ ์žฌํ˜„ p๊ฐ’ ๋น„๊ต

  1. ๋†’์€ ์ฃผํšจ๊ณผ ์žฌํ˜„์œจ: GPT-4๋Š” ์ฃผํšจ๊ณผ์˜ 72.7%, ์ƒํ˜ธ์ž‘์šฉํšจ๊ณผ์˜ 45.7% ์žฌํ˜„ ์„ฑ๊ณต. Claude์™€ DeepSeek๋Š” ๋”์šฑ ๋†’์€ ์žฌํ˜„์œจ ๋‹ฌ์„ฑ. ์ด๋Š” ์›๋ณธ ์—ฐ๊ตฌ์˜ ๋ฐฉํ–ฅ์„ฑ๊ณผ ํ†ต๊ณ„์  ์œ ์˜์„ฑ์ด ์ž˜ ๋ณด์กด๋จ์„ ์˜๋ฏธ
  2. ์‚ฌํšŒ์ ์œผ๋กœ ๋ฏผ๊ฐํ•œ ์ฃผ์ œ์—์„œ์˜ ํ˜„์ €ํ•œ ์„ฑ๋Šฅ ์ €ํ•˜: ์ธ์ข… ๋ณ€์ˆ˜๊ฐ€ ํฌํ•จ๋œ ์—ฐ๊ตฌ์˜ ๊ฒฝ์šฐ GPT-4์˜ ์ฃผํšจ๊ณผ ์žฌํ˜„์œจ์ด 76.8%์—์„œ 41.5%๋กœ ๊ธ‰๋ฝ. ์ด๋Š” LLM์˜ ๊ฐ€์น˜ ์ •๋ ฌ(value alignment)๊ณผ ์‚ฌํšŒ์  ๋ฐ”๋žŒ์ง์„ฑ ํŽธํ–ฅ(social desirability bias)์— ๊ธฐ์ธ
  3. ์ฒด๊ณ„์ ์ธ ํšจ๊ณผํฌ๊ธฐ ์ฆํญ: LLM์—์„œ ์ƒ์„ฑ๋œ ํšจ๊ณผํฌ๊ธฐ๊ฐ€ ์ธ๊ฐ„ ์—ฐ๊ตฌ๋ณด๋‹ค Fisher Z๊ฐ’์œผ๋กœ ์•ฝ 2-3๋ฐฐ ํผ. ์›๋ณธ ์—ฐ๊ตฌ์—์„œ ๊ท€๋ฌด๊ฐ€์„ค(null findings)์„ ๋ณด์ธ ๊ฒฝ์šฐ LLM์€ 68-83%์˜ ๋†’์€ ๋น„์œจ๋กœ ์œ ์˜๋ฏธํ•œ ์ฃผํšจ๊ณผ๋ฅผ ์ƒ์„ฑ
  4. ๋” ์ข์€ ์‹ ๋ขฐ๊ตฌ๊ฐ„: LLM ์‘๋‹ต์€ ํ”ผ๋กœ, ์ฃผ์˜์‚ฐ๋งŒ, ๋ฐ˜์‘ ๋ถˆ์ผ์น˜๊ฐ€ ์—†์–ด ๋” ๋ช…ํ™•ํ•œ ๋ฐ์ดํ„ฐ ํŒจํ„ด์„ ๋ณด์ด๋ฉฐ, ์ด๋Š” ์‹ฌ๋ฆฌ ํšจ๊ณผ์˜ ์ •๊ตํ•œ ๊ฐ์ง€ ๊ฐ€๋Šฅ์„ฑ์„ ์‹œ์‚ฌํ•˜๋ฉด์„œ๋„ ์ œ1์ข… ์˜ค๋ฅ˜(Type I error) ์œ„ํ—˜์„ฑ๋„ ์ œ์‹œ

How

Figure 1

์—ฐ๊ตฌ ์„ค๊ณ„ ๋ฐ ๊ณผ์ •

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ์ด ๋…ผ๋ฌธ์€ AI ์‹œ๋Œ€ ์‚ฌํšŒ๊ณผํ•™ ์—ฐ๊ตฌ ๋ฐฉ๋ฒ•๋ก ์˜ ์ค‘๋Œ€ํ•œ ์ „ํ™˜์ ์„ ๋‹ค๋ฃฌ ๊ฐ€์น˜ ์žˆ๋Š” ๋Œ€๊ทœ๋ชจ ์‹ค์ฆ ์—ฐ๊ตฌ์ด๋‹ค. LLM์˜ ๊ฐ€๋Šฅ์„ฑ๊ณผ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํ•˜๊ฒŒ ๊ทœ๋ช…ํ•˜๊ณ , ํŠนํžˆ ์‚ฌํšŒ์ ์œผ๋กœ ๋ฏผ๊ฐํ•œ ์ฃผ์ œ์—์„œ์˜ ์ฒด๊ณ„์  ํŽธ์ฐจ๋ฅผ ์ž…์ฆํ•จ์œผ๋กœ์จ "LLM์ด ์ธ๊ฐ„์„ ์™„์ „ํžˆ ๋Œ€์ฒดํ•  ์ˆ˜ ์—†๋‹ค"๋Š” ์ค‘์š”ํ•œ ๊ฒฐ๋ก ์„ ์ œ์‹œํ•œ๋‹ค. ๋‹ค๋งŒ ๋น ๋ฅด๊ฒŒ ์ง„ํ™”ํ•˜๋Š” LLM ๊ธฐ์ˆ ์— ๋Œ€์‘ํ•˜๊ธฐ ์œ„ํ•ด ์ง€์†์  ๋ชจ๋‹ˆํ„ฐ๋ง๊ณผ ๋ฏธ์„ธ ์กฐ์ •(fine-tuning) ์ „๋žต์— ๋Œ€ํ•œ ํ›„์† ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
411์˜ ์ธ๊ฐ„๊ณผ ์–ธ์–ด๋ชจ๋ธ์˜ ์ฐฝ์˜์„ฑ ๋ฐ ์‚ฌ๊ณ ๊ณผ์ • ๋น„๊ต๋Š” 179์˜ LLM ์‹ฌ๋ฆฌํ•™ ์‹คํ—˜ ์žฌํ˜„ ๊ฒฐ๊ณผ ํ•ด์„์— ์ธ์ง€์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์ด ๋‹ค์–‘ํ•œ ์ธ๊ตฌํ†ต๊ณ„ ์ง‘๋‹จ์˜ ์‹ฌ๋ฆฌ์  ๋ฐ˜์‘์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ์ธ๊ฐ„ ํ”ผํ—˜์ž ๋Œ€์‹  ํ™œ์šฉํ•˜๋Š” ์‹ฌ๋ฆฌํ•™ ์‹คํ—˜ ์žฌํ˜„ ๊ฐ€๋Šฅ์„ฑ์„ ํƒ๊ตฌํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์ธ๊ฐ„ ํ–‰๋™ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋Šฅ๋ ฅ๊ณผ ์‚ฌํšŒ์  ํŽธํ–ฅ์˜ ์˜ํ–ฅ์„ ๋ถ„์„ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
A vision for auto research with llm agents ๋…ผ๋ฌธ์€ ์‹ฌ๋ฆฌ์‹คํ—˜ ์ด์™ธ์˜ ์ž๋™ํ™” ์—ฐ๊ตฌ ์‹คํ—˜ ์ „์ฒด ๋ฐฉํ–ฅ์„ฑ์„ ์ œ์•ˆํ•˜์—ฌ ๋Œ€์กฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๋ชจ๋ธ์˜ ์ธ๊ฐ„ ๋Œ€์ฒด ๊ฐ€๋Šฅ์„ฑ๊ณผ ํ•œ๊ณ„๋ฅผ ์—ฐ๊ตฌ ๋งฅ๋ฝ์—์„œ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ๋…ผ๋ฌธ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๋ชจ๋ธ์ด ์ธ๊ฐ„ ์‹ฌ๋ฆฌํ•™ ์‹คํ—˜์„ ์žฌํ˜„ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๋Œ€๊ทœ๋ชจ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๊ด€๋ จ ๋…ผ๋ฌธ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
247์˜ LLM ๊ตฐ์ง‘์—์„œ์˜ ๋ฌธํ™”์ง„ํ™” ์‹œ๋ฎฌ๋ ˆ์ด์…˜์€ 179์˜ LLM ๊ธฐ๋ฐ˜ ์ธ๊ฐ„ ๋Œ€์ฒด ์‹คํ—˜ ๊ฒฐ๊ณผ์— ๋Œ€ํ•ด ์ง‘๋‹จ์  ํ–‰๋™์—ญํ•™ ๊ด€์ ์„ ๋”ํ•ด์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI์˜ ๋Šฅ๋™์  ํƒ์ƒ‰ยท์ •๋ณด ์ˆ˜์ง‘ ๋Šฅ๋ ฅ์ด ์‹ค์ œ ์‹ฌ๋ฆฌํ•™ ์‹คํ—˜ ๋Œ€๊ทœ๋ชจ ๋ณต์ œ ๊ฒฐ๊ณผ์™€ ์—ฐ๊ฒฐ๋˜์–ด, ์„ฑ๋Šฅ ํ•œ๊ณ„ ๋ถ„์„์ด ๋ณด์™„๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
188์€ LLM์ด ์ธ๊ฐ„ ์‹คํ—˜ ๋Œ€์ฒด๋ฅผ ๋„˜์–ด ์ธ์ง€๊ณผํ•™ ์ „์ฒด์  ์ž๋™ํ™” ์‹คํ—˜ ์—”์ง„ ๊ตฌ์ถ•์œผ๋กœ ํ™•์žฅํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
179์˜ LLM ํ†ตํ•œ ๋Œ€๊ทœ๋ชจ ์ธ๊ฐ„ ์‹คํ—˜ ์žฌํ˜„ ์—ฐ๊ตฌ๋Š” 247์˜ LLM ์ง‘๋‹จํ–‰๋™ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐฉ๋ฒ•์ด ์‹ค์ œ ์‹ฌ๋ฆฌยท๋ฌธํ™” ์ง„ํ™” ํƒ๊ตฌ์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •