Language agents mirror human causal reasoning biases

์ €์ž: Anthony GX-Chen, Dongyan Lin, Mandana Samiei, Doina Precup, Blake A. Richards, Rob Fergus, Kenneth Marino | ๋‚ ์งœ: 2025 | DOI: arXiv:2505.09614 📄 PDF


Essence

Figure 1: The Blicket Test

์–ธ์–ด ๋ชจ๋ธ์ด ๊ฐ์ฒด๋ฅผ ๊ธฐ๊ณ„์— ์˜ฌ๋ ค๋†“๋Š” ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•ด ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•ด์•ผ ํ•˜๋Š” ๋ธ”๋ฆฌ์ผ“ ํ…Œ์ŠคํŠธ

์–ธ์–ด ๋ชจ๋ธ(LM) ์—์ด์ „ํŠธ๋Š” ์ธ๊ณผ๊ด€๊ณ„ ์ถ”๋ก ์—์„œ ์„ ์–ธ์ (disjunctive, OR) ๊ทœ์น™์—๋Š” ๋Šฅํ•˜์ง€๋งŒ ๊ฒฐํ•ฉ์ (conjunctive, AND) ๊ทœ์น™์—์„œ ์ฒด๊ณ„์ ์œผ๋กœ ํŽธํ–ฅ๋˜์–ด ์žˆ์œผ๋ฉฐ, ์ด๋Ÿฌํ•œ ํŽธํ–ฅ์ด ์ธ๊ฐ„ ์„ฑ์ธ์˜ ์ธ์ง€ ํŽธํ–ฅ๊ณผ ์œ ์‚ฌํ•จ์„ ๋ณด์—ฌ์ฃผ๋Š” ์—ฐ๊ตฌ์ด๋‹ค.

Motivation

Achievement

Figure 2: Quiz accuracy of various models

๋‹ค์–‘ํ•œ ์–ธ์–ด ๋ชจ๋ธ๋“ค์˜ ์„ ์–ธ์ /๊ฒฐํ•ฉ์  ๊ทœ์น™์—์„œ์˜ ์ •ํ™•๋„: ๋ชจ๋“  ๋ชจ๋ธ์ด ๊ฒฐํ•ฉ์  ๊ทœ์น™์—์„œ ์ฒด๊ณ„์ ์œผ๋กœ ๋‚ฎ์€ ์„ฑ๋Šฅ ๋ณด์ž„

  1. ์„ ์–ธ์  ํŽธํ–ฅ ๋ฐœ๊ฒฌ: ๋ชจ๋“  LM ๋ชจ๋ธ๊ตฐ(GPT-4o, DeepSeek, Gemma ๋“ฑ)์ด ๊ฒฐํ•ฉ์  ๊ทœ์น™๋ณด๋‹ค ์„ ์–ธ์  ๊ทœ์น™์—์„œ ์‹ ๋ขฐ์„ฑ ๋†’๊ฒŒ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ž„. ์ด๋Š” ์˜ณ์€ ํƒ์ƒ‰ ๋ฐ์ดํ„ฐ๊ฐ€ ์ฃผ์–ด์ ธ๋„ ๋‚˜ํƒ€๋‚˜๋Š” ํ˜„์ƒ์œผ๋กœ, ์ˆœ์ˆ˜ํ•œ ํƒ์ƒ‰ ๋น„ํšจ์œจ์˜ ๋ฌธ์ œ๊ฐ€ ์•„๋‹˜
  2. ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ํŽธํ–ฅ ํŒจํ„ด: LM์˜ ์ถ”๋ก  ํ”„๋กœํ•„์ด ์ธ๊ฐ„ ์„ฑ์ธ์˜ ํŒจํ„ด๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ ์œ ์•„/์–ด๋ฆฐ์ด์˜ ํŒจํ„ด(ํŽธํ–ฅ ์—†๋Š” "์š”๋žŒ ์†์˜ ๊ณผํ•™์ž")๊ณผ๋Š” ๋‹ค๋ฆ„์„ ์ •๋Ÿ‰์ ์œผ๋กœ ์ž…์ฆ
  3. ๋ณตํ•ฉ ์ธ๊ณผ์š”์ธ: ์ •๋ณด ์ด๋“(information gain)๊ณผ ์ •ํ™•๋„ ๊ฐ„ ๊ฐ•ํ•œ ์ƒ๊ด€๊ด€๊ณ„(ฯ=0.76)๋ฅผ ๋ฐœ๊ฒฌํ–ˆ์œผ๋‚˜, ๋™์ผํ•œ ์ •๋ณด ์ˆ˜์ง‘ ํ›„์—๋„ ๋ชจ๋ธ์ด ๊ฒฐํ•ฉ์  ๊ฐ€์„ค์„ ์ œ๊ฑฐํ•˜์ง€ ๋ชปํ•จ
  4. ํ™•์žฅ์„ฑ ์žˆ๋Š” ๊ฐœ์„ ๋ฐฉ๋ฒ•: ํ…Œ์ŠคํŠธ ํƒ€์ž„ ์ƒ˜ํ”Œ๋ง์„ ํ†ตํ•ด ๋ช…์‹œ์ ์œผ๋กœ ์ธ๊ณผ ๊ฐ€์„ค์„ ์ƒ˜ํ”Œ๋งํ•˜๊ณ  ์ œ๊ฑฐํ•˜๋„๋ก ํ”„๋กฌํ”„ํŒ…ํ•˜๋ฉด ์„ ์–ธ์  ํŽธํ–ฅ์ด ์œ ์˜๋ฏธํ•˜๊ฒŒ ๊ฐ์†Œ

How

Figure 3: Correlation analysis

๋ชจ๋ธ ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ์š”์†Œ๋“ค: ์ •๋ณด ์ด๋“์ด ๊ฐ€์žฅ ๊ฐ•ํ•œ ์–‘์˜ ์ƒ๊ด€(ฯ=0.76), ํƒ์ƒ‰ ๋‹จ๊ณ„ ์ˆ˜๋Š” ์Œ์˜ ์ƒ๊ด€(ฯ=-0.35)

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ธ๊ณผ์ถ”๋ก  ํŽธํ–ฅ์„ ์‹ฌ๋ฆฌํ•™ ํŒจ๋Ÿฌ๋‹ค์ž„๊ณผ ์—ฐ๊ณ„ํ•˜์—ฌ ์ฒ˜์Œ์œผ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ๊ทœ๋ช…ํ•˜์˜€์œผ๋ฉฐ, ์ธ๊ฐ„ ํ–‰๋™๊ณผ์˜ ์ •๋Ÿ‰์  ๋น„๊ต๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์ด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ์ธ์ง€ ํŽธํ–ฅ์„ ์ƒ์†ํ•จ์„ ์‹ค์ฆํ–ˆ๋‹ค. ์ œ์•ˆ๋œ ๊ฐ€์„ค ์ œ๊ฑฐ ๋ฐฉ๋ฒ•์€ ์ด๋ก ์  ๊ทผ๊ฑฐ๊ฐ€ ๋ช…ํ™•ํ•˜๊ณ  ์„ฑ๋Šฅ ๊ฐœ์„ ์ด ์œ ์˜๋ฏธํ•˜๋‚˜, ๋” ๋ณต์žกํ•œ ์ธ๊ณผ ๊ตฌ์กฐ์™€ ๋‹ค์–‘ํ•œ ์ถ”๋ก  ์‹œ๋‚˜๋ฆฌ์˜ค๋กœ์˜ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค. ์ž์œจ ์—์ด์ „ํŠธ์˜ ๊ณผํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ ๊ฐ•ํ™”๋ผ๋Š” ์ค‘์š”ํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋Š” ๋†’์€ ์ˆ˜์ค€์˜ ์—ฐ๊ตฌ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์‹ ๊ฒฝ๋ง์˜ ๋‚ด์žฌ์  ์ธ๊ณผ์ถ”๋ก  ํŽธํ–ฅ๊ณผ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ถ„์„์„ ๋…ผ์˜ํ•˜๋ฉฐ, LLM์˜ ์ธ์ง€ ํŽธํ–ฅ ์—ฐ๊ตฌ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ธ๊ฐ„๊ณผ LLM์˜ ์ฐฝ์˜์„ฑ ๋ฐ ์ธ์ง€๋ฐฉ์‹ ์ฐจ์ด๋ฅผ ์‹ค์ฆ์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ, LLM์˜ ์ธ๊ณผ ์ถ”๋ก  ํŽธํ–ฅ์ด ์ธ๊ฐ„ ์ธ์ง€์™€ ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ๋˜๋Š”์ง€ ๊ทผ๊ฑฐ๋ฅผ ๋งˆ๋ จํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
345๋Š” ๋ถ„์ž ๋ฐ ๊ณผํ•™์  ์ถ”๋ก ์—์„œ LLM์˜ ์–ธ์–ด/์ง€์‹ ๊ตฌ์กฐ ํŽธํ–ฅ์„ฑ๊ณผ ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ ์„ค๊ณ„ ์›๋ฆฌ๋ฅผ ๋…ผ์˜ํ•˜์—ฌ, ์ธ๊ณผ ์ถ”๋ก  ์ธก๋ฉด์—์„œ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
173์˜ ๋™์กฐํŽธํ–ฅ ๋ฐ ์•ต์ปค๋ง ํšจ๊ณผ ๋ถ„์„์€ 458์˜ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์ธ์ง€์  ์ถ”๋ก  ํŽธํ–ฅ ์—ฐ๊ตฌ์™€ ๋ฐ€์ ‘ํ•˜๊ฒŒ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ๊ณผ ๋งฅ๋ฝ ๋‚ด ํ•™์Šต์— ๋Œ€ํ•œ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์„ ํ–‰ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—ฌ๋Ÿฌ LLM์ด ๋น„์Šทํ•œ ํ™˜๊ฐ(bias/hallucination) ํŒจํ„ด์„ ๋ณด์ด๋Š” ํŠน์„ฑ์„ ๋‹ค๋ฃจ๋ฉฐ, ์ธ๊ณผ ์ถ”๋ก  ํŽธํ–ฅ๊ณผ ๋ณตํ•ฉ์ ์œผ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์ด ์ธ๊ฐ„์˜ ์ธ๊ณผ์  ํŽธํ–ฅ ๋ฐ ์‹ฌ๋ฆฌ์  ์ฝ”๋“œ๊นŒ์ง€ ๋“œ๋Ÿฌ๋‚ด๊ณ  ๋น„ํŒ ๋Œ€์ƒ์œผ๋กœ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค๋Š” ๋ถ„์„์ด ๋ณธ ๋…ผ๋ฌธ์˜ ์‹คํ—˜์  ํ™•์žฅ์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
458๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๊ฐ€ ์ธ๊ฐ„์˜ ์ธ๊ณผ์  ํŽธํ–ฅ์„ ์–ด๋–ป๊ฒŒ ๋ชจ๋ฐฉํ•˜๋Š”์ง€ ๋ถ„์„ํ•˜๋ฉฐ, 191๋ฒˆ ์ธ๊ณผ์ถ”๋ก  ๊ฐ•ํ™” AI ์—ฐ๊ตฌ์˜ ์‹ค์ œ ์‚ฌ๋ก€ ์—ฐ๊ตฌ๋กœ ์ ํ•ฉํ•˜๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Automating quantum computing ์‹คํ—˜์—์„œ agent์˜ ์ธ๊ณผ์  ๊ฒฐ์ • ๊ณผ์ •์„ ๋ถ„์„ํ•˜๋ฉฐ, ์–ธ์–ด๋ชจ๋ธ์˜ ์ธ๊ณผ ์ถ”๋ก  ํŽธํ–ฅ๊ณผ ์—ฐ๊ฒฐ๋˜์–ด ์žˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Language agents mirrorโ€ฆ๋Š” LLM ์ธ๊ณผ์ถ”๋ก  ํŽธํ–ฅ ๋ถ„์„์„ ๊ตฌ์ฒด์  ์‚ฌ๋ก€๋กœ ์ œ์‹œํ•˜์—ฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ์˜ ์‹ค์ œ ์ ์šฉ์„ ๋ณด์—ฌ์ค€๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Systematic Framework of Application Methods ๋…ผ๋ฌธ์€ LLM์˜ ์ธ์ง€ ๋ฐ ํŽธํ–ฅ ๋ฌธ์ œ๋ฅผ ์–ธ์–ด๊ณผํ•™ ์—ฐ๊ตฌ์˜ ์ฒด๊ณ„์  ์ ์šฉ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์—ฐ๊ฒฐํ•˜์—ฌ ํ™œ์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •