Large language models pass the turing test

์ €์ž: Cameron R. Jones, Benjamin K. Bergen | ๋‚ ์งœ: 2025 | DOI: N/A 📄 PDF


Essence

Figure 2

๊ฐ AI ์ฆ์ธ์˜ ์Šน๋ฅ (interrogator๊ฐ€ AI ์‹œ์Šคํ…œ์„ ์ธ๊ฐ„์œผ๋กœ ํŒ๋‹จํ•œ ๋น„์œจ). ์˜ค์ฐจ๋ง‰๋Œ€๋Š” 95% ๋ถ€ํŠธ์ŠคํŠธ๋žฉ ์‹ ๋ขฐ๊ตฌ๊ฐ„์„ ๋‚˜ํƒ€๋ƒ„

๋ณธ ๋…ผ๋ฌธ์€ ํ˜„๋Œ€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์ด ํŠœ๋ง ํ…Œ์ŠคํŠธ(Turing test)์˜ ์„ธ ๋ช… ์ฐธ๊ฐ€์ž ๋ฒ„์ „์„ ์ตœ์ดˆ๋กœ ํ†ต๊ณผํ–ˆ์Œ์„ ๋ณด์—ฌ์ฃผ๋Š” ์‹ค์ฆ์  ์ฆ๊ฑฐ๋ฅผ ์ œ์‹œํ•œ๋‹ค. GPT-4.5๊ฐ€ ์ ์ ˆํ•œ ํŽ˜๋ฅด์†Œ๋‚˜(persona) ํ”„๋กฌํ”„ํŠธ ํ•˜์—์„œ 73%์˜ ํ™•๋ฅ ๋กœ ์ธ๊ฐ„์œผ๋กœ ํŒ๋‹จ๋˜์—ˆ์œผ๋ฉฐ, ์ด๋Š” ์‹ค์ œ ์ธ๊ฐ„ ์ฐธ๊ฐ€์ž๋ณด๋‹ค ์œ ์˜๋ฏธํ•˜๊ฒŒ ๋†’์€ ๋น„์œจ์ด๋‹ค.

Motivation

Achievement

Figure 1

Prolific(a, b & d) ๋ฐ ํ•™๋ถ€์ƒ(c) ์—ฐ๊ตฌ์˜ 4๊ฐ€์ง€ ๊ฒŒ์ž„ ์˜ˆ์‹œ. ๊ฐ ํŒจ๋„์—์„œ ํ•œ ๋Œ€ํ™”๋Š” ์ธ๊ฐ„ ์ฆ์ธ๊ณผ, ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” AI ์‹œ์Šคํ…œ๊ณผ ์ง„ํ–‰๋จ

  1. GPT-4.5์˜ ํŠœ๋ง ํ…Œ์ŠคํŠธ ํ†ต๊ณผ: GPT-4.5-PERSONA๋Š” ์ „์ฒด 73% ์Šน๋ฅ (ํ•™๋ถ€์ƒ 69%, Prolific 76%)์„ ๊ธฐ๋กํ•˜์—ฌ ์‹ค์ œ ์ธ๊ฐ„ ์ฐธ๊ฐ€์ž๋ณด๋‹ค ์œ ์˜๋ฏธํ•˜๊ฒŒ ๋†’์€ ๋น„์œจ๋กœ ์ธ๊ฐ„์œผ๋กœ ํŒ์ •๋จ (p = 0.50, 50% ์ด์ƒ์ด๋ฏ€๋กœ ๊ท€๋ฌด๊ฐ€์„ค ์ฑ„ํƒ ๋ถˆ๊ฐ€).
  2. LLaMa์˜ ๊ฒฝ๊ณ„์„  ์„ฑ๋Šฅ: LLaMa-3.1-405B-PERSONA๋Š” 56% ์Šน๋ฅ (ํ•™๋ถ€์ƒ 45%, Prolific 65%)๋กœ ์ธ๊ฐ„๊ณผ ํ†ต๊ณ„์ ์œผ๋กœ ๊ตฌ๋ถ„๋˜์ง€ ์•Š์Œ (p = 0.08 ๋˜๋Š” p = 0.50).
  3. ๊ธฐ์ € ๋ชจ๋ธ์˜ ์‹คํŒจ: GPT-4o-NO-PERSONA(21%)์™€ ELIZA(23%)๋Š” ์œ ์˜๋ฏธํ•˜๊ฒŒ 50% ์ดํ•˜์˜ ์Šน๋ฅ ์„ ๊ธฐ๋กํ•˜์—ฌ ์กฐ์ž‘ ์ ๊ฒ€(manipulation check)์œผ๋กœ ๊ธฐ๋Šฅํ•จ.

How

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ํ˜„๋Œ€ LLM์ด 75๋…„๊ฐ„์˜ ๋„์ „ ๊ณผ์ œ์˜€๋˜ ํŠœ๋ง ํ…Œ์ŠคํŠธ๋ฅผ ํ†ต๊ณผํ–ˆ์Œ์„ ์ฒ˜์Œ์œผ๋กœ ์‹ค์ฆ์ ์œผ๋กœ ์ž…์ฆํ•œ ํš๊ธฐ์  ์—ฐ๊ตฌ์ด๋ฉฐ, ์—„๊ฒฉํ•œ ์‹คํ—˜ ์„ค๊ณ„์™€ ํ†ต๊ณ„ ๋ฐฉ๋ฒ•๋ก ์„ ๊ฐ–์ถ”์—ˆ์œผ๋‚˜, ๋”์šฑ ๋‹ค์–‘ํ•œ ํ‘œ๋ณธ๊ณผ ์‹ฌ์ธต์  ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ถ„์„์œผ๋กœ ๋ณด์™„๋  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Large language models can self-improve ๋…ผ๋ฌธ์€ LLM์˜ ์ธ๊ฐ„์ˆ˜์ค€ ์ถ”๋ก  ๋ฐ ์ ์‘๋ ฅ์˜ ๋ฐœ์ „์ƒ์„ ์กฐ๋ช…ํ•˜๋ฉฐ, ํŠœ๋ง ํ…Œ์ŠคํŠธ ํ†ต๊ณผ์™€ ๊ฐ™์€ ์„ฑ์ทจ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
GPT-4์˜ ๊ธฐ์ˆ  ๋ฆฌํฌํŠธ๋กœ, ์ตœ์‹  LLM์˜ ์ธ๊ฐ„ ์ˆ˜์ค€ ์–ธ์–ด/์ถ”๋ก  ์„ฑ๋Šฅ์˜ ๋ณธ์งˆ์„ ์ดํ•ดํ•˜๋Š” ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
800๋ฒˆ ๋…ผ๋ฌธ์€ LLM ์ •๋ ฌ(Alignment)๊ณผ ์ธ๊ฐ„๊ณผ LLM ๊ตฌ๋ณ„ ์—ญ์น˜ ๋ฌธ์ œ(ํŠœ๋งํ…Œ์ŠคํŠธ์˜ ํ•œ๊ณ„ ํฌํ•จ)๋ฅผ ๋‹ค์ฐจ์› ์‹œ๊ฐ์—์„œ ๋‹ค๋ฃจ๋ฉฐ, 477๋ฒˆ์˜ ์‹ค์ฆ ๊ฒฐ๊ณผ ํ•ด์„์— ๊ธฐ๋ฐ˜์  ํ†ต์ฐฐ์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
414๋ฒˆ ๋…ผ๋ฌธ์€ ์‹ค์ œ ํ•™์ˆ  ๊ธ€์“ฐ๊ธฐ์—์„œ AI์™€ ์ธ๊ฐ„์˜ ๋ถ„๊ฐ„ ๊ฒฝ๊ณ„, ์Šคํƒ€์ผ ๊ต๋ž€ ๋“ฑ 477๋ฒˆ Turing test ํ†ต๊ณผ์™€ ์œ ์‚ฌํ•˜๊ฒŒ '์ธ๊ฐ„์„ฑ' ํŒ๋‹จ์˜ ๋ฌธ์ œ๋ฅผ ํ˜„์žฅ ์‚ฌ๋ก€๋กœ ๋…ผ์˜ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Scholawrite ๋…ผ๋ฌธ์€ ์‚ฌ๋žŒ-LLM ๊ตฌ๋ถ„ ๋ฐ ์ž‘๋ฌธ ํ–‰ํƒœ ๋น„๊ต์—์„œ, ์ธ๊ฐ„๊ณผ LLM์˜ ํ‘œํ˜„์ƒ ์œ ์‚ฌ์„ฑ ๋ฐ ๊ตฌ๋ณ„ ํŠน์„ฑ์„ ์‹ฌ์ธต ๋ถ„์„ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์˜ ์‹ค์งˆ์  ์ถ”๋ก  ๋ฐ ์œ ์—ฐ์„ฑ ํ‰๊ฐ€๋ฅผ ๋” ์„ธ๋ฐ€ํ•œ ๋ฒค์น˜๋งˆํฌ(Task planning ๋“ฑ)๋กœ ํ™•๋Œ€ํ•ด ์ง„์ •ํ•œ ์ง€๋Šฅ ํŒ๋ณ„ ๋…ผ์˜์— ๊ธฐ์—ฌํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
GPT-4์˜ ์ธ๊ฐ„ ์ˆ˜์ค€ ๋Šฅ๋ ฅ์„ ํŠœ๋ง ํ…Œ์ŠคํŠธ ๊ธฐ๋ฐ˜์œผ๋กœ ํ™•์žฅ ์ ์šฉํ•œ ์—ฐ๊ตฌ๋กœ, ํ‰๊ฐ€ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ž‡๋Š”๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
OpenAI์˜ AGI ์ˆ˜์ค€ LLM(o1)์˜ ๋ณต์žก์ถ”๋ก ยท๊ธฐ์–ต๋ ฅ ์ธก๋ฉด์—์„œ ์ธ๊ฐ„๊ณผ์˜ ์ง์ ‘ ๋น„๊ต๋ฅผ ์‹ฌ์ธต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Litllm ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ๊ธ€์“ฐ๊ธฐยท์•„์ด๋””์–ด ์ž‘์—… ๋“ฑ์—์„œ LLM์˜ ์ธ๊ฐ„ vs. AI ๊ฐ๋ณ„์„ฑ ๊ด€๋ จ ์ •๋Ÿ‰ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ ํŠœ๋งํ…Œ์ŠคํŠธ ๋…ผ์˜์— ์‹ค์ฆ์  ์ถ”๊ฐ€๋…ผ๊ฑฐ๋ฅผ ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์‹ค์ œ ์‚ฌ์šฉ์ž๋“ค์ด LLM(์˜ˆ: GPT-4.5 ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ)์˜ ์ฑ„ํƒ๊ณผ ์ƒํ˜ธ์ž‘์šฉ ํ˜„ํ™ฉ์„ ๊ฒฝํ—˜์ ์œผ๋กœ ํ‰๊ฐ€ํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •