LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models

์ €์ž: Yadong Zhang, Shaoguang Mao, Tao Ge, Xun Wang, Adrian de Wynter | ๋‚ ์งœ: 2024 | DOI: 10.48550/arXiv.2404.01230 📄 PDF


Essence

Figure 1

Figure 1: ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์„ ์ด์šฉํ•œ ์ „๋žต์  ์ถ”๋ก  (๋‹ค์–‘ํ•œ ์ฐธ์—ฌ์ž ์—ญํ• : ๊ฒฝ๋งค ์ฐธ์—ฌ์ž, ํฌ์ปค ํ”Œ๋ ˆ์ด์–ด, ๊ฒŒ์ž„ ์ด๋ก  ๋ถ„์„๊ฐ€, ํ† ๋ก ์ž)

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์˜ ์ „๋žต์  ์ถ”๋ก (Strategic Reasoning) ๋Šฅ๋ ฅ์„ ์ข…ํ•ฉ์ ์œผ๋กœ ์กฐ์‚ฌํ•œ ์„œ๋ฒ ์ด์ด๋‹ค. ์ „๋žต์  ์ถ”๋ก ์€ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ™˜๊ฒฝ์—์„œ ์ƒ๋Œ€๋ฐฉ์˜ ํ–‰๋™์„ ์˜ˆ์ธกํ•˜๊ณ  ์ด์— ๋”ฐ๋ผ ์ „๋žต์„ ์ ์‘์ ์œผ๋กœ ์กฐ์ •ํ•˜๋Š” ๊ณ ์ฐจ์›์  ์ถ”๋ก  ๋Šฅ๋ ฅ์œผ๋กœ, LLM์ด ๋ณด์œ ํ•œ ์ƒˆ๋กœ์šด ์ธ์ง€ ๋Šฅ๋ ฅ์œผ๋กœ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ๋‹ค.

Motivation

Achievement

Figure 2

Figure 2: LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์ „๋žต์  ์ถ”๋ก  ์‹œ๋‚˜๋ฆฌ์˜ค ๋ถ„๋ฅ˜์ฒด๊ณ„ (์‚ฌํšŒ ์‹œ๋ฎฌ๋ ˆ์ด์…˜, ๊ฒฝ์ œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜, ๊ฒŒ์ž„ ์ด๋ก , ๊ฒŒ์ด๋ฐ)

  1. ์ „๋žต์  ์ถ”๋ก ์˜ ์ฒด๊ณ„์  ์ •์˜: ๋ชฉํ‘œ ์ง€ํ–ฅ์„ฑ(Goal-Oriented), ์ƒํ˜ธ์ž‘์šฉ์„ฑ(Interactivity), ์˜ˆ์ธก์„ฑ(Predictive Nature), ์ ์‘์„ฑ(Adaptability)์˜ ๋„ค ๊ฐ€์ง€ ํ•ต์‹ฌ ํŠน์„ฑ์œผ๋กœ ์ „๋žต์  ์ถ”๋ก ์„ ๋ช…ํ™•ํžˆ ์ •์˜ํ•˜๊ณ , ๊ธฐํƒ€ ์ถ”๋ก  ๊ณผ์ œ(๋…ผ๋ฆฌ ์—ฐ์—ญ, ์ˆ˜ํ•™ ์ถ”๋ก , ์ธ๊ณผ ์ถ”๋ก  ๋“ฑ)์™€ ๊ตฌ๋ถ„๋˜๋Š” ์ธ์ง€์  ์š”๊ตฌ์‚ฌํ•ญ์„ Table 1์—์„œ ๋ถ„์„
  2. ํฌ๊ด„์  ์‹œ๋‚˜๋ฆฌ์˜ค ๋ถ„๋ฅ˜: 4๋Œ€ ์นดํ…Œ๊ณ ๋ฆฌ(์‚ฌํšŒ ์‹œ๋ฎฌ๋ ˆ์ด์…˜, ๊ฒฝ์ œ ์‹œ๋ฎฌ๋ ˆ์ด์…˜, ๊ฒŒ์ž„ ์ด๋ก , ๊ฒŒ์ด๋ฐ)์™€ 10๊ฐœ ์ด์ƒ์˜ ์„ธ๋ถ€ ์‘์šฉ ์‚ฌ๋ก€(BigToM, SOTOPIA, Diplomacy, Poker, Chess ๋“ฑ)๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„๋ฅ˜ํ•˜์—ฌ LLM์˜ ์ „๋žต์  ์ถ”๋ก  ์ ์šฉ ๋ฒ”์œ„๋ฅผ ๋ช…์‹œ
  3. ๋‹ค์ธต์  ๋ฐฉ๋ฒ•๋ก  ์ œ์‹œ: ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง(Prompt Engineering), ๋ชจ๋“ˆ ๊ฐ•ํ™”(Module Enhancement: ๋ฉ”๋ชจ๋ฆฌ, ์ง€์‹, ๊ณ„ํš, ๋งˆ์Œ์˜ ์ด๋ก ), ๋ฏธ์„ธ์กฐ์ • ๋ฐ ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์„ ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ์ œ์‹œ
  4. ์ธ์ง€์  ์ฐจ์ด ๋ถ„์„: ๋…ผ๋ฆฌ์  ์ถ”๋ก  ๋Šฅ๋ ฅ, ๋ฌธ๋งฅ ์ง€๋Šฅ, ์˜ˆ์ธก ๋ถ„์„, ์ถ”์ƒ์  ์‚ฌ๊ณ , ์ธ์ง€์  ๊ณต๊ฐ ๋“ฑ ๋‹ค์–‘ํ•œ ์ธ์ง€ ๊ธฐ์ˆ ์˜ ํ•„์š”๋„๋ฅผ ๊ฐ ์ถ”๋ก  ๊ณผ์ œ๋ณ„๋กœ ๋น„๊ต ๋ถ„์„

How

Figure 3

Figure 3: LLM์˜ ์ „๋žต์  ์ถ”๋ก  ๊ฐœ์„  ๋ฐฉ๋ฒ• (์ขŒ์ƒ๋‹จ: ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง, ํ•™์Šต ๊ธฐ๋ฐ˜ ํ”„๋กฌํ”„ํŒ…, ๊ณผ์ œ๋ณ„ ํ”„๋กฌํ”„ํŒ…; ์šฐ์ƒ๋‹จ: ๋ชจ๋“ˆ ๊ฐ•ํ™”)

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM์˜ ์ „๋žต์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ข…ํ•ฉ์ ์œผ๋กœ ์ •๋ฆฌํ•œ ์‹œ์˜์ ์ ˆํ•œ ์„œ๋ฒ ์ด๋กœ, ์‚ฐ์žฌ๋œ ๋ฌธํ—Œ์˜ ์ฒด๊ณ„ํ™”์™€ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ ์ œ์‹œ์— ๊ธฐ์—ฌํ•˜์ง€๋งŒ, ์‹ค์ œ ์ ์šฉ ํ™˜๊ฒฝ์—์„œ์˜ ์‹ ๋ขฐ์„ฑ ๊ฒ€์ฆ๊ณผ ์œค๋ฆฌ์  ์œ„ํ—˜์„ฑ ๋ถ„์„์ด ๋ณด๊ฐ•๋˜์–ด์•ผ ํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‚ฌํšŒ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์˜ ์›๋ฆฌ์™€ AI ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ ์šฉ์„ ๋‹ค๋ฃจ์–ด, ์ „๋žต์  ์ถ”๋ก ๊ณผ ์‚ฌํšŒ์  ์—ญ๋™์„ฑ ์—ฐ๊ฒฐ์„ฑ์„ ์‹ฌํ™”์‹œํ‚ด.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AnyTool ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ๋‹ค์ค‘์—์ด์ „ํŠธ ํ™˜๊ฒฝ์—์„œ LLM์˜ ๋„๊ตฌ ํ™œ์šฉ ๋ฐ ์ „๋žต์  ์˜์‚ฌ๊ฒฐ์ • ๊ตฌ์กฐ๋ฅผ ์‹ฌ๋„ ์žˆ๊ฒŒ ๋ถ„์„ํ•˜์—ฌ 498์˜ ์ „๋žต์  ์ถ”๋ก  ์กฐ์‚ฌ์˜ ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
625(PlanGenLLMs)๋Š” LLM์˜ ๊ณ„ํš ๋ฐ ์ „๋žต์  ์ถ”๋ก  ๋Šฅ๋ ฅ ๋ฐœํ˜„ ์›๋ฆฌ์™€ ์ฃผ์š” ๋ฐฉ๋ฒ•๋ก ์„ ์„œ๋ฒ ์ดํ•˜์—ฌ, 498์˜ ์ „๋žต์  ์ถ”๋ก  ๋Šฅ๋ ฅ ๊ฐœ๋…์˜ ์ด๋ก ์  ํ† ๋Œ€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋‹ค์ค‘ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์ •๋ณด ์ถ”์ถœ ๋ฐ ์ „๋žต์  reasoning์˜ ํ† ๋Œ€๋ฅผ ๋งˆ๋ จํ•ด ๋ณธ ๋…ผ๋ฌธ์˜ ์ „๋žต ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ดํ•ด์— ๋ฐ”ํƒ•์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM์˜ ์ „๋žต์  ์ถ”๋ก ์„ ํฌํ•จํ•œ ๊ณผํ•™์  ์ถ”๋ก  ์„ฑ๋Šฅ ์ง„ํ™”์‚ฌ์™€ ํ•ต์‹ฌ ๊ณผ์ œ์— ๋Œ€ํ•œ ์ข…ํ•ฉ์  ๊ณ ์ฐฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
655(ReAct)๋Š” LLM์˜ reasoning-acting ๊ฒฐํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ, 498์˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์ถ”๋ก  capability ํ‰๊ฐ€์™€ ๋ณด์™„์  ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ReTool ๋…ผ๋ฌธ์€ ์ „๋žต์  ๋„๊ตฌ ์‚ฌ์šฉ์ด ๊ฐ€๋Šฅํ•œ LLM ๊ฐ•ํ™”ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, 498์˜ ์ „๋žต์  ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ์‹ค์ œ ์‹œ์Šคํ…œ ์ ์šฉ ์ธก๋ฉด์—์„œ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณ ์ฐจ์›์  ์‚ฌํšŒ์  ์œ„ํ—˜๊ณผ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์ „๋žต์  ์ถ”๋ก  ๋ฐ ํ–‰๋™ ๋™์—ญํ•™ ํ‰๊ฐ€๋กœ ๋ณธ ๋…ผ๋ฌธ ๋ถ„์„ ๋ฒ”์œ„๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
LLM์˜ ์ „๋žต์ /๊ณ ์ฐจ์›์  ์ถ”๋ก ์ด ์‹ค์ œ ๊ณผํ•™์—ฐ๊ตฌ ๋ฐ ๋…ผ๋ฌธ์ž‘์„ฑ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ ํ‰๊ฐ€์™€ ์—ฐ๊ด€์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
498์€ LLM์˜ ์ „๋žต์  ์ถ”๋ก  ๋ฐ ๋„๊ตฌ ์‚ฌ์šฉ์— ์ ์šฉ๋œ ์‹ค์ œ ์‹œ์Šคํ…œ ์‚ฌ๋ก€๋กœ, 499์˜ ํ‘œ์ค€ํ™” ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ๊ตฌํ˜„๋  ์ˆ˜ ์žˆ๋Š”์ง€ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •