PlanGenLLMs: A Modern Survey of LLM Planning Capabilities

์ €์ž: Hui Wei, Zihao Zhang, Shenghua He, Tian Xia, Shijia Pan | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2502.11221 📄 PDF


Essence

Figure 1

Figure 1: LLM ๊ณ„ํš ์ˆ˜๋ฆฝ์˜ ๋ถ„๋ฅ˜์ฒด๊ณ„ - 6๊ฐ€์ง€ ํ•ต์‹ฌ ์„ฑ๋Šฅ ๊ธฐ์ค€๊ณผ ๋Œ€ํ‘œ ๊ธฐ๋ฒ•๋“ค์˜ ๋งคํ•‘

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๊ณ„ํš ์ˆ˜๋ฆฝ(Planning) ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ํฌ๊ด„์  ์กฐ์‚ฌ ์—ฐ๊ตฌ๋กœ, ์ดˆ๊ธฐ AI ๊ณ„ํš ์‹œ์Šคํ…œ์˜ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ํ˜„๋Œ€ํ™”ํ•˜์—ฌ 6๊ฐ€์ง€ ํ•ต์‹ฌ ์„ฑ๋Šฅ ์ง€ํ‘œ๋ฅผ ํ†ตํ•ด LLM ๊ธฐ๋ฐ˜ ๊ณ„ํš ์ˆ˜๋ฆฝ ์‹œ์Šคํ…œ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ LLM ๊ณ„ํš ์‹œ์Šคํ…œ์˜ ๋น„๊ต ํ‰๊ฐ€ ํ‹€์„ ์ œ๊ณตํ•˜๊ณ  ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ๋‹ค.

Motivation

Achievement

  1. 6๊ฐ€์ง€ ํ•ต์‹ฌ ํ‰๊ฐ€ ๊ธฐ์ค€์˜ ์ฒด๊ณ„ํ™”:
    • ์™„์ „์„ฑ(Completeness): ๊ณ„ํš ์ •ํ™•์„ฑ(plan correctness)๊ณผ ๋‹ฌ์„ฑ ๊ฐ€๋Šฅ์„ฑ(plan achievability) ํ‰๊ฐ€
    • ์‹คํ–‰ ๊ฐ€๋Šฅ์„ฑ(Executability): ๊ฐ์ฒด ์ ‘์ง€(object grounding), ํ–‰๋™ ์ ‘์ง€(action grounding), ์ƒ˜ํ”Œ-ํ•„ํ„ฐ(sample-then-filter), ํ์‡„ ๋ฃจํ”„ ์‹œ์Šคํ…œ(closed-loop systems)
    • ์ตœ์ ์„ฑ(Optimality): LLM+์ตœ์ ํ™”๊ธฐ, A* ํƒ์ƒ‰ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋ก 
    • ํ‘œํ˜„๋ ฅ(Representation): LLM-as-a-Translator vs. LLM-as-a-Planner ๊ตฌ๋ถ„
    • ์ผ๋ฐ˜ํ™”(Generalization): ๋ฏธ์„ธ ์กฐ์ •, ์ผ๋ฐ˜ํ™”๋œ ๊ณ„ํš, ๊ธฐ์ˆ  ์ €์žฅ์†Œ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ
    • ํšจ์œจ์„ฑ(Efficiency): LLM/์›”๋“œ ๋ชจ๋ธ ํ˜ธ์ถœ ๊ฐ์†Œ, ์ž…์ถœ๋ ฅ ํ† ํฐ ๋‹จ์ถ•, ์†Œํ˜• ๋ชจ๋ธ ํ™œ์šฉ
  2. ํฌ๊ด„์  ๊ธฐ๋ฒ• ๋ถ„๋ฅ˜:
    • ํƒœ์Šคํฌ ๋ถ„ํ•ด(sequential, parallel, asynchronous)
    • LLM+๊ณ ์ „ ๊ณ„ํš ์ˆ˜๋ฆฝ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐฉ์‹(LLM+P, LLM-DP ๋“ฑ)
    • ํƒ์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜(Tree of Thought, MCTS, Greedy Best-First Search)
    • ๋ฏธ์„ธ ์กฐ์ • ๊ธฐ๋ฐ˜ ์ ‘๊ทผ(RobLM, Agent-FLAN, AgentOhana)
  3. ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ ํ‰๊ฐ€ ์ž๋ฃŒ:
    • ๊ตฌ์ฒดํ™” ํ™˜๊ฒฝ(BlocksWorld, ALFRED, VirtualHome, ALFWorld)
    • ์ž‘์—… ์Šค์ผ€์ค„๋ง(TravelPlanner)
    • ๊ฒŒ์ž„(MineCraft, SmartPlay)
    • ๋„๊ตฌ ์‚ฌ์šฉ, ํ”„๋กœ๊ทธ๋ž˜๋ฐ, ์›น ๋„ค๋น„๊ฒŒ์ด์…˜ ๋“ฑ ๋‹ค์šด์ŠคํŠธ๋ฆผ ํƒœ์Šคํฌ

How

LLM ๊ณ„ํš ์ˆ˜๋ฆฝ ๊ธฐ์ดˆ ๋ฐฉ๋ฒ•๋ก 

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ณ„ํš ์ˆ˜๋ฆฝ ๋ถ„์•ผ์˜ ํ˜„ํ™ฉ์„ ํฌ๊ด„์ ์œผ๋กœ ์ •๋ฆฌํ•œ ์ค‘์š”ํ•œ ์กฐ์‚ฌ ๋…ผ๋ฌธ์œผ๋กœ, ๊ณ ์ „ AI ๊ณ„ํš ํ‰๊ฐ€ ๊ธฐ์ค€์„ ํ˜„๋Œ€ํ™”ํ•˜์—ฌ ๋„๋ฉ”์ธ ํšก๋‹จ์  ๋น„๊ต ๋ถ„์„ ํ‹€์„ ์ œ๊ณตํ•œ๋‹ค. ๋‹ค๋งŒ ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก  ์ œ์•ˆ๋ณด๋‹ค๋Š” ๊ธฐ์กด ์—ฐ๊ตฌ์˜ ์ฒด๊ณ„์  ๋ถ„๋ฅ˜์— ์ค‘์ ์„ ๋‘๊ณ  ์žˆ์œผ๋ฉฐ, ํ‘œํ˜„๋ ฅ, ํ™˜๊ฐ, ๋‹ค์ค‘ ์—์ด์ „ํŠธ ๊ณ„ํš ๋“ฑ ๋ฏธํ•ด๊ฒฐ ๋ฌธ์ œ๋“ค์„ ํ–ฅํ›„ ์—ฐ๊ตฌ ๊ณผ์ œ๋กœ ๋ช…ํ™•ํžˆ ์ œ์‹œํ•จ์œผ๋กœ์จ ํ•™๊ณ„์˜ ๊ด€์‹ฌ์„ ์œ ๋„ํ•˜๋Š” ๋ฐ ํšจ๊ณผ์ ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
A survey of reasoning with foundation models ๋…ผ๋ฌธ์€ ๊ธฐ์ดˆ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ถ”๋ก  ์ฒด๊ณ„ ์ „๋ฐ˜์„ ๋‹ค๋ฃจ์–ด, LLM ๊ณ„ํš ๋Šฅ๋ ฅ ํ˜„๋Œ€ํ™” ํ‰๊ฐ€ ํ‹€์˜ ์ด๋ก ์  ๋ฐ”ํƒ•์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์‚ฌํšŒ์  ๊ณ„ํš ๋ฐ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋‚ด LLM ํ•™์Šต ์ „๋žต์—์„œ์˜ ์‚ฌํšŒ ๊ทœ๋ฒ”์  ์ •๋ ฌ ์—ฐ๊ตฌ๊ฐ€ ๊ธฐ์ดˆ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
625๋Š” LLM ๊ธฐ๋ฐ˜ ํ”Œ๋ž˜๋‹ ๊ธฐ๋ฒ• ์ „๋ฐ˜์„ ์ตœ์‹  survey๋กœ ๋‹ค๋ฃจ๋ฉฐ, 842์˜ TREE-PLANNER ์„ค๊ณ„์™€ ๋ฐฉ๋ฒ•๋ก  ์„ ํƒ์— ๊ธฐ๋ฐ˜ ์ž๋ฃŒ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
625๋ฒˆ ๋…ผ๋ฌธ์€ LLM ํ”Œ๋ž˜๋‹ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ตœ์‹  ํŠธ๋ Œ๋“œ์™€ ๋ถ„๋ฅ˜๋ฒ•์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ •๋ฆฌํ•˜์—ฌ ์„ค๋ฌธ์  ์ธ์‚ฌ์ดํŠธ๋ฅผ ์‹ฌํ™”ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
625(PlanGenLLMs)๋Š” LLM์˜ ๊ณ„ํš ๋ฐ ์ „๋žต์  ์ถ”๋ก  ๋Šฅ๋ ฅ ๋ฐœํ˜„ ์›๋ฆฌ์™€ ์ฃผ์š” ๋ฐฉ๋ฒ•๋ก ์„ ์„œ๋ฒ ์ดํ•˜์—ฌ, 498์˜ ์ „๋žต์  ์ถ”๋ก  ๋Šฅ๋ ฅ ๊ฐœ๋…์˜ ์ด๋ก ์  ํ† ๋Œ€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณ„ํš๊ณผ ํ•จ๊ป˜ ํ…Œ์ด๋ธ” ๊ธฐ๋ฐ˜ ๋ฌธ์ œ์—์„œ์˜ LLM ๊ตฌ์กฐ์  ์ถ”๋ก  ๋ฐฉ์‹์˜ ๋‹ค์–‘์„ฑ์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค์–‘ํ•œ ๊ณผํ•™ ๋ถ„์•ผ LLM์˜ ๋ถ„๋ฅ˜์™€ ๋น„๊ต ์ธก๋ฉด์—์„œ ๋‘ ๋…ผ๋ฌธ ๋ชจ๋‘ ์ตœ์‹  LLM ๋Šฅ๋ ฅ์„ ๋ถ„์„ํ•˜๋ฉฐ, ์„œ๋กœ ๋‹ค๋ฅธ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณ„ํš ์‹œ์Šคํ…œ์˜ ์ด์งˆ์ ยท์žฌ๊ท€์  ํ”Œ๋ž˜๋‹ ์ „๋žต์„ ๊ตฌ์ฒด์ ์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ, PlanGenLLMs์˜ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ๋‹ค์–‘์„ฑ๊ณผ ์—ฐ๊ฒฐ๋จ.
ํ›„์† ์—ฐ๊ตฌ
Tree-planner๋Š” LLM ํ”Œ๋ž˜๋„ˆ์˜ ์‹ค์ œ ์‹คํ—˜์  ์•„ํ‚คํ…์ฒ˜์™€ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ๊ตฌ์ฒด์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์˜ ํ”Œ๋ž˜๋‹ ๋Šฅ๋ ฅ๊ณผ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ˜‘์—… ๊ณ„ํš ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‹ฌ๋„ ์žˆ๊ฒŒ ๋น„๊ตยท๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
625(PlanGenLLMs)๋Š” LLM์˜ ๋ณตํ•ฉ์  ๋„๊ตฌ ์‚ฌ์šฉ๊ณผ ๊ณ„ํš๋Šฅ๋ ฅ ์—ฐ๊ตฌ๋ฅผ ์ค‘์‹ฌ์œผ๋กœ 499์˜ ํˆด ํ™œ์šฉ ๋Šฅ๋ ฅ ๊ฐ•ํ™”๋ฅผ ์‹ค์งˆ์ ์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
005์—์„œ ์ •๋ฆฌํ•œ ๋กฑ์ปจํ…์ŠคํŠธ LLM์€ 625์—์„œ LLM์˜ ๊ณ„ํš์ˆ˜ํ–‰ ๋Šฅ๋ ฅ(PlanGen)์„ ์—ฐ๊ตฌํ•  ๋•Œ ๊ธฐ์ˆ ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์˜ ํ”Œ๋ž˜๋‹(๊ณ„ํš์ƒ์„ฑ) ๋ฐ ๊ธด ์ปจํ…์ŠคํŠธ ํ™œ์šฉ ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ์ตœ์‹  ์š”์•ฝ/๋™ํ–ฅ์„ ์ œ๊ณตํ•˜์—ฌ, 036์˜ ๋งฅ๋ฝ ํ™•์žฅ ํ‰๊ฐ€ ํ๋ฆ„ ๋ฐ ์„œ๋ฒ ์ด์— ์‹ค์งˆ์  ์ž๋ฃŒ๋ฅผ ๋ณด์ถฉํ•ด์คŒ.
ํ›„์† ์—ฐ๊ตฌ
PlanGenLLMs(625)๋Š” LLM ์—์ด์ „ํŠธ์˜ ํ”Œ๋ž˜๋‹/ํ˜‘๋ ฅ ๋Šฅ๋ ฅ์˜ ์ฒด๊ณ„์  ๋ถ„์„๊ณผ ํ‰๊ฐ€๋ฅผ ์ฃผ์ œ๋กœ, PiFlow์˜ ์›๋ฆฌ ๊ธฐ๋ฐ˜ ํ˜‘์—…์  ํƒ๊ตฌ๋กœ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
PlanGenLLMs๋Š” OWL์ด ์ œ์•ˆํ•œ ํ”Œ๋ž˜๋‹ ๋ถ„๋ฆฌ ๊ธฐ๋ฒ•๊ณผ ํ”Œ๋ž˜๋„ˆ ์›Œ์ปค ๊ตฌ์กฐ ๋“ฑ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ํ”Œ๋ž˜๋‹ ํ‰๊ฐ€๋ฅผ ํ™•๋Œ€ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋ณตํ•ฉ ๊ด€๊ณ„๋ง ๊ธฐ๋ฐ˜ LLM ๊ณ„ํš ๋ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€๋ฅผ ํ…Œ์ด๋ธ” ๊ธฐ๋ฐ˜ ๋ฌธ์ œ๋กœ ์‹ค์ œ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
OWL ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์‹ค์งˆ์  ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ”Œ๋ž˜๋‹ ํ‰๊ฐ€์ฒด๊ณ„๋ฅผ ์–ด๋–ป๊ฒŒ ๊ตฌ์ฒดํ™”ํ•˜๋Š”์ง€ PlanGenLLMs์˜ ํ‰๊ฐ€ ํฌ์ธํŠธ์™€ ์—ฐ๊ณ„ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •