Tree-planner: Efficient close-loop task planning with large language models

์ €์ž: Mengkang Hu, Yao Mu, Xinmiao Yu, Mingyu Ding, Shiguang Wu, Wenqi Shao, Qiguang Chen, Bin Wang, Yu Qiao, Ping Luo | ๋‚ ์งœ: 2023 | DOI: N/A 📄 PDF


Essence

Figure 2

TREE-PLANNER์˜ 3๋‹จ๊ณ„ ํŒŒ์ดํ”„๋ผ์ธ: (I) ์‹คํ–‰ ์ „ ์ž ์žฌ์  ๊ณ„ํš ์ƒ˜ํ”Œ๋ง, (II) ์ƒ˜ํ”Œ๋ง๋œ ๊ณ„ํš๋“ค์„ ์ง‘๊ณ„ํ•˜์—ฌ ์•ก์…˜ ํŠธ๋ฆฌ ๊ตฌ์„ฑ, (III) ํ๋ฃจํ”„์—์„œ LLM์ด ์•ก์…˜ ํŠธ๋ฆฌ ์ƒ์—์„œ ์˜์‚ฌ๊ฒฐ์ •

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์„ ํ™œ์šฉํ•œ ํ๋ฃจํ”„ ํƒœ์Šคํฌ ํ”Œ๋ž˜๋‹์—์„œ ํ† ํฐ ํšจ์œจ์„ฑ๊ณผ ์˜ค๋ฅ˜ ์ˆ˜์ • ํšจ์œจ์„ฑ์„ ๋™์‹œ์— ๊ฐœ์„ ํ•˜๋Š” TREE-PLANNER๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด์˜ ๋ฐ˜๋ณต์  ํ”Œ๋ž˜๋‹(iterative planning) ๋Œ€์‹  ๊ณ„ํš ์ƒ˜ํ”Œ๋ง-์•ก์…˜ ํŠธ๋ฆฌ ๊ตฌ์„ฑ-๊ทธ๋ผ์šด๋””๋“œ ์˜์‚ฌ๊ฒฐ์ •์˜ 3๋‹จ๊ณ„๋กœ ์žฌ๊ตฌ์กฐํ™”ํ•˜์—ฌ ํ† ํฐ ์†Œ๋น„ 92.2% ๊ฐ์†Œ์™€ ์˜ค๋ฅ˜ ์ˆ˜์ • 40.5% ๊ฐ์†Œ๋ฅผ ๋‹ฌ์„ฑํ•œ๋‹ค.

Motivation

Achievement

Figure 1

๊ธฐ์กด ๋ฐ˜๋ณต์  ํ”Œ๋ž˜๋‹ ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ๊ฐœ์š”

  1. ํ† ํฐ ํšจ์œจ์„ฑ: ITERATIVE-PLANNER ๋Œ€๋น„ 53.29%, LOCAL REPLAN ๋Œ€๋น„ 74.36%, GLOBAL REPLAN ๋Œ€๋น„ 92.24% ํ† ํฐ ์†Œ๋น„ ๊ฐ์†Œ. ํ™˜๊ฒฝ ์ •๋ณด์™€ ๋ฌธ๋งฅ ์˜ˆ์‹œ๊ฐ€ ๊ณ„ํš ์ƒ˜ํ”Œ๋ง ๋‹จ๊ณ„์—์„œ ๋‹จ 1ํšŒ๋งŒ ์ฒญ๊ตฌ๋˜๊ธฐ ๋•Œ๋ฌธ.
  2. ์ˆ˜์ • ํšจ์œจ์„ฑ: LOCAL REPLAN ๋Œ€๋น„ 37.99%, GLOBAL REPLAN ๋Œ€๋น„ 40.52% ์˜ค๋ฅ˜ ์ˆ˜์ • ํšŸ์ˆ˜ ๊ฐ์†Œ. ์•ก์…˜ ํŠธ๋ฆฌ์˜ ๋ฐฑํŠธ๋ž˜ํ‚น์œผ๋กœ ๋ถˆํ•„์š”ํ•œ ์žฌ๊ฒฐ์ • ๊ฐ์†Œ.
  3. ์„ฑ๋Šฅ: VirtualHome ํ™˜๊ฒฝ์—์„œ ์ˆ˜์ • ์—†๋Š” ์„ค์ •(no correction)์—์„œ ๊ธฐ์กด ์ตœ๊ณ  ์„ฑ๋Šฅ ๋Œ€๋น„ 3.65%, ์ˆ˜์ • ์žˆ๋Š” ์„ค์ •(with correction)์—์„œ 1.29% ํ–ฅ์ƒ.

How

Figure 3

์•ก์…˜ ํŠธ๋ฆฌ ๊ตฌ์„ฑ ํ”„๋กœ์„ธ์Šค: ์ƒ˜ํ”Œ๋ง๋œ ๊ณ„ํš๋“ค์˜ ๊ณตํ†ต ํ”„๋ฆฌํ”ฝ์Šค๋ฅผ ์ง‘๊ณ„ํ•˜์—ฌ ํŠธ๋ฆฌ ๊ตฌ์กฐ๋กœ ๋ณ€ํ™˜

Stage I. ๊ณ„ํš ์ƒ˜ํ”Œ๋ง (Plan Sampling)

Stage II. ์•ก์…˜ ํŠธ๋ฆฌ ๊ตฌ์„ฑ (Action Tree Construction)

Stage III. ๊ทธ๋ผ์šด๋””๋“œ ์˜์‚ฌ๊ฒฐ์ • (Grounded Deciding)

ํ•ต์‹ฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜

Originality

Limitation & Further Study

Evaluation

์ดํ‰: TREE-PLANNER๋Š” LLM ๊ธฐ๋ฐ˜ ํ๋ฃจํ”„ ํƒœ์Šคํฌ ํ”Œ๋ž˜๋‹์˜ ํ† ํฐ ํšจ์œจ์„ฑ๊ณผ ์˜ค๋ฅ˜ ์ˆ˜์ • ํšจ์œจ์„ฑ์„ ๋™์‹œ์— ํ•ด๊ฒฐํ•˜๋Š” ์‹ค์šฉ์ ์ด๊ณ  ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์œผ๋กœ, ๊ณ„ํš ์ƒ˜ํ”Œ๋ง๊ณผ ์˜์‚ฌ๊ฒฐ์ • ๋ถ„๋ฆฌ๋ผ๋Š” ๋ช…ํ™•ํ•œ ํŒจ๋Ÿฌ๋‹ค์ž„ ์ „ํ™˜์„ ์ œ์‹œํ•œ๋‹ค. ๋‹ค๋งŒ VirtualHome์— ๊ตญํ•œ๋œ ํ‰๊ฐ€์™€ ์‹ค์ œ ๋กœ๋ด‡ ํ™˜๊ฒฝ์œผ๋กœ์˜ ๊ฒ€์ฆ ํ•„์š”๊ฐ€ ๋‚จ์•„์žˆ์–ด ์™„์„ฑ๋„ 4์ ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Reasoning๊ณผ ๋„๊ตฌ ์‚ฌ์šฉ์„ ํ†ตํ•ฉํ•œ ReAct ํ”„๋ ˆ์ž„์›Œํฌ ์†Œ๊ฐœ๋กœ TREE-PLANNER์˜ ๊ตฌ์กฐ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Iterative Self-Refinement ๊ธฐ๋ฐ˜ LLM ๊ตฌ์กฐ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, ํ๋ฃจํ”„ ํƒœ์Šคํฌ ํ”Œ๋ž˜๋‹์˜ ์ž๊ธฐ์ˆ˜์ • ์ธก๋ฉด์—์„œ ์•„์ด๋””์–ด๊ฐ€ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Tree-of-table ๋“ฑ ๊ณ„์ธต์  ํ‘œํ˜„ ํ•™์Šต๊ณผ LLM reasoning ๊ด€๋ จ ์—ฐ๊ตฌ๊ฐ€ Scientific Document Summarization์˜ ๊ณ„์ธต์  attention ์„ค๊ณ„์— ๊ธฐ์ดˆ ์ž๋ฃŒ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
625๋Š” LLM ๊ธฐ๋ฐ˜ ํ”Œ๋ž˜๋‹ ๊ธฐ๋ฒ• ์ „๋ฐ˜์„ ์ตœ์‹  survey๋กœ ๋‹ค๋ฃจ๋ฉฐ, 842์˜ TREE-PLANNER ์„ค๊ณ„์™€ ๋ฐฉ๋ฒ•๋ก  ์„ ํƒ์— ๊ธฐ๋ฐ˜ ์ž๋ฃŒ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Nova ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ํ”Œ๋ž˜๋‹ ๋ฐ ํƒ์ƒ‰์„ ํ†ตํ•œ AI ์—์ด์ „ํŠธ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ, TREE-PLANNER์™€ ๋น„๊ต ์‹œ ์„œ๋กœ์˜ ์žฅ๋‹จ์ ์„ ํƒ๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
295๋ฒˆ ๋…ผ๋ฌธ์€ ๋„๊ตฌ ํ™œ์šฉ๊ณผ ๊ฒ€์ƒ‰ ์ค‘์‹ฌ์˜ ๋™์  ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ”Œ๋ž˜๋‹ ์‹œ์Šคํ…œ์„ ๋‹ค๋ฃจ๋ฉฐ ํ”Œ๋ž˜๋‹ ๊ตฌ์กฐ ์ ‘๊ทผ์˜ ๋Œ€์•ˆ์  ํ•ด๋ฒ•์„ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
101์€ ๋Œ€๊ทœ๋ชจ ํ”„๋กœ์ ํŠธ์—์„œ ๊ณ„์ธต์  self-reflective agent๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ํ”Œ๋ž˜๋‹ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•ด, 842์˜ ํ๋ฃจํ”„ ํ”Œ๋ž˜๋‹ ๊ตฌ์กฐ์™€ ์ข‹์€ ๋น„๊ต ๋Œ€์ƒ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
842๋ฒˆ ๋…ผ๋ฌธ์€ ์ž˜ ๊ตฌ์กฐํ™”๋œ ํ‘œ ํ˜•ํƒœ ๋ฐ์ดํ„ฐ์˜ ์ฒด๊ณ„์  ํ”Œ๋ž˜๋‹ ํ‰๊ฐ€๊ธฐ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ, 802๋ฒˆ์˜ ๊ฒฌ๊ณ ์„ฑ ์ค‘์‹ฌ ํ‰๊ฐ€์™€ ๋Œ€์กฐ๋ฅผ ์ด๋ฃน๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Tree-planner ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ๊ฐ€ ๊ณ„์ธต์ /ํ๋ฃจํ”„์  ํ”Œ๋ž˜๋‹์„ ์ˆ˜ํ–‰ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, HIAGENT์˜ ์žฅ๊ธฐ ๋งฅ๋ฝ ๊ด€๋ฆฌ ๊ตฌ์กฐ๋ฅผ ์‹ค์ œ ํ”Œ๋ž˜๋‹์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Tree-planner ๋…ผ๋ฌธ์€ ํŠธ๋ฆฌ ๊ธฐ๋ฐ˜ ๊ตฌ์กฐ์  ์ถ”๋ก  ํŒจ๋Ÿฌ๋‹ค์ž„์„ ๋‹ค๋ฃจ์–ด Table-Tree ๊ธฐ๋ฒ•๊ณผ ์—ฐ๊ณ„ยทํ™•์žฅ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Tree-planner๋Š” LLM ํ”Œ๋ž˜๋„ˆ์˜ ์‹ค์ œ ์‹คํ—˜์  ์•„ํ‚คํ…์ฒ˜์™€ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ๊ตฌ์ฒด์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Tree-planner ๋…ผ๋ฌธ์€ ํšจ์œจ์ ์ธ ๋ฉ€ํ‹ฐ์Šคํ… ์ž‘์—… ๊ณ„ํš์„ ์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, RM-R1์˜ ์ถ”๋ก  ์ค‘์‹ฌ ๋ณด์ƒ๋ชจ๋ธ ์„ค๊ณ„ ๊ฐ€์ด๋“œ๋ผ์ธ์— ์‹ค์ œ ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์˜ ์‹ค์งˆ์  ์ถ”๋ก  ๋ฐ ์œ ์—ฐ์„ฑ ํ‰๊ฐ€๋ฅผ ๋” ์„ธ๋ฐ€ํ•œ ๋ฒค์น˜๋งˆํฌ(Task planning ๋“ฑ)๋กœ ํ™•๋Œ€ํ•ด ์ง„์ •ํ•œ ์ง€๋Šฅ ํŒ๋ณ„ ๋…ผ์˜์— ๊ธฐ์—ฌํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •