์ ์: Mengkang Hu, Yao Mu, Xinmiao Yu, Mingyu Ding, Shiguang Wu, Wenqi Shao, Qiguang Chen, Bin Wang, Yu Qiao, Ping Luo | ๋ ์ง: 2023 | DOI: N/A 📄 PDF
Essence
TREE-PLANNER์ 3๋จ๊ณ ํ์ดํ๋ผ์ธ: (I) ์คํ ์ ์ ์ฌ์ ๊ณํ ์ํ๋ง, (II) ์ํ๋ง๋ ๊ณํ๋ค์ ์ง๊ณํ์ฌ ์ก์
ํธ๋ฆฌ ๊ตฌ์ฑ, (III) ํ๋ฃจํ์์ LLM์ด ์ก์
ํธ๋ฆฌ ์์์ ์์ฌ๊ฒฐ์
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ํ์ฉํ ํ๋ฃจํ ํ์คํฌ ํ๋๋์์ ํ ํฐ ํจ์จ์ฑ๊ณผ ์ค๋ฅ ์์ ํจ์จ์ฑ์ ๋์์ ๊ฐ์ ํ๋ TREE-PLANNER๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด์ ๋ฐ๋ณต์ ํ๋๋(iterative planning) ๋์ ๊ณํ ์ํ๋ง-์ก์
ํธ๋ฆฌ ๊ตฌ์ฑ-๊ทธ๋ผ์ด๋๋ ์์ฌ๊ฒฐ์ ์ 3๋จ๊ณ๋ก ์ฌ๊ตฌ์กฐํํ์ฌ ํ ํฐ ์๋น 92.2% ๊ฐ์์ ์ค๋ฅ ์์ 40.5% ๊ฐ์๋ฅผ ๋ฌ์ฑํ๋ค.
How
์ก์
ํธ๋ฆฌ ๊ตฌ์ฑ ํ๋ก์ธ์ค: ์ํ๋ง๋ ๊ณํ๋ค์ ๊ณตํต ํ๋ฆฌํฝ์ค๋ฅผ ์ง๊ณํ์ฌ ํธ๋ฆฌ ๊ตฌ์กฐ๋ก ๋ณํ
Stage I. ๊ณํ ์ํ๋ง (Plan Sampling)
- LLM(ฯ_ps, g) = {cโ, cโ, ..., c_N}์ ํตํด N๊ฐ์ ์ ์ฌ์ ๊ณํ์ ๋จ์ผ ํธ์ถ๋ก ์ํ๋ง
- ํ๋กฌํํธ ๊ตฌ์ฑ: ๋ช
๋ น์ด(instruction), ํ๊ฒฝ ์ ๋ณด(global information), ์ด๊ธฐ ๊ด์ฐฐ(initial observation), ๋ฌธ๋งฅ ์์(in-context examples)
- LLM์ ์์ ์ง์์ ๋จผ์ ์ถ์ถํ๋ ๋จ๊ณ๋ก, ์คํ ์ ๋ค์ํ ๊ณํ ํ๋ณด ์์ฑ
Stage II. ์ก์
ํธ๋ฆฌ ๊ตฌ์ฑ (Action Tree Construction)
- ์ํ๋ง๋ ๊ณํ๋ค์ ๊ณตํต ํ๋ฆฌํฝ์ค๋ฅผ ์๋ณํ๊ณ ์ง๊ณ
- ๋์ผํ ์ด๊ธฐ ์ก์
์ํ์ค๋ฅผ ๊ณต์ ํ๋ ๊ณํ๋ค์ ์ค๋ณต์ ์ ๊ฑฐํ๋ฉฐ ํธ๋ฆฌ ๊ตฌ์กฐ๋ก ๋ณํฉ
- ์ด๋ฅผ ํตํด ๊ณํ๋ค ๊ฐ์ ๊ณตํต์ฑ์ ํ์ฉํ๊ณ ์์ฌ๊ฒฐ์ ๊ณต๊ฐ์ ์ฒด๊ณํ
Stage III. ๊ทธ๋ผ์ด๋๋ ์์ฌ๊ฒฐ์ (Grounded Deciding)
- ํ๋ฃจํ: ํ๊ฒฝ ๊ด์ฐฐ์ ๋ฐ์ ์ก์
ํธ๋ฆฌ๋ฅผ top-down ๋ฐฉ์์ผ๋ก ํ์
- ๊ฐ ํ์์คํ
์์ ํ์ฌ ๋
ธ๋์ ์์ ๋
ธ๋(๊ฐ๋ฅํ ๋ค์ ์ก์
) ์ค ์ต์ ์ ์ ํ
- ์ก์
์คํจ ์ ํด๋น ๋
ธ๋๋ฅผ ๋ฌดํจ ํ์ํ๊ณ ๋ฐฑํธ๋ํนํ์ฌ ๋์ฒด ๊ฒฝ๋ก ํ์
- ๋ถ๋ถ ๊ด์ฐฐ ๊ฐ๋ฅ ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (POMDP) ํ๋ ์์ํฌ์์ ์ต์ ์ ์ฑ
ฯ(a_t|g, h_t, o_t) ์ถ๊ตฌ
ํต์ฌ ๋ฉ์ปค๋์ฆ
- ํ ํฐ ํจ์จ: ํ๊ฒฝ ์ค๋ช
๊ณผ ์์ ํ ํฐ์ด ๊ณํ ์ํ๋ง์์๋ง ์ฒญ๊ตฌ๋๊ณ , ๊ทธ๋ผ์ด๋๋ ์์ฌ๊ฒฐ์ ์์๋ ๋ ๊ฐ๊ฒฐํ ํ๋กฌํํธ ์ฌ์ฉ
- ์์ ํจ์จ: ๋ก์ปฌ ์ฌ๊ณํ(LOCAL)๋ณด๋ค ์กฐ์ ๋ฒ์๊ฐ ํฌ๊ณ , ๊ธ๋ก๋ฒ ์ฌ๊ณํ(GLOBAL)๋ณด๋ค ๋น์ฉ์ด ์ ์ ์ค๊ฐ ์ง์ ์ ๊ณต
Evaluation
์ดํ: TREE-PLANNER๋ LLM ๊ธฐ๋ฐ ํ๋ฃจํ ํ์คํฌ ํ๋๋์ ํ ํฐ ํจ์จ์ฑ๊ณผ ์ค๋ฅ ์์ ํจ์จ์ฑ์ ๋์์ ํด๊ฒฐํ๋ ์ค์ฉ์ ์ด๊ณ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก, ๊ณํ ์ํ๋ง๊ณผ ์์ฌ๊ฒฐ์ ๋ถ๋ฆฌ๋ผ๋ ๋ช
ํํ ํจ๋ฌ๋ค์ ์ ํ์ ์ ์ํ๋ค. ๋ค๋ง VirtualHome์ ๊ตญํ๋ ํ๊ฐ์ ์ค์ ๋ก๋ด ํ๊ฒฝ์ผ๋ก์ ๊ฒ์ฆ ํ์๊ฐ ๋จ์์์ด ์์ฑ๋ 4์ ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Reasoning๊ณผ ๋๊ตฌ ์ฌ์ฉ์ ํตํฉํ ReAct ํ๋ ์์ํฌ ์๊ฐ๋ก TREE-PLANNER์ ๊ตฌ์กฐ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Iterative Self-Refinement ๊ธฐ๋ฐ LLM ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ฉฐ, ํ๋ฃจํ ํ์คํฌ ํ๋๋์ ์๊ธฐ์์ ์ธก๋ฉด์์ ์์ด๋์ด๊ฐ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Tree-of-table ๋ฑ ๊ณ์ธต์ ํํ ํ์ต๊ณผ LLM reasoning ๊ด๋ จ ์ฐ๊ตฌ๊ฐ Scientific Document Summarization์ ๊ณ์ธต์ attention ์ค๊ณ์ ๊ธฐ์ด ์๋ฃ๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
625๋ LLM ๊ธฐ๋ฐ ํ๋๋ ๊ธฐ๋ฒ ์ ๋ฐ์ ์ต์ survey๋ก ๋ค๋ฃจ๋ฉฐ, 842์ TREE-PLANNER ์ค๊ณ์ ๋ฐฉ๋ฒ๋ก ์ ํ์ ๊ธฐ๋ฐ ์๋ฃ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Nova ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ํ๋๋ ๋ฐ ํ์์ ํตํ AI ์์ด์ ํธ ์ฑ๋ฅ ํฅ์ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ, TREE-PLANNER์ ๋น๊ต ์ ์๋ก์ ์ฅ๋จ์ ์ ํ๊ตฌํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
295๋ฒ ๋
ผ๋ฌธ์ ๋๊ตฌ ํ์ฉ๊ณผ ๊ฒ์ ์ค์ฌ์ ๋์ ๋ฉํฐ์์ด์ ํธ ํ๋๋ ์์คํ
์ ๋ค๋ฃจ๋ฉฐ ํ๋๋ ๊ตฌ์กฐ ์ ๊ทผ์ ๋์์ ํด๋ฒ์ ์ค๋ช
ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
101์ ๋๊ท๋ชจ ํ๋ก์ ํธ์์ ๊ณ์ธต์ self-reflective agent๋ฅผ ์ฌ์ฉํ๋ ํ๋๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํด, 842์ ํ๋ฃจํ ํ๋๋ ๊ตฌ์กฐ์ ์ข์ ๋น๊ต ๋์์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
842๋ฒ ๋
ผ๋ฌธ์ ์ ๊ตฌ์กฐํ๋ ํ ํํ ๋ฐ์ดํฐ์ ์ฒด๊ณ์ ํ๋๋ ํ๊ฐ๊ธฐ๋ฒ์ ์ ์ํ์ฌ, 802๋ฒ์ ๊ฒฌ๊ณ ์ฑ ์ค์ฌ ํ๊ฐ์ ๋์กฐ๋ฅผ ์ด๋ฃน๋๋ค.
ํ์ ์ฐ๊ตฌ
Tree-planner ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์์ด์ ํธ๊ฐ ๊ณ์ธต์ /ํ๋ฃจํ์ ํ๋๋์ ์ํํ๋ ํ๋ ์์ํฌ๋ก, HIAGENT์ ์ฅ๊ธฐ ๋งฅ๋ฝ ๊ด๋ฆฌ ๊ตฌ์กฐ๋ฅผ ์ค์ ํ๋๋์ผ๋ก ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Tree-planner ๋
ผ๋ฌธ์ ํธ๋ฆฌ ๊ธฐ๋ฐ ๊ตฌ์กฐ์ ์ถ๋ก ํจ๋ฌ๋ค์์ ๋ค๋ฃจ์ด Table-Tree ๊ธฐ๋ฒ๊ณผ ์ฐ๊ณยทํ์ฅ ๊ฐ๋ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Tree-planner๋ LLM ํ๋๋์ ์ค์ ์คํ์ ์ํคํ
์ฒ์ ํ๊ฐ ๊ธฐ์ค์ ๊ตฌ์ฒด์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
Tree-planner ๋
ผ๋ฌธ์ ํจ์จ์ ์ธ ๋ฉํฐ์คํ
์์
๊ณํ์ ์ํ LLM ๊ธฐ๋ฐ ํ๋ ์์ํฌ๋ก, RM-R1์ ์ถ๋ก ์ค์ฌ ๋ณด์๋ชจ๋ธ ์ค๊ณ ๊ฐ์ด๋๋ผ์ธ์ ์ค์ ์์ฉ ์ฌ๋ก๋ฅผ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ์ค์ง์ ์ถ๋ก ๋ฐ ์ ์ฐ์ฑ ํ๊ฐ๋ฅผ ๋ ์ธ๋ฐํ ๋ฒค์น๋งํฌ(Task planning ๋ฑ)๋ก ํ๋ํด ์ง์ ํ ์ง๋ฅ ํ๋ณ ๋
ผ์์ ๊ธฐ์ฌํ๋ค.