Essence
Figure 1: (1) Comparison of 4 prompting methods, (a) Standard, (b) Chain-of-thought (CoT,
ReAct๋ ๋ํ ์ธ์ด ๋ชจ๋ธ์ด reasoning trace์ task-specific action์ interleaved manner๋ก ์์ฑํ๋๋ก ํจ์ผ๋ก์จ, ์ถ๋ก ๊ณผ ํ๋์ ์๋์ง๋ฅผ ํตํด ๋ค์ํ ์ธ์ด ์ดํด ๋ฐ ์์ฌ๊ฒฐ์ ํ์คํฌ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ํ๋ ์์ํฌ์ด๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ReAct๋ LLM์ ์ถ๋ก ๊ณผ ํ๋์ ํ๊ธฐ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ hallucination์ ์ค์ด๊ณ ํด์ ๊ฐ๋ฅ์ฑ์ ๋์ด๋ ์ค์ํ ํ๋ ์์ํฌ์ด๋ค. Few-shot prompting๋ง์ผ๋ก ๋๊ท๋ชจ ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ฐ์ด๋๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๊ด๋ฒ์ํ ๋ฒค์น๋งํฌ์์์ ๊ฒ์ฆ๊ณผ ๋ช
ํํ ์ ์๋ก ๋์ ์ํฅ๋ ฅ์ ๊ฐ์ง ๊ฒ์ผ๋ก ์์๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ํด ํตํฉ ๊ธฐ๋ฐ ์๊ธฐ๊ฒ์ฆ๊ณผ ์์ฐ์ด ํผ๋๋ฐฑ ํ์ฉ์ด ReAct ํ๋ ์์ํฌ์ ๊ทผ๊ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ReAct ํ๋ ์์ํฌ๋ reasoning-acting ๋์ ์ ์ด์ ์ธ๋ถ ๋๊ตฌ ์ฐ๋์ผ๋ก, ์ฆ๊ฐ LLM ๋ฅ๋ ฅ์ ์ค์ง์ ๊ตฌํ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ReAct๋ ์ถ๋ก ๊ณผ ํ๋์ ๊ฒฐํฉํ LLM์ ์๋์ง๋ฅผ ๋ค๋ฃจ๋ฉฐ, MLCopilot์ ์ธ๊ฐ ์ ์ฌ ๋ฌธ์ ํด๊ฒฐ ํ๋ก์ฐ์ ๊ทผ๊ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Reasoning๊ณผ ๋๊ตฌ ์ฌ์ฉ์ ํตํฉํ ReAct ํ๋ ์์ํฌ ์๊ฐ๋ก TREE-PLANNER์ ๊ตฌ์กฐ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
655๋ฒ ReAct ๋
ผ๋ฌธ์ LLM์ด reason+act๋ฅผ ๊ฒฐํฉํ์ฌ ํ๋ก๊ทธ๋จ์ ์ผ๋ก ์ธ๋ถ ๋๊ตฌ๋ฅผ ํ์ฉํ๋ ๊ณจ๊ฒฉ์ ๋ฐฉ์์ ์ ๊ณตํด, 813๋ฒ ์ค์ค๋ก ๋๊ตฌ ์ฌ์ฉ๋ฒ์ ์ตํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ด๋ก ์ ํ ๋๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Lean-star ๋
ผ๋ฌธ์ ์ฌ๊ณ ์ ํ๋์ ๊ต์ฐจ์์ฑ(MR)๊ณผ ์ฆ๋ถ์ ์ถ๋ก ์ LLM์ ์ ์ฉํ๋ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ์ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ReAct ํ๋ ์์ํฌ๋ LLM์ ํด ์ฌ์ฉ๊ณผ ์ฒด์ธ ์ค๋ธ ์ํธ ์ถ๋ก ์ ๊ฒฐํฉํ๋ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ReAct ํ๋กฌํํธ์ ๋๊ตฌ ํธ์ถ ๋ฉ์ปค๋์ฆ์ ์๋ฆฌ๋ฅผ ์๊ฐํ๋ ๋ํ ๋
ผ๋ฌธ์ผ๋ก, ๋๋ฉ์ธ ํนํ ํ๋ ์์ํฌ์ ์์ด๋์ด ๋ฐฐ๊ฒฝ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ReAct๋ ํด ์ฌ์ฉ ๋ฅ๋ ฅ์ ์ฆ๊ฐ์ํค๋ LLM ์ค๊ณ ๋ฐฉ์์ผ๋ก, ChemToolAgent์ ๋๊ตฌ์ฆ๊ฐ ์ ๊ทผ์ ํต์ฌ์ ์ธ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ReAct(655) ๊ธฐ๋ฐ ํ๋ ์์ํฌ๊ฐ DrugAgent์ reasoning-acting ์๋์ง ๋ชจ๋ธ๋ง์์ ๊ทผ๊ฐ์ ํ์ฑํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
655๋ฒ์ ReAct ๋ฐฉ์์ LLM์ ์ถ๋ก ๊ณผ์ ์ ํ๋(๊ฒ์ ๋ฑ)์ ํตํฉํ์ฌ, 447๋ฒ ExSearch ํ๋ ์์ํฌ์ ๊ทผ๊ฐ์ด ๋๋ ๊ฐ๋
์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์์ ์ถ๋ก ๊ณผ ํ๋(verification, reasoning) ๊ฒฐํฉ ์๋ฆฌ์ ๊ธฐ๋ฐ์ ์ ์ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ReAct๋ LLM์ reasoning๊ณผ ํ๋(action) ๊ฒฐํฉ์ด๋ผ๋ ReSearch์ ๊ธฐ๋ฐ ์ฒด๊ณ๋ฅผ ์ ์ํ์ฌ ๋งฅ๋ฝ์ ์ดํดํ๋ ๋ฐ ๋์์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ReTool ํ๋ ์์ํฌ์ reasoning-tools ์ฐ๊ณ ๋ฐ ReAct ํจ๋ฌ๋ค์์ ์ฅ์ ๊ณผ ํ๊ณ๋ฅผ ๋น๊ตํ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ปค๋ฆฌํ๋ผ RL์์ ์ถ๋ก ์ ํ์ ์กฐํฉ ๋ฐ ReAct ๋ฐฉ์ ์ ์ฉ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ด ์ฌ์ฉ์ ์๋๋ฅผ ํ์
ํ๊ธฐ ์ํ ๋์์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
655(ReAct)๋ LLM์ reasoning-acting ๊ฒฐํฉ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, 498์ ๋ค์ค ์์ด์ ํธ ์ถ๋ก capability ํ๊ฐ์ ๋ณด์์ ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ReAct ํ๋ ์์ํฌ๋ reasoning and acting์ ๊ฒฐํฉ์ ํตํด symbolic world ๋ชจ๋ธ ์์ฑ ๊ฐ๋ฅ์ฑ์ ๋ค๋ฅธ ํ์ ๋ฐฉ๋ฒ์ ์ ๊ณตํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Self-Refine ๋
ผ๋ฌธ์ self-feedback ๋ฐ ๋ฐ๋ณต์ ์์ฒด ๊ฐ์ ํ๋ ์์ํฌ๋ก ReAct์ ๋ฐฉ๋ฒ๋ก ์ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
742๋ฒ ๋
ผ๋ฌธ์ ์ฒด์ธ ์ค๋ธ ์ฐ๋กฏ๊ณผ ์์ด์ ํธ ํ์
์ผ๋ก ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์๋ํ๋ฅผ ๋ค๋ฃจ์ด, 655๋ฒ์ reasoning-acting ์๋์ง ํ๋ ์์ํฌ๋ฅผ ์ค์ ๋
ผ๋ฌธ ์ฌ์ฌ์ ํ์ฅ ์ ์ฉํ ์ฌ๋ก๋ค.
์์ฉ ์ฌ๋ก
MLCopilot์ ReAct๊ฐ์ reasoning-action ๊ฒฐํฉ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์๋ํ๋ ML ์คํ์ ์์ฉํ ์ค์ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
286๋ฒ ๋
ผ๋ฌธ์ ์์ฐ๊ณผํ ๋ชจ๋ธ๋ง์ ํนํ๋ domain-specific ReAct ํ์ฅ์ ์ ์ํด, 655๋ฒ์ ์๋ฆฌ๋ฅผ ๋ค์ํ ๊ณผํ ๋ฌธ์ ์ ์ ์ฉํ ์ค์๋ฅผ ๋ณผ ์ ์๋ค.