์ ์: Antony Seabra, Claudio Cavalcante, Joรฃo Nepomuceno, Lucas Lago, Nicolaas Ruberg, Sรฉrgio Lifschitz | ๋ ์ง: 2024 | DOI: [ํด๋น ์ ๋ณด ์์] 📄 PDF
Essence
์์ด์ ํธ ์ํคํ
์ฒ
๋ค์ํ ๋ฐ์ดํฐ ์์ค(๋น์ ํ ๋ฌธ์, ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค)๋ฅผ ํตํฉํ๋ ๋ค์ค ์์ด์ ํธ ๊ธฐ๋ฐ ์ง์์๋ต ์์คํ
์ ์ ์ํ๋ค. ๋์ ํ๋กฌํํธ ์์ง๋์ด๋ง๊ณผ ํจ๊ป SQL ์์ด์ ํธ, RAG(Retrieval-Augmented Generation) ์์ด์ ํธ, ๋ผ์ฐํฐ ์์ด์ ํธ๋ฅผ ์กฐํฉํ์ฌ ์ง์ ํน์ฑ์ ๋ฐ๋ผ ์ต์ ์ ๊ฒ์ ์ ๋ต์ ์๋์ผ๋ก ์ ํํ๋ค.
Evaluation
์ดํ: ์ด ๋
ผ๋ฌธ์ ์ค๋ฌด ์ค์ฌ์ ๋ฉํฐ์์ค Q&A ์์คํ
์ ์ํด ๊ธฐ์กด LLM ๊ธฐ๋ฒ๋ค(RAG, Text-to-SQL)์ ์์ด์ ํธ ๊ธฐ๋ฐ ์ค์ผ์คํธ๋ ์ด์
์ผ๋ก ํตํฉํ ์ค์ฉ์ ์ ๊ทผ๋ฐฉ์์ ์ ์ํ๋ฉฐ, ๊ณ์ฝ ๊ด๋ฆฌ ๋๋ฉ์ธ์์์ ์์ฉ ๊ฐ์น๊ฐ ๋์ผ๋, ์ ๋์ ํ๊ฐ์ ๊ธฐ์ ์ ์ธ๋ถ์ฌํญ์ ์ ์, ๊ทธ๋ฆฌ๊ณ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ํ ๊ฒ์ฆ์ด ๋ ํ์ํ ์ํ๋ก ๋ณด์ธ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
RAG ๊ธฐ๋ฐ ์ ๋ณด ๊ฒ์๊ณผ LLM ์์ด์ ํธ์ ๋์ ํ๋กฌํํธ ์์ง๋์ด๋ง์ ๋ํ ๊ธฐ์ด๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ค์ค ์์ด์ ํธ ์์คํ
์์์ ๋ผ์ฐํ
๋ฐ ์กฐ์จ ๋ฉ์ปค๋์ฆ์ ๋ํ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
295 ๋
ผ๋ฌธ์์ ์ ์๋ ๋ฉํฐ์์ด์ ํธ ๊ธฐ๋ฐ ๋์ ์ค์ผ์คํธ๋ ์ด์
์, 396์ agentic AI๋ฅผ ์ด์ฉํ ํ๊ฐ ์ํ ํ๋ ์์ํฌ์ ๋ฉ์ ์ ๊ด๋ฆฌ ์ ๋ต์ ์ง์ ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
335๋ RAG ๊ธฐ๋ฐ ์์์ท ํ์ต ๋ฐ ๊ฒ์ ๊ฐํ LLM ์์คํ
์ฑ๋ฅ์ ๋ถ์ํ์ฌ, 295๊ฐ ์ ์ํ๋ ๋์ ์ง์ ๋ผ์ฐํ
๋ฐฉ์์ ๋ค์ํ ์คํ์ ๋์์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Dynamic multi-agent orchestration ๋
ผ๋ฌธ์ ๋ฉํฐ์์ด์ ํธ ๋ฐ ๋์ ์์๊ด๋ฆฌยทํ๋ ํ๋ ์์ํฌ๋ก, AutoGen์ ๋ํ์ค์ฌ ํ๋ ฅ ์์คํ
๊ณผ ๊ตฌ์กฐ์ ์ผ๋ก ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
295๋ฒ ๋
ผ๋ฌธ์ ๋๊ตฌ ํ์ฉ๊ณผ ๊ฒ์ ์ค์ฌ์ ๋์ ๋ฉํฐ์์ด์ ํธ ํ๋๋ ์์คํ
์ ๋ค๋ฃจ๋ฉฐ ํ๋๋ ๊ตฌ์กฐ ์ ๊ทผ์ ๋์์ ํด๋ฒ์ ์ค๋ช
ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค์ค ์์ด์ ํธ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ํ์คํฌ ์ค์ผ์คํธ๋ ์ด์
๋ฑ ์ค์ ์ฐ๊ตฌ ๋ฌธ์ ํด๊ฒฐ๋ฅ๋ ฅ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋์ผํ๊ฒ LLM์ด ๋ฐ์ดํฐ ๊ณผํ ์คํ๊ณผ์ ์ ์๋ํํ ์ ์๋์ง ํ๊ตฌํ๋ฉฐ, DiscoveryBench์ ๋น๊ตํ ๋งํ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค์ค ์์ด์ ํธ ์ค์ผ์คํธ๋ ์ด์
๊ณผ ๊ฒ์ ์ฐ๊ณ ๊ธฐ๋ฐ ์ค์ ์ํํธ์จ์ด ํ์คํฌ์์์ LLM ์คํ ๊ฒฐ๊ณผ๋ฅผ ์ํธ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ค์ํ ๋ฐ์ดํฐ ์์ค๋ฅผ ํตํฉํ๋ ๋ค์ค ์์ด์ ํธ ์ง์์๋ต ์์คํ
์ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ผ๋ก ๊ตฌํํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
RAG ์์ด์ ํธ๋ฅผ ํ์ฉํ ๊ตฌ์กฐํ-๋น๊ตฌ์กฐํ ๋ฐ์ดํฐ ํตํฉ์ ๋์์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
HiPerRAG์ ๋๊ท๋ชจ ๋ฌธํ RAG ์ ์ฉ๊ณผ ๋์ ๋ฉํฐ ์์ด์ ํธ ์ค์ผ์คํธ๋ ์ด์
๋
ผ๋ฌธ์ ๋์ฉ๋ ๊ฒ์ ๋ฐ ์ฆ๊ฐ ํ๋ ์์ํฌ์ ๋ค์ํ ๊ตฌ์กฐ์ ๊ตฌํ๋ฒ์ ๋น๊ตํด์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
295 ๋
ผ๋ฌธ์ ๋ฉํฐ์์ค ํ๊ฒฝ์์ ๋ค์ค ์์ด์ ํธ ์ค์ผ์คํธ๋ ์ด์
๊ณผ ์ ๋ณด ๊ฒ์์ ๋ค๋ฃธ์ผ๋ก์จ, MAS ์ฑ๋ฅ ์ค์ผ์ผ๋ง ๋ฒ์น์ ๋ํ ๋ค์ํ ๊ตฌํ ๋ฐฉ์์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
295๋ ๋ค์ํ ์์ค ์ค์ผ์คํธ๋ ์ด์
๋ฐ ๊ฒ์์ ํ์ฉํ ๋์ ๋ฉํฐ์์ด์ ํธ ์คํ ํ๋ ์์ํฌ๋ก, 704์ ๋ค์ํ ํ๊ฐใป์ฒดํ ํ๊ฒฝ์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
295์ ๋ฉํฐ์์ด์ ํธ ๊ธฐ๋ฐ ๊ณผํ ์ฐ๊ตฌ ์๋ํ ์์คํ
๊ณผ 3377์ SOTA ๋ชจ๋ธ ์๋ ์ฌํ/๊ฐ์ ํ๋ ์์ํฌ๊ฐ ๊ฐ์ ๋ฌธ์ ๋ฅผ ์๋นํ ์์ดํ๊ฒ ์ ๊ทผํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ ์จ ์์ธก ๋ฑ ๋ฉํฐ์์ค ์ ๋ณด ์ตํฉ๊ณผ ๋์ ์์ด์ ํธ ์กฐ์จ์ด ํ์ํ ํ๊ฒฝ์์ ๋ฅ๋์ ๊ฒ์ยท๋ณ๋ ฌ์ ์ฒ๋ฆฌ ๊ธฐ๋ฒ์ ๋ฒค์น๋งํนํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
295๋ฒ ๋
ผ๋ฌธ์ ๋ฉํฐ ์์ด์ ํธ ์ค์ผ์คํธ๋ ์ด์
๊ณผ ๊ฒ์ ๊ฐํ ์ ์ฐจ๋ฅผ ๋ค๋ค, 876๋ฒ์์ ์ ์ํ ๋ค์ค ์์ด์ ํธ ์ํธ์์ฉ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ํฉ์ฑ ๋ฐฉ๋ฒ์ ํ์ฅ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ง ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ฉํฐ์์ด์ ํธ ๊ตฌ์กฐ์ ๋ณต์ ์์ค ๊ฒ์/ํ์
์ ํตํ ๋ฌธ์ ํด๊ฒฐ๋ก, AnyTool์ ๊ณ์ธต์ ์์ด์ ํธ ์ํคํ
์ฒ์ ์ฐ๊ณํด ๋ณผ ๋งํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Dynamic multi-agent orchestration and retrieval ๋
ผ๋ฌธ์ ๋ค์ํ LLM ์์ด์ ํธ์ ๋์ ๊ด๋ฆฌ ๋ฐ ๋๊ตฌ ํ์ฉ ์ ๋ต์ Aviary์ ํ์ฅ๋ ๊ฐ์ ์คํ ํ๊ฒฝ์ผ๋ก ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
๋ค์ค ์์ค ํ๊ฒฝ์์์ ์ ๋ณด ๊ฒ์๊ณผ ์์ด์ ํธ ์ค์ผ์คํธ๋ ์ด์
์ ํตํด ์ค์ ์น ํ๊ฒฝ์์ ์ฅ๊ธฐ ์์ฌ๊ฒฐ์ ๋ฌธ์ ๋ฅผ ์ฌํ์ํด.
ํ์ ์ฐ๊ตฌ
295๋ฒ ๋
ผ๋ฌธ์ ๋์ ๋ฉํฐ์์ด์ ํธ ์ค์ผ์คํธ๋ ์ด์
์ ํตํ ๋ถ์ ์๋ํ์ ํ๊ฐ ์ฒด๊ณ๋ก์, ๋ฆฌ์ผ ์๋ ์ํฌํ๋ก์ฐ ํ๊ฐ์ ์๋์ง๊ฐ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ค์ค ์์ด์ ํธ ๊ธฐ๋ฐ ๋์ ์ค์ผ์คํธ๋ ์ด์
์์คํ
์ ๋ค์ํ ๊ณผํ(๋จธํฐ๋ฆฌ์ผ, ์๋ช
๊ณผํ) ์ํฌํ๋ก ์๋ํ์ ํ์ฅ ์ ์ฉํ ์ฌ๋ก๋ก ๋น๊ตํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
295 'Dynamic multi-agent orchestration and retrieval for multi-solution recommendation in AutoML systems' ๋
ผ๋ฌธ์ AutoML์ ๋ฉํฐ์์ด์ ํธ ๊ธฐ๋ฐ ๋์ ์ต์ ํ์ 016์ AutoML ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ์ ๋ชฉํด ์ฝ์ผ๋ฉด ์ค์ง์ ์ธ ํจ์จ-์ฑ๋ฅ ๊ฐ์ ๋ฐฉ์์ ์ป์ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
WORKFORCE์ ์ ์ฌํ ๋ชจ๋ํ ๋ฉํฐ์์ด์ ํธ ์ํธ์์ฉ ๋ฐ ๊ณํ ์๋ฆฝ ๋ฐฉ๋ฒ์ ์ต์ ๋ํฅ์ ๋ณผ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
3389(OmniScientist)๋ ์ธ๊ฐ-์์ด์ ํธ ํ๋ ฅํ ์ํ๊ณ ๋ฐ ๋์ ๊ฒ์-์์ฑ ์์ด์ ํธ ์ค๊ณ๋ฅผ ๋ค๋ฃจ์ด, 295์ ๋ค์ค ์์ด์ ํธ ์กฐ์ ๊ตฌํ์ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
295๋ ๋ค์ค ์์ด์ ํธ ์ค์ผ์คํธ๋ ์ด์
๊ณผ ๊ฒ์์ด ๊ฒฐํฉ๋ ํ๋ ์์ํฌ๋ก 229์ ๊ณต๋ ๊ธฐํ/์คํ ํ๋ฆ์ ํ์ฅ์ํต๋๋ค.
์์ฉ ์ฌ๋ก
PaperQA๋ RAG ๊ธฐ๋ฐ ์์ด์ ํธ ์์คํ
์ ์ค์ ๋
ผ๋ฌธ ์ง์์๋ต์ ์ ์ฉํ ์ฌ๋ก๋ก, ์ค์ฉ์ ํ์ฉ ๋ฐฉ์์ ๋ค๋ฃฌ๋ค.
์์ฉ ์ฌ๋ก
ScholarChemQA ๋
ผ๋ฌธ์ ๋ค์ํ ์ถ์ฒ์ ํตํฉ์ ์ง์์๋ต์ด ํ์ํ ์์ญ(์๋ช
๊ณผํ)์ 295์ multi-source QA ๋ฐฉ์์ด ์ ํฉํจ์ ๋ณด์ฌ์ค๋๋ค.