์ ์: Xiuying Chen, Tairan Wang, Taicheng Guo, Kehan Guo, Juexiao Zhou, Haoyang Li, Mingchen Zhuge, Jรผrgen Schmidhuber, Xin Gao, Xiangliang Zhang | ๋ ์ง: 2024 | DOI: arXiv:2407.16931 📄 PDF
Essence
Figure 1: BoolQ(์ผ๋ฐ ๋๋ฉ์ธ), KGQA(ํ
ํ๋ฆฟ ๊ธฐ๋ฐ ํํ), ScholarChemQA(์ค์ ๋
ผ๋ฌธ ๊ธฐ๋ฐ) ๋น๊ต
ํํ ํ์ ๋
ผ๋ฌธ์ผ๋ก๋ถํฐ ๊ตฌ์ฑ๋ ์ฒซ ๋๊ท๋ชจ ํํ QA ๋ฐ์ดํฐ์
ScholarChemQA๋ฅผ ์ ์ํ๊ณ , ๋ถ๊ท ํํ ๋ผ๋ฒจ ๋ถํฌ์ ๋๋์ ๋ฏธํ์ง ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ QAMatch ๋ชจ๋ธ์ ์ ์ํ์ฌ LLM์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Evaluation
์ดํ: ScholarChemQA๋ ํ์ ํํ ๋ถ์ผ์ ์ง์ ํ QA ๋ฒค์์ ์ ๊ณตํ๊ณ , QAMatch๋ ๋ฐ์ง๋ํ์ต๊ณผ ๋ผ๋ฒจ ๋ถ๊ท ํ์ ๋ค๋ฃจ๋ ์ค์ฉ์ ์๋ฃจ์
์ ์ ์ํ๋ค. ํํ ๋ถ์ผ๋ฟ ์๋๋ผ ๋๋ฉ์ธ ํนํ QA ์ฐ๊ตฌ์ ๋ฐฉํฅ์ ์ ์ํ๋ ์๋ฏธ ์๋ ๊ธฐ์ฌ์ด๋, ๋ฐ์ดํฐ์
๊ท๋ชจ์ ๋ชจ๋ธ ๊ธฐ๋ฒ์ ์ผ๋ฐํ ๊ฒ์ฆ ์ธก๋ฉด์์ ๋ณด์์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
020์ 701์์ ํํ ํ์ ์ง์๊ทธ๋ํ ๋ฐ QA ๋ฐ์ดํฐ์
๊ตฌ์ถ์ ๊ธฐ๋ฐ์ด ๋๋ ๊ด๊ณํ ๊ธฐ๊ณํ์ต ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ์ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
PubMedQA ๋
ผ๋ฌธ์ ScholarChemQA ๋ฑ ๊ณผํ QA ๋ฐ์ดํฐ์
์ ์ค๊ณ์ ํ๊ฐ ๋ฐฉ์์ ์์ด ๋ํ์ ์ธ ์ ํต์ ๋ฐ์ด์ค๋ฉ๋์ปฌ QA ๋ฐ์ดํฐ์
์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํ
์ด๋ธ๊ณผ ํ
์คํธ ํผํฉ ์ง์์๋ต์ ๊ธฐ์ด๊ฐ ๋๋ ๋ฐ์ดํฐ์
์ด๋ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
MedBioLM ๋
ผ๋ฌธ์ ๋ค์ํ ์๋ช
๊ณผํ ๋ถ์ผ QA ๋ฌธ์ ํด๊ฒฐ์ ์ํ ํ์ธํ๋ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฃจ์ด, ScholarChemQA ๋ฐ์ดํฐ์
๊ฐ๋ฐ๊ณผ QAMatch ๋ชจ๋ธ ์ฐ๊ตฌ์ ๊ธฐ์ด๊ฐ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
701์ ํํ ๋ถ์ผ์์์ ๋ฉํฐ๋ชจ๋ฌ LLM ๊ธฐ๋ฐ QA ์์คํ
์ ๋ค๋ฃจ๋ฉฐ, 055์ ์๋ฃ์์ ์ ์ฉ๊ณผ ๋น๊ตํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciCode ๋
ผ๋ฌธ์ ๊ณผํ ์ฐ๊ตฌ์์ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ LLM ํ๊ฐ๋ฅผ ์ค์ ์ ์ผ๋ก ๋ค๋ฃจ๋ฉฐ, ํํ QA์ ๋ฌ๋ฆฌ ํ๋ก๊ทธ๋๋ฐ ์ค์ฌ AI ๋ฌธ์ ํด๊ฒฐ์ ๋ค๋ฅธ ์์ฉ์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋
ผ๋ฌธ ๋ชจ๋ ์์ํ/ํํ ๋ถ์ผ์ ์ง์๊ทธ๋ํ ๊ธฐ๋ฐ ์ง์์๋ต์ ๋ค๋ฃจ์ง๋ง, 018์ RAG์ ๋ฅ์ฝํน LLMs๋ฅผ ๊ฒฐํฉํ์ฌ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
701์ด LLM์ ํํ๋ฌธํ ๊ธฐ๋ฐ QA ๋ฐ์ดํฐ์
๊ฒ์ฆ์ ์ด๋ค๋ฉด, 500์ LLM ๊ธฐ๋ฐ ์ฌ์ค์ฆ๊ฑฐ(์ฝ๋ก๋ณด๋ ์ด์
) ๊ฒ์ฆ ๊ด์ ์์ ๋ฐ์ดํฐ ๋ฐ ๊ฒ์ฆํ๋ ์์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ์ ๋
ผ๋ฌธ ๊ธฐ๋ฐ์ ๊ณผํ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋์์ ๋ฒค์น๋งํฌ ์ฐ๊ตฌ์ด๋ค
๋ค๋ฅธ ์ ๊ทผ
ScholarChemQA(701)๋ ์์ํ ๋ฐ์ดํฐ ๊ณผํ ์์ญ์ QA ๋ฒค์น๋งํฌ๋ก, MedAgentGym์ด ๋ค๋ฃจ๋ ์ฝ๋ ์ค์ฌ ์คํ ํ๊ฒฝ๊ณผ ๋ณ๊ฐ๋ก ์ฃผ์ reference๊ฐ ๋๋ค.
ํ์ ์ฐ๊ตฌ
701์ ๊ณผํ QA ๋ฐ์ดํฐ์
๋ฐ ๋ชจ๋ธ์ 057์ ๊ณผํ์ ํฉํธ์ฒดํน์ ์ํ ์๋ํ ํ๋ ์์ํฌ์ ํจ๊ป ํ์ฉ๋ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
ScholarChemQA ๋
ผ๋ฌธ์ ์ธ์ฉ๊ณผ ํํ ๋๋ฉ์ธ์์ LLM์ ์ง๋ฌธ์๋ต ๋ฅ๋ ฅ์ ํ๊ฐํ์ฌ LLM์ด ํ์ ์ธ์ฉ ๋คํธ์ํฌ์ ์ด๋ป๊ฒ ์ํธ์์ฉํ ์ ์๋์ง ์ดํด์ ๋์์ด ๋๋ค.
ํ์ ์ฐ๊ตฌ
701์ ChemQA ๋ฐ์ดํฐ์
๋ฐ ํ๊ฐ ๋ฐฉ์์ 209์ ChemAgent๊ฐ ์๊ธฐ ๊ฐฑ์ ํ LLM ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ตฌํ์ผ๋ก ํ์ฅํ์ฌ ํ์ฉํฉ๋๋ค.
์์ฉ ์ฌ๋ก
ChemGymRL ๋
ผ๋ฌธ์ ํํ ์คํ ์๋ํ๋ฅผ ์ํ RL ํ๊ฒฝ์ ๊ตฌ์ถํ์ฌ, ScholarChemQA์์ ์์ฑ๋ QA ๋ฐ์ดํฐ๋ฅผ ์ค์ ๊ณผํ ์คํ์ ์ ์ฉํ๋ ๋ฐฉ์์ ์ ๊ณตํฉ๋๋ค.
์์ฉ ์ฌ๋ก
ScholarChemQA ๋
ผ๋ฌธ์ ๋ค์ํ ์ถ์ฒ์ ํตํฉ์ ์ง์์๋ต์ด ํ์ํ ์์ญ(์๋ช
๊ณผํ)์ 295์ multi-source QA ๋ฐฉ์์ด ์ ํฉํจ์ ๋ณด์ฌ์ค๋๋ค.
์์ฉ ์ฌ๋ก
701๋ฒ ๋
ผ๋ฌธ์ ํํ ๋ถ์ผ ๊ฒ์-์ฆ๊ฐ ์ง์์๋ต ํ๋ ์์ํฌ๋ฅผ ๊ฐ๋ฐํ์ฌ, 404๋ฒ HiPerRAG์ ๋๊ท๋ชจ ๊ณผํ RAG ์์คํ
์ ์ค์ง์ ์ผ๋ก ์์ฉํ๋ ์์๊ฐ ๋ฉ๋๋ค.
์์ฉ ์ฌ๋ก
ํํ ๋
ผ๋ฌธ QA ๋ฐ ๋ฐ์ดํฐ์
๊ฐ๊ณต ์ญ๋์ด ๊ตฌ์กฐ-์ธ์ ๋ฉํฐ๋ชจ๋ฌ LLM(MatterChat)์ ์ฑ๋ฅ ๋ฐ ์ค์ ํํ ๋ฌธํ ๊ธฐ๋ฐ ์์ฉ ์ฌ๋ก๋ก ํ์ฉ๋ ์ ์๋ค.
์์ฉ ์ฌ๋ก
701์ ํํ QA ๋ฌธ์ ์ถ๋ก ์์ LLM๊ณผ ๋๋ฉ์ธ ํนํ ํด์ ํ๋ ฅ์ ์ฑ๊ณผ๋ฅผ ๋ค๋ฃจ๋ฉฐ, 3126์ heterogeneous agent ํ๋ ์์ํฌ ์ค์ฉ์ฑ ํ๊ฐ์ ๋์์ ์ค๋๋ค.