์ ์: Zhi Chen, Qiguang Chen, Libo Qin, Qipeng Guo, Haijun Lv, Yicheng Zou, Hang Yan, Kai Chen, Dahua Lin | ๋ ์ง: 2024 | DOI: N/A 📄 PDF
Essence
๊ธฐ์กด Self-Instruct ๋ฐฉ์๊ณผ MIMG ํ๋ ์์ํฌ์ ๋น๊ต: ๋ค์ค ํ ์ง๋ฌธ, ๊ณ ํ์ง, ๋ค์์ฑ ์ธก๋ฉด์์์ ๊ฐ์
์ฅ๋ฌธ๋งฅ(long context) ๋๊ท๋ชจ์ธ์ด๋ชจ๋ธ(LLM) ํ๋ จ์ฉ ๊ณ ํ์ง ๋ค์ค ํ(multi-hop) ์ง์์ด ์กฐ์ ๋ฐ์ดํฐ์
์์ฑ์ ํต์ฌ ์์๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๊ท๋ช
ํ๊ณ , ๋ค์ค ์์ด์ ํธ ์ํธ์์ฉ ๊ธฐ๋ฐ์ ๋ฐ์ดํฐ ํฉ์ฑ ํ๋ ์์ํฌ(MIMG)๋ฅผ ์ ์ํ์ฌ ๊ธฐ์กด ๋ฐฉ์์ 35% ์์ค์ ๋ค์ค ํ ๋ฐ์ดํฐ๋ฅผ 85% ์ด์์ผ๋ก ๊ฐ์ ํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ฅ๋ฌธ๋งฅ ๋ค์ค ํ ์ง์์ด ๋ฐ์ดํฐ์
์์ฑ์ ํต์ฌ ์์๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๊ท๋ช
ํ๊ณ , ๋ค์ค ์์ด์ ํธ ์ํธ์์ฉ ๊ธฐ๋ฐ์ ์ค์ฉ์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ ๋ฐ์ดํฐ ํฉ์ฑ ๋ถ์ผ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ๊ด๋ฒ์ํ ์ค์ฆ ์คํ๊ณผ ์ธ๊ฐ ๋ฐ์ดํฐ ์ด๊ณผ ์ฑ๋ฅ์ด ๊ฐ์น ์์ผ๋, ํ๋ ์์ํฌ ๋ณต์ก๋์ ๊ณ์ฐ ๋น์ฉ ์ธก๋ฉด์ ์ค๋ฌด์ ์ ์ฝ์ด ๋ณด์๋์ด์ผ ํ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Retrieval-augmented generation(RAG)์ ๋ํ ์ฒด๊ณ์ ๋ถ์์ ์ฅ๋ฌธ๋งฅ RAGํ LLM ํ๋ จ ๋ฐ์ดํฐ ๊ตฌ์ฑ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
636๋ฒ ๋
ผ๋ฌธ์ ํ๋กฌํํธ ์ผ๊ด์ฑ์ด ์ค์ ์ฑ๋ฅ ํฅ์์ ๋ฏธ์น๋ ์ํฅ์ ์ง์คํ์ฌ, 876๋ฒ ๋
ผ๋ฌธ์ ๋ฉํฐ์์ด์ ํธ ๊ธฐ๋ฐ ๊ณ ํ์ง ๋ค์ค ํ ๋ฐ์ดํฐ ํฉ์ฑ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
RAG ๊ธฐ๋ฐ ์ ๋ณด ๊ฒ์๊ณผ LLM ์์ด์ ํธ์ ๋์ ํ๋กฌํํธ ์์ง๋์ด๋ง์ ๋ํ ๊ธฐ์ด๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฅ๋ฌธ๋งฅ ๋ชจ๋ธ ๋ฐ ํ๋กฌํํธ ์ค๊ณ๊ฐ ์ฌ์ฌ ํ์ง์ ๋ฏธ์น๋ ์ํฅ ๋ถ์์ ํตํด, LLM ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์์ฑ์ ๊ธฐ์ ์ ์ด์๋ฅผ ์ดํดํ๋ ๋ฐ ๋์์ด ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
746๋ฒ ๋
ผ๋ฌธ์ Self-Refine์ ๋ฐ๋ณต์ ์๊ธฐ ํผ๋๋ฐฑ ํ๋ ์์ํฌ๋ฅผ ํตํด LLM์ ์
์ถ๋ ฅ ํ์ง ๊ฐ์ ์ ๋ฌ์ฑํ๋ฉฐ, 876๋ฒ ๋
ผ๋ฌธ์์ ๋ค๋ฃจ๋ ๊ณ ํ์ง ๋ค์ค ํ ๋ฐ์ดํฐ ์์ฑ ๋ฐฉ์๊ณผ ๋์กฐ์ ์ผ๋ก ์ ๊ทผํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
675์ RAG ๋
ผ์๋ 876์์ RAG ๊ธฐ๋ฐ ์ฅ๋ฌธ๋งฅ LLM ๋ฐ์ดํฐ์
์์ฑ ๋ฐ ์ค์ ์์ด์ ํธ ํ์ต ์ ์ฉ์ผ๋ก ์ด์ด์ง๋๋ค.
ํ์ ์ฐ๊ตฌ
673๋ฒ ๋
ผ๋ฌธ์ ์ธ๊ฐ ์ฐ๊ตฌ ์ง๋จ์ ์๋ฎฌ๋ ์ด์
์ ํตํด LLM ์์คํ
์ ๋ฐ์ดํฐ ์ํธ์์ฉ ๋ฐ ๋ค์ค ํ reasoning ๋ฐ์ ๋์ ์คํ์ ์ผ๋ก ๋ถ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
295๋ฒ ๋
ผ๋ฌธ์ ๋ฉํฐ ์์ด์ ํธ ์ค์ผ์คํธ๋ ์ด์
๊ณผ ๊ฒ์ ๊ฐํ ์ ์ฐจ๋ฅผ ๋ค๋ค, 876๋ฒ์์ ์ ์ํ ๋ค์ค ์์ด์ ํธ ์ํธ์์ฉ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ํฉ์ฑ ๋ฐฉ๋ฒ์ ํ์ฅ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ง ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
์ฅ๋ฌธ ์ปจํ
์คํธ ์์ฑ์์ ํจ๊ณผ์ ํ๋กฌํํธ ์ค๊ณ ์์ธ์ ๊ณ ์ฐฐํ์ฌ, ๋ฉํ๋ฆฌ๋ทฐ ์์ฑ์ ํ์ง๊ณผ ์ผ๊ด์ฑ ๊ฐ์ ์ ์ํ ๊ตฌ์ฒด์ ์ ๋ต์ ์ ์ํ๋ค.
์์ฉ ์ฌ๋ก
์์ฑ๋ ์ฅ๋ฌธ๋งฅ ๋ฐ์ดํฐ์
์ ํจ๊ณผ๋ ์ํ์ ์ฝํ์ผ๋ฟ์ ์ฆ๋ช
๋ฐ์ดํฐ ๊ฐ์ ๊ณผ ์ง์ ์ ์ผ๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค.
์์ฉ ์ฌ๋ก
AutoBio๋ ์๋ฌผํ์ ๋ก๋ด ์๋ํ ํ๊ฒฝ์์ ๋ณต์กํ ๋ฉํฐ-์์ด์ ํธ ์ํธ์์ฉ์ ์ค์ง์ ์ผ๋ก ๊ตฌํํ์ฌ ์ฅ๋ฌธ๋งฅ RAG ํ๋ จ ์ ๋ต ํ์ฅ์ ๋์์ด ๋ฉ๋๋ค.
์์ฉ ์ฌ๋ก
ํจ๊ณผ์ ์ธ ์ฅ๋ฌธ๋งฅ ๋ชจ๋ธ ์ค๊ณ์ ๊ณ ๋ คํด์ผ ํ๋ ํต์ฌ ์์๋ฅผ ๊ฒฝํ์ ์ผ๋ก ๋ถ์ํ์ฌ ์ค์ LCLM ๊ตฌ์ถ ํ์ฅ์์ ์์ฌ์ ์ ์ ๊ณตํจ.
๋ฐ๋ก /๋นํ
Data integrity in materials science in the era of AI ๋
ผ๋ฌธ์ ๋ฐ์ดํฐ ํ์ง๊ณผ ์ ๋ขฐ์ฑ ๋ฌธ์ ๋ฅผ ์ค์ํ์ฌ, MIMG ๊ธฐ๋ฐ ๋ฐ์ดํฐ ํฉ์ฑ์ ํ๊ณ์ ์ํ์ฑ์ ๋ํ ๋นํ์ ์ธ์ฌ์ดํธ๋ฅผ ์ ๊ณตํ๋ค.