์ ์: Xun Liang, Jiawei Yang, Yezhaohui Wang, Chen Tang, Zifan Zheng, Shichao Song, Zehao Lin, Yebin Yang, Simin Niu, Hanyu Wang, Bo Tang, Feiyu Xiong, Keming Mao, Zhiyu Li | ๋ ์ง: 2025 | DOI: arXiv:2502.14776 📄 PDF
Essence
SurveyX์ ์ ์ฒด ํ์ดํ๋ผ์ธ: ์ค๋น ๋จ๊ณ(Part 1: ๋
ผ๋ฌธ ๊ฒ์ ๋ฐ ์๋ฃ ์ ์ฒ๋ฆฌ)์ ์์ฑ ๋จ๊ณ(Part 2: ๋
ผ๋ฌธ ์์ฑ ๋ฐ ๊ฐ์ )๋ก ๊ตฌ์ฑ
arXiv์ ๋งค๋
์ฆ๊ฐํ๋ ํ์ ๋
ผ๋ฌธ์ ํญ์ฆ ์์์, ๋ํ์ธ์ด๋ชจ๋ธ(LLM)์ ํ์ฉํ์ฌ ์ฒด๊ณ์ ์ด๊ณ ๊ณ ํ์ง์ ํ์ ์๋ฒ ์ด๋ฅผ ์๋ ์์ฑํ๋ SurveyX ์์คํ
์ ์ ์ํ๋ค. ์ด ์์คํ
์ ์จ๋ผ์ธ ์ฐธ๊ณ ๋ฌธํ ๊ฒ์, AttributeTree ์ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ, ๊ทธ๋ฆฌ๊ณ ๋ค๋จ๊ณ ์ต์ ํ๋ฅผ ํตํด ๊ธฐ์กด ์๋ ์๋ฒ ์ด ์์ฑ ์์คํ
์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ค.
How
SurveyX ํ์ดํ๋ผ์ธ์ ์์ธ ๊ตฌ์ฑ: Part 1์ 11๋จ๊ณ, Part 2๋ 11๋จ๊ณ๋ก ์์ฐจ์ ์ผ๋ก ์งํ
์ค๋น ๋จ๊ณ (Preparation Phase):
- ํค์๋ ํ์ฅ (1-4๋จ๊ณ): ์ด๊ธฐ ์ฃผ์ ์์ ์ถ๋ฐํ์ฌ ๊ด๋ จ ํค์๋๋ฅผ ๋ค๋จ๊ณ๋ก ํ์ฅํ์ฌ ๊ฒ์ ๋ฒ์ ๊ทน๋ํ
- ์จ๋ผ์ธ ๊ฒ์ ๋ฐ ํํฐ๋ง (1-5~1-9๋จ๊ณ): ๋ค์ค ๋ผ์ด๋ ํค์๋๋ก ํ๋ณด ๋
ผ๋ฌธ ๊ฒ์, ํด๋ฌ์คํฐ๋ง, ์ฌ์์ ์ง์ , ์ง์ง๋(Supportiveness) ๋ถ๋ฅ๋ก ๊ณ ํ์ง ๋
ผ๋ฌธ๋ง ์ ๋ณ
- AttributeTree ๊ตฌ์ฑ (1-10~1-11๋จ๊ณ): ํ์ฑ ํ
ํ๋ฆฟ ์ด๋ก ๊ธฐ๋ฐ์ผ๋ก ๋
ผ๋ฌธ์ ํต์ฌ ์์ฑ์ ํธ๋ฆฌ ๊ตฌ์กฐ๋ก ์ถ์ถํ์ฌ ์ ๋ณด ๋ฐ๋ ํฅ์ ๋ฐ ํ ํฐ ํจ์จ์ฑ ์ฆ๋
์์ฑ ๋จ๊ณ (Generation Phase):
- ๊ฐ์ ์์ฑ (2-1~2-4๋จ๊ณ): Level 1 ๊ฐ์(์ฃผ์ ์น์
) ์์ฑ ํ, Level 2 ๊ฐ์(์๋จ๊ณ) ์์ฑ, ์ต์ ํ ๋จ๊ณ์์ ์ค๋ณต ์ ๊ฑฐ ๋ฐ ๋
ผ๋ฆฌ์ ์ฌ์ ๋ ฌ
- ์ฝํ
์ธ ์์ฑ (2-5~2-7๋จ๊ณ): RAG(Retrieval Augmented Generation) ๊ธฐ๋ฒ์ผ๋ก ๊ด๋ จ ๋
ผ๋ฌธ ์ฌ๊ฒ์, ์ด์ ์์ฑ ํ ์ธ๋ฐํ ์ฌ์์ฑ์ผ๋ก ํ์ง ํฅ์
- ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ๋ง (2-8~2-10๋จ๊ณ): ๋
ผ๋ฆฌ ๋ค์ด์ด๊ทธ๋จ, ํ, ๊ทธ๋ฆผ ์์ฑ ๋ฐ LaTeX ์ฝ๋ ๋ณํ์ผ๋ก ์ต์ข
PDF ์์ฑ
Evaluation
์ดํ: SurveyX๋ LLM ๊ธฐ๋ฐ ์๋ ์๋ฒ ์ด ์์ฑ์ ์ค์ฉ์ ํ๊ณ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๊ณ , ์จ๋ผ์ธ ๊ฒ์, ์ง๋ฅํ ์ ์ฒ๋ฆฌ, ๋ฉํฐ๋ชจ๋ฌ ํ์ฅ์ ํตํด ๊ธฐ์กด AutoSurvey ๋๋น ๋ช
ํํ ์ฑ๋ฅ ํฅ์์ ์
์ฆํ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋, ํ๊ฐ์ ํฌ๊ด์ฑ๊ณผ ๋ฐฉ๋ฒ๋ก ์ ์ด๋ก ์ ๊น์ด ๊ฐํ๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Retrieval-Augmented Generation for Large Language Models ๋
ผ๋ฌธ์ RAG ๊ธฐ๋ฐ ์๋ survey ์์ฑ ๋ฑ SurveyX์ ํต์ฌ ๊ธฐ์ ์ ๊ธฐ๋ฐ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
593 ๋
ผ๋ฌธ์ RAG ๊ธฐ๋ฐ ๊ณผํ์ ๋ฌธํ ํฉ์ฑ ์์คํ
์ ์๊ฐํ์ฌ, 781์์ ๋
ผ์ํ ์ค๋ฌธ ์๋ํ ๋ฐฉ๋ฒ๋ก ์ ์ด๋ก ์ ๊ธฐ์ด๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLMs for literature review(510)๋ ํ์ ์๋ฒ ์ด ์๋ํ ๋ถ์ผ์์ LLM์ ๊ฐ๋ฅ์ฑ๊ณผ ํ๊ฐ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํ ๋ฆฌ๋ทฐ๋
ผ๋ฌธ์ด๊ธฐ ๋๋ฌธ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ํ์ฉํ ํ์ ์๋ฒ ์ด ์๋ํ ๋ฐฉ๋ฒ์ผ๋ก, ๋ฆฌ๋๋ณด๋ ์๋ ์์ฑ ํ๋ ์์ํฌ ๊ตฌ์ถ์ ๊ธฐ์ ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
SurveyX๋ LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ถ๋ฅยท์๋ํ ์๋ฒ ์ด ๋ถ์ผ๋ก, PaperRobot์ ์ง์๊ทธ๋ํ ยท ์์ฑ ๋ฐฉ๋ฒ๋ก ์ ํ์ฅยท์ ์ฉํ๋ ์ฌ๋ก๊ฐ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Surveyforge ๋
ผ๋ฌธ์ ํ์ ์๋ฒ ์ด ์๋ํ์ outline, ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ ์์ฑ ์ ๋ต์ ์ ์ํ์ฌ, SciReviewGen์ ๋๊ท๋ชจ ๋ฆฌ๋ทฐ ์์ฑ๊ณผ ๋ค๋ฅธ ์ ๋ต์ ๋น๊ตํด๋ณผ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
781์ LLM์ ํ์ฉํ ํ์ ์ค๋ฌธ ์๋ํ๋ฅผ ๋ค๋ฃจ์ด, ์ฅ๋ฌธ ๋
ผ๋ฌธ ๊ตฌ์กฐํ๋ผ๋ 109์ ๋ชฉ์ ๊ณผ ๋ฌธ์ ์์์ด ์ ์ฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SurveyX ๋
ผ๋ฌธ์ ๊ณผํ ๋
ผ๋ฌธ์ ์ฅ๋ฌธ ์์ฝ ๋ฐ ์ถ์ถ์ ์ํด ๊ทธ๋ํ ๋ฐ ๊ณ์ธต์ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ๊ตฌํ ๋ฐ ์ฑ๋ฅ์ ๋ค๋ฅด๊ฒ ๋ค๋ฃจ๋ ๋์์ ์ ๊ทผ๋ฒ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ์ค๋ฌธ ์๋ํ ๋ฐ ํต์ฌ ์ ๋ณด ์ถ์ถ์ ๋ค๋ฃจ์ด, 520์ AI ํ์ฉ ์ฐ๊ตฌ ์ํฌํ๋ก์ฐ ์๋ ์ถ์ถ๊ณผ ๋น๊ต๋๋ ๊ตฌ์กฐ์ ๋ฐ์ดํฐ ๊ตฌ์ถ ์ฌ๋ก์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
780๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์๋ ์๋ฒ ์ด ์์ฑ์์ ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ ์์ฑ ๋ฐฉ์์ ์ง์คํ์ฌ, 781๋ฒ์ ์๋ฒ ์ด ์๋ํ ์ ์ฒ๋ฆฌ ์ ๋ต๊ณผ ์ํธ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
862๋ systematic review ์๋ํ ์ฌ๋ก๋ก, LLM ๊ธฐ๋ฐ ํ์ ์๋ฒ ์ด ์๋ํ์ ์ค์ ์ฑ๊ณต ๋ฐ ํ๊ณ๋ฅผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ํ๋ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์๋ํ ๋ฐ ์ํฅ๋ ฅ ํ๊ฐ์ SurveyX๊ฐ ๋ค์ํ ์๋ํ ์์ฝ ๋ฐ ํ๊ฐ ์ฌ๋ก๋ฅผ ์ ๊ณตํ์ฌ ๋ณด์์ ์ธ ์๊ฐ์ ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
๋๊ท๋ชจ ํ์ ๋ฆฌ๋ทฐ ์๋ํ ๋ฐ ์ค๋ฌธ์ง ์์ฝ ์์ง์ ๋ฒค์น๋งํฌ๋ก, ๊ตฌ์กฐํ ์์ฝ ํ๊ฐ์ ๋ฐ์ดํฐ์
์์ฉ์ ์ ํฉํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
SurveyX๋ OARelatedWork ๋ฐ์ดํฐ์
๋ฐฉ์๊ณผ ํก์ฌํ๊ฒ ํ์ ์๋ฒ ์ด ์น์
์์ฑ ์๋ํ ๋ฐ ๋ค์ค ๋ฌธ์ ์์ฝ ์ฐ๊ตฌ๋ฅผ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
SurveyX๋ LLM ๊ธฐ๋ฐ ํ์ ๋
ผ๋ฌธ ์์ฝ ์๋ํ์ ๋ค์ํ ๋
ผ๋ฌธ ๊ฐ ๊ด๊ณ ๋ถ์ ์๋ํ๋ฅผ ์ํํ์ฌ ๋ณธ ๋
ผ๋ฌธ์ ๋ฐฉํฅ์ฑ์ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
๋
ผ๋ฌธโ์น์ฌ์ดํธ ์๋ ๋ณํ๊ณผ ๋ฌ๋ฆฌ, SurveyX๋ ํ์ ์กฐ์ฌ๋ฅผ ์๋ํํ๋ฏ๋ก, ๋
ผ๋ฌธ ์์ฐ ๋ฐ ํ์ฉ์ ์๋ํ ๋
ผ์๋ฅผ ํ์ฅํฉ๋๋ค.
์์ฉ ์ฌ๋ก
SurveyX๋ ๋๊ท๋ชจ scholarly writing ์๋ํ ์คํ์ ํตํด ์ธ์ฉ ํ
์คํธ ์์ฑ ๋ฑ LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ์์ฑ ์ ์ฒด ๊ณผ์ ๊น์ง ์ ์ฉ ๋ฒ์๋ฅผ ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
781 ๋
ผ๋ฌธ์ 449์์ ์ ์ํ RL ํ์ธํ๋ LLM์ ๊ณผํ ๋
ผ๋ฌธ ์๋ ์์ฝ ๋ฑ ์ค์ ์์ฉ ํ์คํฌ์ ์ ์ฉํ๋ ์ฌ๋ก์
๋๋ค.
์์ฉ ์ฌ๋ก
SurveyX๋ LLM ๊ธฐ๋ฐ ํ์ ์๋ํ์ retrieval ๋ฐ reasoning ์ ๋ต์ ์ค์ ์ ์ฉํ๋ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ค๋ค.