์ ์: Fanjin Zhang, Shijie Shi, Yifan Zhu, Bo Chen, Yukuo Cen, Jifan Yu, Yelin Chen, Lulu Wang, Qingfei Zhao, Yuqing Cheng, Tianyi David Han, Yuwei An, Dan Zhang, Weng Lam Tam, Kun Cao, Yunhe Pang, Xinyu Guan, Huihui Yuan, Jian Song, Xiaoyan Li | ๋ ์ง: 2024 | DOI: 10.1145/3637528.3672354 📄 PDF
Essence
๊ทธ๋ฆผ 1: OAG-Bench์ ํฌ๊ด์ ๊ฐ์ - 10๊ฐ ๊ณผ์ , 20๊ฐ ๋ฐ์ดํฐ์
, 70+ ๋ฒ ์ด์ค๋ผ์ธ ๋ฐฉ๋ฒ
๋ณธ ๋
ผ๋ฌธ์ ํ์ ๊ทธ๋ํ ๋ง์ด๋(academic graph mining)์ ์ํ ํฌ๊ด์ ์ธ ์ธ๊ฐ-์ฃผ์(human-curated) ๋ฒค์น๋งํฌ์ธ OAG-Bench๋ฅผ ์ ์ํ๋ค. ๊ฐ๋ฐฉํ์ ๊ทธ๋ํ(Open Academic Graph, OAG)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์ ์ด๋ฆ ์ค๋ณต ์ ๊ฑฐ, ๋
ผ๋ฌธ ์ถ์ฒ, ํ์ ํ๋กํ์ผ๋ง ๋ฑ 10๊ฐ์ ๋ค์ํ ๊ณผ์ ๋ฅผ ํฌํจํ๋ฉฐ, ์ธ๋ฐํ ๋ค์ค ๊ด์ ์ฃผ์๊ณผ ํ์คํ๋ ํ๊ฐ ํ๋กํ ์ฝ์ ์ ๊ณตํ๋ค.
Evaluation
์ดํ: OAG-Bench๋ ํ์ ๊ทธ๋ํ ๋ง์ด๋ ๋ถ์ผ์ ํ์ํ ํฌ๊ด์ ์ด๊ณ ๊ณ ํ์ง์ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ฉฐ, 70+ ๋ฒ ์ด์ค๋ผ์ธ๊ณผ LLM ์ฑ๋ฅ ๋ถ์์ ํตํด ํ์ฌ ์๊ณ ๋ฆฌ์ฆ์ ํ๊ณ๋ฅผ ๋ช
ํํ ๋๋ฌ๋ธ๋ค. ๊ฐ๋ฐฉ์ฑ๊ณผ ํ์ฅ์ฑ์ผ๋ก ์ธํด ํ์ ๊ทธ๋ํ ๊ด๋ จ ์ฐ๊ตฌ์ ์ค์ํ ์ฐธ์กฐ์ ์ด ๋ ๊ฒ์ผ๋ก ์์๋๋, ์ฃผ์ ํ๋กํ ์ฝ์ ์ธ๋ถ ๊ธฐ์ ํ์ ๋๋ฉ์ธ ํธํฅ์ฑ ๋ถ์์ด ๋ณด์๋๋ฉด ๋์ฑ ๊ฒฌ๊ณ ํ ์์์ด ๋ ๊ฒ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
S2ORC ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ํ์ ๋
ผ๋ฌธ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถยท๊ฐ๋ฐฉํ์ฌ OAG-Bench ๋ฒค์น๋งํฌ์ ๋ฐ์ดํฐ์ ๊ธฐ๋ฐ์ ๋ง๋ญ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
580์ ์ธ์ฉ์ปจํ
์คํธ ์ถ์ฒ ๋ฌธ์ ์ ์ด๋ก ์ /์ค์ ์ ์์ ์ 882 ๋
ผ๋ฌธ์์ ์ธ์ฉ ์์ฑ ๋ฐ LLM ํ๊ฐ์ ์ต์ ๋ํฅ๊ณผ ํ๊ณ๋ก ๋ณด๊ฐ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Openscholar ์์คํ
์ OAG ๊ธฐ๋ฐ ํ์ ์ ๋ณด ์ง์ฝ ๋ฐ retrieval-augmented generation์ ํต์ฌ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
219์ ์ธ์ฉ ์ถ์ฒ ์์ฑํ ๋ชจ๋ธ์ 580์ OAG-Bench ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ํ๊ฐ์งํ๋ฅผ ํ์ฉํด ๋ณด๋ค ์๋ฐํ ํ๊ฐ๋ ์ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
OAG-Bench๋ ํ์ ์ง์ ๊ทธ๋ํ์ ๋ฒค์น๋งํฌ๋ฅผ ๋ฐ์ดํฐ์
ํ์ฉ ๊ด์ ์์ ์ ๊ณตํ์ฌ 991๋ฒ ๋
ผ๋ฌธ์ ๋ฐ์ดํฐ ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ ์๋ฃ๊ฐ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
OAG-Bench(580)๋ ๋ฉํ๋ฐ์ดํฐ๊ฐ ํ๋ถํ ๋๊ท๋ชจ ํ์ ๋ฌธํ ๊ทธ๋ํ๋ฅผ ๋ฐํ์ผ๋ก ๋ค์ํ ๋ถ์ยท๊ฒ์ฆ ์ฑ๋ฅ์ ์ํํ ์ ์๊ฒ ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ORBiC ๋ฐ์ดํฐ์
์ ํ์ ๋ฆฌ๋ทฐ ํ๊ฐ์ ์ด์ ์ ๋ง์ถ์์ผ๋, OAG-Bench์ ๊ฐ์ด ํ์ ๋น
๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ๊ณผ์ ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
OpenReview ๊ธฐ๋ฐ์ ์ปค๋ฎค๋ํฐ ์ด์ ๋ฐ ๋ฐ์ดํฐ ํ์ง ํ๋ณด ๊ด๋ จ, ๋ฒค์น๋งํฌ ๊ตฌ์ถ๊ณผ ํ๊ฐ์ ์ค์ ๋ฐฉ์์ ๋น๊ตํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
OAG-Bench๋ OpenAlex ๊ธฐ๋ฐ ๋ฐ์ดํฐ์ธํธ ํ๊ฐ ๋ฒค์น๋งํฌ๋ก ๊ธฐ๋ฅํด 993๋ฒ ๋
ผ๋ฌธ์ ๋ฐ์ดํฐ ํ์ง ๊ด์ ์ ์ฉ ์ฌ๋ก๋ฅผ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
580์ ์ธ์ฉ ์ถ์ฒ ๋ฒค์น๋งํฌ๋ 219์ CiteBART์ ๊ฐ์ ์์ฑํ ์ธ์ฉ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋๋ฐ ํ์ฉ ๊ฐ๋ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
Litllm์ ๊ณผํ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ๋ฐ ๊ฒํ ์๋ํ ๋๊ตฌ๋ก OAG-Bench์ ๋ฐ์ดํฐ๋ฅผ ์ค์ ๋ฌธํ ๊ด๋ฆฌ ๋ฐ ํ์์ ํ์ฉํ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
Splade v2 ๋ฑ์ ์ ๋ณด๊ฒ์ ๋ชจ๋ธ ์ฑ๋ฅ์ OAG-Bench์ ์ค์ ๋คํธ์ํฌ ๋ถ์ยท์ ์ ์ค๋ณต ์ ๊ฑฐ ๊ณผ์ ์ ์ ์ฉํด ํ๊ฐํ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
580์ ๋ฒค์น๋งํฌ์ ์ค์ ์ ์ฉ ์ธก๋ฉด์์, 421์ demonstration diversity์ ์ธ์ฉ ์ถ์ฒ ๋ถ์ผ LLM ํ๊ฐ๊ฐ ์ํธ ์๋์ง๋ฅผ ์ ๊ณตํ๋ค.
์์ฉ ์ฌ๋ก
ํ์ ๊ทธ๋ํ ๊ธฐ๋ฐ ์ฐ๊ตฌ ๋ฒค์น๋งํฌ๊ฐ LLM ๊ธฐ๋ฐ ๊ณผํ ์ฐ๊ตฌ ์ ์ฒด ์ํฌํ๋ก์ฐ ํ๊ฐ์ ์ด๋ป๊ฒ ํ์ฉ๋ ์ ์๋์ง ๋ณด์ฌ์ค๋ค.