OAG-Bench: A Human-Curated Benchmark for Academic Graph Mining

์ €์ž: Fanjin Zhang, Shijie Shi, Yifan Zhu, Bo Chen, Yukuo Cen, Jifan Yu, Yelin Chen, Lulu Wang, Qingfei Zhao, Yuqing Cheng, Tianyi David Han, Yuwei An, Dan Zhang, Weng Lam Tam, Kun Cao, Yunhe Pang, Xinyu Guan, Huihui Yuan, Jian Song, Xiaoyan Li | ๋‚ ์งœ: 2024 | DOI: 10.1145/3637528.3672354 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: OAG-Bench์˜ ํฌ๊ด„์  ๊ฐœ์š” - 10๊ฐœ ๊ณผ์ œ, 20๊ฐœ ๋ฐ์ดํ„ฐ์…‹, 70+ ๋ฒ ์ด์Šค๋ผ์ธ ๋ฐฉ๋ฒ•

๋ณธ ๋…ผ๋ฌธ์€ ํ•™์ˆ  ๊ทธ๋ž˜ํ”„ ๋งˆ์ด๋‹(academic graph mining)์„ ์œ„ํ•œ ํฌ๊ด„์ ์ธ ์ธ๊ฐ„-์ฃผ์„(human-curated) ๋ฒค์น˜๋งˆํฌ์ธ OAG-Bench๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๊ฐœ๋ฐฉํ•™์ˆ ๊ทธ๋ž˜ํ”„(Open Academic Graph, OAG)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ €์ž ์ด๋ฆ„ ์ค‘๋ณต ์ œ๊ฑฐ, ๋…ผ๋ฌธ ์ถ”์ฒœ, ํ•™์ž ํ”„๋กœํŒŒ์ผ๋ง ๋“ฑ 10๊ฐœ์˜ ๋‹ค์–‘ํ•œ ๊ณผ์ œ๋ฅผ ํฌํ•จํ•˜๋ฉฐ, ์„ธ๋ฐ€ํ•œ ๋‹ค์ค‘ ๊ด€์  ์ฃผ์„๊ณผ ํ‘œ์ค€ํ™”๋œ ํ‰๊ฐ€ ํ”„๋กœํ† ์ฝœ์„ ์ œ๊ณตํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: OAG-Bench์˜ ์ „์ฒด ๊ตฌ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ - ํ•™์ˆ  ๊ฐœ์ฒด ๊ตฌ์„ฑ์—์„œ ๊ทธ๋ž˜ํ”„ ์™„์„ฑ, ์ง€์‹ ํš๋“, ์ถ”์  ๋ฐ ์˜ˆ์ธก์œผ๋กœ ์ง„ํ–‰

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ์ž์›: 20๊ฐœ์˜ ์ธ๊ฐ„-์ฃผ์„ ๋ฐ์ดํ„ฐ์…‹(๊ทœ๋ชจ: ์ˆ˜์ฒœ์—์„œ ์ˆ˜๋ฐฑ๋งŒ), 10๊ฐœ ๊ณผ์ œ, 70+ ๋ฒ ์ด์Šค๋ผ์ธ ๋ฐฉ๋ฒ•์œผ๋กœ ๊ตฌ์„ฑ๋œ ํ•™์ˆ  ๊ทธ๋ž˜ํ”„ ๋งˆ์ด๋‹์˜ ์ „ ์ƒ๋ช…์ฃผ๊ธฐ(full life cycle)๋ฅผ ์ปค๋ฒ„ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
  2. ์ƒˆ๋กœ์šด ์ฃผ์„ ์ „๋žต: ๋ถˆ์ผ์น˜ํ•˜๋Š” ๋…ผ๋ฌธ-์ €์ž ํ• ๋‹น ๊ฒ€์ถœ์„ ์œ„ํ•ด ์ถœ์ฒ˜ ๊ฐ„ ๋…ผ๋ฌธ ํ• ๋‹น ๊ฒ€์‚ฌ(cross-source paper assignment checking) ๋ฐ ์˜จ๋ผ์ธ ๋…ผ๋ฌธ ์ฝ๊ธฐ ๊ทธ๋ฃน์„ ํ†ตํ•œ ๋…ผ๋ฌธ ์ถœ์ฒ˜ ํ‘œ์‹œ ๋“ฑ์˜ ํ˜์‹ ์ ์ธ ์ฃผ์„ ์ „๋žต์„ ์ œ์•ˆํ•œ๋‹ค.
  3. ์—„๊ฒฉํ•œ ์‹คํ—˜ ๊ฒ€์ฆ: LLM(Large Language Models)์„ ํฌํ•จํ•œ ์ตœ์‹  ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค๋„ ๋…ผ๋ฌธ ์ถœ์ฒ˜ ์ถ”์ (paper source tracing)๊ณผ ํ•™์ž ํ”„๋กœํŒŒ์ผ๋ง(scholar profiling) ๊ฐ™์€ ํ•ต์‹ฌ ๊ณผ์ œ์—์„œ ์–ด๋ ค์›€์„ ๊ฒช๋Š”๋‹ค๋Š” ๊ฒƒ์„ ์‹คํ—˜์ ์œผ๋กœ ์ž…์ฆํ•œ๋‹ค.
  4. ์™„์ „ํ•œ ๊ฐœ๋ฐœ ์ƒํƒœ๊ณ„: ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ์ฝ”๋“œ, ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ตฌํ˜„, ํ‘œ์ค€ํ™”๋œ ํ‰๊ฐ€ ํ”„๋กœํ† ์ฝœ, ๋ฆฌ๋”๋ณด๋“œ๋ฅผ ์ œ๊ณตํ•˜์—ฌ ์—ฐ๊ตฌ์ž๋“ค์ด ๋น ๋ฅด๊ฒŒ ์‹œ์ž‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•œ๋‹ค.

How

Figure 2

ํ•™์ˆ  ๊ฐœ์ฒด ๊ตฌ์„ฑ๋ถ€ํ„ฐ ์‘์šฉ๊นŒ์ง€์˜ ๋‹จ๊ณ„๋ณ„ ํ”„๋ ˆ์ž„์›Œํฌ

OAG-Bench ํ”„๋ ˆ์ž„์›Œํฌ์˜ 4๋‹จ๊ณ„ ๊ตฌ์กฐ:

  1. ํ•™์ˆ  ๊ฐœ์ฒด ๊ตฌ์„ฑ(Academic Entity Construction):
    • ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์ถœ์ฒ˜(Web, ACM, DBLP, ArXiv, MAG)์—์„œ ๋™์ผํ•œ ์‹ค์ œ ๊ฐœ์ฒด ์‹๋ณ„
    • ์ €์ž ์ด๋ฆ„ ์ค‘๋ณต ์ œ๊ฑฐ(author name disambiguation) ๊ณผ์ œ ํฌํ•จ
    • ๊ฐœ์ฒด ์ •๋ ฌ(entity alignment) ์ˆ˜ํ–‰
  2. ํ•™์ˆ  ๊ทธ๋ž˜ํ”„ ์™„์„ฑ(Academic Graph Completion):
    • ๊ตฌ์„ฑ๋œ ๊ฐœ์ฒด ๊ฐ„ ์—ฐ๊ฒฐ ๊ด€๊ณ„ ํ™•๋ฆฝ
    • ํ•™์ž ํ”„๋กœํŒŒ์ผ๋ง(scholar profiling)์„ ํ†ตํ•œ ์„ธ๋ฐ€ํ•œ ๋ ˆ์ด๋ธ”๋ง
    • ๊ฐœ๋… ํƒœ๊น…(concept tagging), ๊ฐœ๋… ๋ถ„๋ฅ˜๋ฒ• ์™„์„ฑ(concept taxonomy completion)
  3. ํ•™์ˆ  ์ง€์‹ ํš๋“(Academic Knowledge Acquisition):
    • ๊ณ ํ’ˆ์งˆ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์ง€์‹ ์Šต๋“
    • ์‚ฌ์šฉ์ž-๋…ผ๋ฌธ ๊ด€๊ณ„ ๋ชจ๋ธ๋ง
    • ์‹ค์ œ ํ•™์ˆ  ์‹œ์Šคํ…œ์˜ ์‚ฌ์šฉ์ž ํ–‰๋™ ๊ธฐ๋ก ์ˆ˜์ง‘
    • ํ•™์ˆ  ์งˆ์˜์‘๋‹ต(academic question answering), ๋…ผ๋ฌธ ์ถ”์ฒœ(paper recommendation), ๋ฆฌ๋ทฐ์–ด ์ถ”์ฒœ(reviewer recommendation)
  4. ํ•™์ˆ  ์ถ”์  ๋ฐ ์˜ˆ์ธก(Academic Trace and Prediction):
    • ๋…ผ๋ฌธ์˜ ์˜ํ–ฅ์„ ๋ฏธ์นœ ํ•ต์‹ฌ ์ฐธ๊ณ ๋ฌธํ—Œ ์ถ”์ (paper source tracing)
    • ํ•™์ˆ  ์˜ํ–ฅ๋ ฅ ์˜ˆ์ธก(academic influence prediction)

ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก :

Originality

Limitation & Further Study

Evaluation

์ดํ‰: OAG-Bench๋Š” ํ•™์ˆ  ๊ทธ๋ž˜ํ”„ ๋งˆ์ด๋‹ ๋ถ„์•ผ์— ํ•„์š”ํ•œ ํฌ๊ด„์ ์ด๊ณ  ๊ณ ํ’ˆ์งˆ์˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ, 70+ ๋ฒ ์ด์Šค๋ผ์ธ๊ณผ LLM ์„ฑ๋Šฅ ๋ถ„์„์„ ํ†ตํ•ด ํ˜„์žฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ๋“œ๋Ÿฌ๋‚ธ๋‹ค. ๊ฐœ๋ฐฉ์„ฑ๊ณผ ํ™•์žฅ์„ฑ์œผ๋กœ ์ธํ•ด ํ•™์ˆ  ๊ทธ๋ž˜ํ”„ ๊ด€๋ จ ์—ฐ๊ตฌ์˜ ์ค‘์š”ํ•œ ์ฐธ์กฐ์ ์ด ๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋‚˜, ์ฃผ์„ ํ”„๋กœํ† ์ฝœ์˜ ์„ธ๋ถ€ ๊ธฐ์ˆ ํ™”์™€ ๋„๋ฉ”์ธ ํŽธํ–ฅ์„ฑ ๋ถ„์„์ด ๋ณด์™„๋˜๋ฉด ๋”์šฑ ๊ฒฌ๊ณ ํ•œ ์ž์›์ด ๋  ๊ฒƒ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
S2ORC ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ํ•™์ˆ  ๋…ผ๋ฌธ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์ถ•ยท๊ฐœ๋ฐฉํ•˜์—ฌ OAG-Bench ๋ฒค์น˜๋งˆํฌ์˜ ๋ฐ์ดํ„ฐ์  ๊ธฐ๋ฐ˜์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
580์˜ ์ธ์šฉ์ปจํ…์ŠคํŠธ ์ถ”์ฒœ ๋ฌธ์ œ์˜ ์ด๋ก ์ /์‹ค์ œ์  ์Ÿ์ ์€ 882 ๋…ผ๋ฌธ์—์„œ ์ธ์šฉ ์ƒ์„ฑ ๋ฐ LLM ํ‰๊ฐ€์˜ ์ตœ์‹  ๋™ํ–ฅ๊ณผ ํ•œ๊ณ„๋กœ ๋ณด๊ฐ•๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Openscholar ์‹œ์Šคํ…œ์€ OAG ๊ธฐ๋ฐ˜ ํ•™์ˆ  ์ •๋ณด ์ง‘์•ฝ ๋ฐ retrieval-augmented generation์˜ ํ•ต์‹ฌ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
219์˜ ์ธ์šฉ ์ถ”์ฒœ ์ƒ์„ฑํ˜• ๋ชจ๋ธ์€ 580์˜ OAG-Bench ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์™€ ํ‰๊ฐ€์ง€ํ‘œ๋ฅผ ํ™œ์šฉํ•ด ๋ณด๋‹ค ์—„๋ฐ€ํžˆ ํ‰๊ฐ€๋  ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
OAG-Bench๋Š” ํ•™์ˆ  ์ง€์‹ ๊ทธ๋ž˜ํ”„์™€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋ฐ์ดํ„ฐ์…‹ ํ™œ์šฉ ๊ด€์ ์—์„œ ์ œ๊ณตํ•˜์—ฌ 991๋ฒˆ ๋…ผ๋ฌธ์˜ ๋ฐ์ดํ„ฐ ๋ฐ ๋ฐฉ๋ฒ•๋ก ์˜ ๊ธฐ๋ฐ˜ ์ž๋ฃŒ๊ฐ€ ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
OAG-Bench(580)๋Š” ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๊ฐ€ ํ’๋ถ€ํ•œ ๋Œ€๊ทœ๋ชจ ํ•™์ˆ  ๋ฌธํ—Œ ๊ทธ๋ž˜ํ”„๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์–‘ํ•œ ๋ถ„์„ยท๊ฒ€์ฆ ์„ฑ๋Šฅ์„ ์‹œํ—˜ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ORBiC ๋ฐ์ดํ„ฐ์…‹์€ ํ•™์ˆ  ๋ฆฌ๋ทฐ ํ‰๊ฐ€์— ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์œผ๋‚˜, OAG-Bench์™€ ๊ฐ™์ด ํ•™์ˆ  ๋น…๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ๊ณผ์ œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ถ•ํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
OpenReview ๊ธฐ๋ฐ˜์˜ ์ปค๋ฎค๋‹ˆํ‹ฐ ์šด์˜ ๋ฐ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ํ™•๋ณด ๊ด€๋ จ, ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•๊ณผ ํ‰๊ฐ€์˜ ์‹ค์ œ ๋ฐฉ์‹์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
OAG-Bench๋Š” OpenAlex ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์„ธํŠธ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋กœ ๊ธฐ๋Šฅํ•ด 993๋ฒˆ ๋…ผ๋ฌธ์˜ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ๊ด€์  ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
580์˜ ์ธ์šฉ ์ถ”์ฒœ ๋ฒค์น˜๋งˆํฌ๋Š” 219์˜ CiteBART์™€ ๊ฐ™์€ ์ƒ์„ฑํ˜• ์ธ์šฉ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š”๋ฐ ํ™œ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Litllm์€ ๊ณผํ•™ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ๋ฐ ๊ฒ€ํ†  ์ž๋™ํ™” ๋„๊ตฌ๋กœ OAG-Bench์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‹ค์ œ ๋ฌธํ—Œ ๊ด€๋ฆฌ ๋ฐ ํƒ์ƒ‰์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Splade v2 ๋“ฑ์˜ ์ •๋ณด๊ฒ€์ƒ‰ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ OAG-Bench์˜ ์‹ค์ œ ๋„คํŠธ์›Œํฌ ๋ถ„์„ยท์ €์ž ์ค‘๋ณต ์ œ๊ฑฐ ๊ณผ์ œ์— ์ ์šฉํ•ด ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
580์˜ ๋ฒค์น˜๋งˆํฌ์™€ ์‹ค์ œ ์ ์šฉ ์ธก๋ฉด์—์„œ, 421์˜ demonstration diversity์™€ ์ธ์šฉ ์ถ”์ฒœ ๋ถ„์•ผ LLM ํ‰๊ฐ€๊ฐ€ ์ƒํ˜ธ ์‹œ๋„ˆ์ง€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ํ•™์ˆ  ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ๋ฒค์น˜๋งˆํฌ๊ฐ€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์—ฐ๊ตฌ ์ „์ฒด ์›Œํฌํ”Œ๋กœ์šฐ ํ‰๊ฐ€์— ์–ด๋–ป๊ฒŒ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •