GraphEval: A lightweight graph-based llm framework for idea evaluation

์ €์ž: Tao Feng, Yihang Sun, Jiaxuan You (UIUC, Peking University) | ๋‚ ์งœ: 2025 (ICLR 2025) | DOI: arXiv:2503.12600v2 📄 PDF


Essence

Figure 2

GraphEval๋Š” ์•„์ด๋””์–ด๋ฅผ ๊ด€์ (viewpoint) ๋…ธ๋“œ๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ๋กœ ๋ณ€ํ™˜ํ•จ์œผ๋กœ์จ LLM ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์˜ ํŽธํ–ฅ๊ณผ ๋ถˆ์•ˆ์ •์„ฑ์„ ํ•ด๊ฒฐํ•œ๋‹ค.

๋ณต์žกํ•œ ์—ฐ๊ตฌ ์•„์ด๋””์–ด๋ฅผ ์ดํ•ด ๊ฐ€๋Šฅํ•œ ๊ด€์ ๋“ค๋กœ ๋ถ„ํ•ดํ•˜๊ณ  ์ด๋ฅผ ๊ทธ๋ž˜ํ”„๋กœ ์—ฐ๊ฒฐํ•˜์—ฌ ๋ผ๋ฒจ ์ „ํŒŒ(label propagation) ๋˜๋Š” ๊ทธ๋ž˜ํ”„ ์‹ ๊ฒฝ๋ง(GNN)์„ ํ†ตํ•ด ๊ฒฌ๊ณ ํ•˜๊ณ  ํŽธํ–ฅ ์—†๋Š” ์•„์ด๋””์–ด ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒฝ๋Ÿ‰ ํ”„๋ ˆ์ž„์›Œํฌ๋‹ค.

Motivation

Achievement

Figure 1

๋™์ผ ์•„์ด๋””์–ด์— ๋Œ€ํ•ด ํ”„๋กฌํ”„ํŠธ ๋ฏธ์„ธ ๋ณ€ํ™”๋งŒ์œผ๋กœ๋„ ํ‰๊ฐ€ ์ ์ˆ˜๊ฐ€ 78โ†’85โ†’75๋กœ ํฌ๊ฒŒ ๋ณ€ํ•œ๋‹ค.

  1. ๊ฒฌ๊ณ ์„ฑ ํ–ฅ์ƒ: ๊ธฐ์กด LLM ๋ฐฉ์‹ ๋Œ€๋น„ F1 ์ ์ˆ˜ ์ตœ์†Œ 14% ํ–ฅ์ƒ, ํ”„๋กฌํ”„ํŠธ ๋ฏผ๊ฐ๋„ ์ œ๊ฑฐ
  2. ๊ณ„์‚ฐ ํšจ์œจ์„ฑ: ๊ฒฝ๋Ÿ‰ ๋ชจ๋ธ ์‚ฌ์šฉ์œผ๋กœ ๋‚ฎ์€ ๊ณ„์‚ฐ ๋น„์šฉ๊ณผ API ๋น„์šฉ์œผ๋กœ ๊ณ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ
  3. ํ‘œ์ ˆ ํƒ์ง€: ์‹œ๊ฐ„ ์ •๋ณด๋ฅผ ๋…ธ๋“œ ํŠน์„ฑ์— ํฌํ•จํ•˜์—ฌ ํ‘œ์ ˆ๋œ ์•„์ด๋””์–ด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๊ฐ์ง€
  4. ๊ณต๊ฐœ ์ž์›: ์žฌํ˜„ ๊ฐ€๋Šฅ์„ฑ์„ ์œ„ํ•ด ์ฝ”๋“œ ๊ณต๊ฐœ (GitHub)

How

Figure 3

GraphEval์˜ ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ: ์•„์ด๋””์–ด ๋ถ„ํ•ดโ†’๊ด€์ -๊ทธ๋ž˜ํ”„ ์ƒ์„ฑโ†’๋ผ๋ฒจ ์ „ํŒŒ/GNN ๊ธฐ๋ฐ˜ ํ‰๊ฐ€

GraphEval-LP (Label Propagation)

GraphEval-GNN (Graph Neural Network)

ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ

Originality

Limitation & Further Study

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5

์ดํ‰: GraphEval์€ LLM ๊ธฐ๋ฐ˜ ์•„์ด๋””์–ด ํ‰๊ฐ€์˜ ํŽธํ–ฅ๊ณผ ๋ถˆ์•ˆ์ •์„ฑ์„ ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ์™€ ์‹ฌ๋ฆฌํ•™์  ์ง๊ด€์œผ๋กœ ์šฐ์•„ํ•˜๊ฒŒ ํ•ด๊ฒฐํ•˜๋Š” ํ˜์‹ ์ ์ธ ์ ‘๊ทผ๋ฒ•์ด๋ฉฐ, ์‹ค์งˆ์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ๊ณผ ํ‘œ์ ˆ ํƒ์ง€ ๊ธฐ๋Šฅ์œผ๋กœ ํ•™์ˆ  ์ปค๋ฎค๋‹ˆํ‹ฐ์— ์ฆ‰๊ฐ์ ์ธ ๊ฐ€์น˜๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
GraphEval์˜ ๊ณผํ•™ ์•„์ด๋””์–ด ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” LLM ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ์ƒ์„ฑ์— ๊ด€ํ•œ ์ตœ์‹  ์—ฐ๊ตฌ์˜ ์ด๋ก ์  ํ† ๋Œ€ ์œ„์—์„œ ๊ตฌ์ถ•๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM๊ณผ ์ง€์‹ ๊ทธ๋ž˜ํ”„๋ฅผ ํ™œ์šฉํ•œ ๊ณผํ•™ ์•„์ด๋””์–ด ์ƒ์„ฑ ๊ด€๋ จ ๋ฐฉ๋ฒ•๋ก ์˜ ์ด๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•˜๋ฏ€๋กœ ๊ฐ™์ด ๋ณด๋ฉด ์ข‹์Šต๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
392๋Š” ์•„์ด๋””์–ด ๋„คํŠธ์›Œํฌ์— ๊ธฐ๋ฐ˜ํ•œ ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ ๋ถ„์„์„ ๋‹ค๋ฃจ์–ด 3279๊ฐ€ ์ƒ๋ฌผํ•™์  ์ƒํ˜ธ์ž‘์šฉ ๊ทœ์น™์˜ ๋‚ด์žฌ์  ํŒจํ„ด์„ ํ•ด์„ํ•˜๋Š” ๋ฐ ๋ฉ”ํƒ€์  ํ†ต์ฐฐ์„ ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
GraphEval์˜ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์•„์ด๋””์–ด ํ‰๊ฐ€์™€ ๋‹ฌ๋ฆฌ, FactKG ๋…ผ๋ฌธ์€ ์‚ฌ์‹ค ๊ฒ€์ฆ์„ ์œ„ํ•ด ์ง€์‹ ๊ทธ๋ž˜ํ”„ ์ƒ์˜ ์ถ”๋ก ์„ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ ๋‘ ๋ฐฉ์‹์„ ๋น„๊ตํ•˜๋ฉด์„œ ์„œ๋กœ์˜ ์žฅ์ ๊ณผ ํ•œ๊ณ„๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ์กฐํ•ฉ์  ์ฐฝ์˜์„ฑ ์•„์ด๋””์–ด ์ƒ์„ฑ์œผ๋กœ, ๊ทธ๋ž˜ํ”„ ๋ถ„ํ•ด ๋Œ€์‹  ๊ตฌ์กฐ์  ์กฐํ•ฉ์„ ์„ค๋ช…ํ•˜๋ฏ€๋กœ ์ ‘๊ทผ๋ฒ•์˜ ์ฐจ์ด๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ์•„์ด๋””์–ด ์ƒ์„ฑยทํ‰๊ฐ€๋ฅผ ๋‹ค์ค‘ LLM ์ฝœ๋ผ๋ณด๋ ˆ์ด์…˜๊ณผ ์‚ฌํšŒ์  ์ƒํ˜ธ๊ฒ€์ฆ ๊ด€์ ์—์„œ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์•„์ด๋””์–ด ๊ด€๊ณ„ ์ถ”๋ก ์œผ๋กœ, ๊ณ„์ธต์  attention graph์™€ ๋น„๊ตํ•ด๋ณผ ๋งŒํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ƒ์„ฑ ๋ฐ ํ‰๊ฐ€๋ฅผ ๊ทธ๋ž˜ํ”„ ๋ฐ ๋ถ„ํ•ด์  ๊ตฌ์กฐ ๋ฐฉ์‹๊ณผ ์ธ๊ฐ„-LLM ์ƒํ˜ธ์ž‘์šฉ ์ค‘์‹ฌ์œผ๋กœ ๊ฐ๊ฐ ๊ตฌํ˜„ํ•œ ๊ฒฝ๋Ÿ‰ํ™”ยท์ƒํ˜ธ๋ณด์™„์  ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์•„์ด๋””์–ด ํ‰๊ฐ€ ์ฒด๊ณ„๋ฅผ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ๊ณผ ์ ์‘ํ˜• ํƒ์ƒ‰ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ฒฐํ•ฉํ•ด ํ•œ ๋‹จ๊ณ„ ๋” ๋ฐœ์ „์‹œํ‚จ ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์•„์ด๋””์–ด ํ‰๊ฐ€ ๋“ฑ ๊ณผํ•™์  ์ฐฝ์˜์„ฑ๊ณผ ํ˜์‹ ์„ฑ ๊ฒ€์ฆ ๋ฐฉ์‹์ด AI ๊ธฐ๋ฐ˜ ํ•™๋ฌธํ˜์‹  ๋ฐ ์žฌํ˜„์„ฑ ์œ„๊ธฐ ๊ทน๋ณต ๊ด€์ ์—์„œ ๋…ผ์˜๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ์˜ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ์ ‘๊ทผ์„ ๋” ๋„“๊ฒŒ ์ ์šฉํ•œ ์—ฐ๊ตฌ๋กœ GraphEval์˜ ์•„์ด๋””์–ด ํ‰๊ฐ€์™€ ์—ฐ๊ฒฐ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
GraphEval ๋…ผ๋ฌธ์€ ํ•™์ˆ  ๋…ผ๋ฌธ์˜ ๊ทธ๋ž˜ํ”„์  ๊ตฌ์กฐ ์ถ”๋ก ๊ณผ ํ‰๊ฐ€๋ฅผ ์ž๋™ํ™”ํ•˜์—ฌ, ๋…ผ๋ฌธ์„ ๋Œ€ํ™”ํ˜• ์›น์œผ๋กœ ์žฌ๊ตฌ์„ฑํ•˜๊ณ  ํ‰๊ฐ€ํ•˜๋Š” Paper2Web์˜ ํ›„์†์  ํ™•์žฅ ์‘์šฉ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์•„์ด๋””์–ด ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์‹ฌ๋ฆฌํ•™ ๋„๋ฉ”์ธ LLM ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ์ƒ์„ฑ ๊ฒฐ๊ณผ์˜ ์ •๋Ÿ‰์ , ๊ตฌ์กฐ์  ํ‰๊ฐ€์—๋„ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๊ณผํ•™์  ๊ฐ€์„ค์„ ์‹คํ—˜ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ์ˆœ์œ„๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ, ์•„์ด๋””์–ด ํ‰๊ฐ€ ์ธก๋ฉด์˜ ๋‹ค์–‘ํ•œ ์‹ค์ œ ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •