On gradient-like explanation under a black-box setting: when black-box explanations become as good as white-box

์ €์ž: Yi Cai, Gerhard Wunder | ๋‚ ์งœ: 2024 | DOI: arXiv:2308.09381 📄 PDF


Essence

Figure 2

๊ธฐ์ค€์„  f(-3) โ‰ˆ 0์ด ์ฃผ์–ด์งˆ ๋•Œ, GEEX์˜ ํ‰ํ™œํ™”๋œ ๋ฒ„์ „์ด ์‹ค์ œ ๊ธฐ์—ฌ๋„๋ฅผ ๋” ์ž˜ ๊ทผ์‚ฌํ•จ

๋ณธ ๋…ผ๋ฌธ์€ GEEX (Gradient-Estimation-based EXplanation)๋ฅผ ์ œ์•ˆํ•˜์—ฌ ๋ธ”๋ž™๋ฐ•์Šค ์„ค์ •์—์„œ๋„ ํ™”์ดํŠธ๋ฐ•์Šค ์ˆ˜์ค€์˜ ๊ทธ๋ž˜๋””์–ธํŠธ ์œ ์‚ฌ ์„ค๋ช…์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์ธ๋‹ค. ์ฟผ๋ฆฌ ๋ ˆ๋ฒจ ์ ‘๊ทผ๋งŒ์œผ๋กœ ์ •๋ฐ€ํ•œ ํŠน์„ฑ ๊ท€์†(feature attribution)์„ ์ œ๊ณตํ•˜๋ฉด์„œ๋„ ์™„์ „์„ฑ(Completeness), ๋ฏผ๊ฐ๋„(Sensitivity) ๋“ฑ ๊ธฐ๋ณธ ๊ณต๋ฆฌ๋ฅผ ์—„๋ฐ€ํžˆ ๋งŒ์กฑํ•œ๋‹ค.


Motivation


Achievement

Figure 3

GEEX์˜ ๊ฐœ์š”: ์ƒ˜ํ”Œ๋ง๋œ ๋…ธ์ด์ฆˆ ฮต์™€ ๊ฒฝ๋กœ์ƒ ์œ„์น˜ ฮฑ๋กœ๋ถ€ํ„ฐ ์ฟผ๋ฆฌ z ๊ฒฐ์ •

Figure 5

InceptionV3์—์„œ GEEX๋Š” n์ด ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ IG์™€ ์ˆ˜๋ ดํ•˜๋Š” AOPC ์ ์ˆ˜ ๋‹ฌ์„ฑ*

  1. ์ด๋ก ์  ๊ธฐ์—ฌ:
    • GEEX๊ฐ€ ์™„์ „์„ฑ(Completeness), ๋ฏผ๊ฐ๋„(Sensitivity) ๋“ฑ ๊ท€์† ๋ฐฉ๋ฒ•์˜ ๊ธฐ๋ณธ ๊ณต๋ฆฌ๋ฅผ ์—„๋ฐ€ํžˆ ๋งŒ์กฑํ•จ์„ ์ˆ˜ํ•™์ ์œผ๋กœ ์ฆ๋ช…
    • ๊ทธ๋ž˜๋””์–ธํŠธ ํฌํ™” ๋ฌธ์ œ๋ฅผ ๊ฒฝ๋กœ ๊ธฐ๋ฐ˜ ์ ๋ถ„์œผ๋กœ ํ•ด๊ฒฐ
  2. ์‹ค์ฆ์  ์„ฑ๊ณผ:
    • ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ์…‹์—์„œ LIME, RISE ๋“ฑ ๊ธฐ์กด ๋ธ”๋ž™๋ฐ•์Šค ๋ฐฉ๋ฒ• ๋Œ€๋น„ ์šฐ์›”ํ•œ ์„ฑ๋Šฅ
    • IG(Integrated Gradients) ๋“ฑ ํ™”์ดํŠธ๋ฐ•์Šค ๋ฐฉ๋ฒ•๊ณผ ๊ฒฝ์Ÿ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ
    • ์„ธ๋ฐ€ํ•œ ํ”ฝ์…€ ์ˆ˜์ค€ ๊ท€์† ๋งต ์ƒ์„ฑ์œผ๋กœ ๋ธ”๋ก ๊ธฐ๋ฐ˜ ์„ค๋ช…(superpixel) ๋ฌธ์ œ ๊ทน๋ณต

How

Figure 1

๊ฐ„๋‹จํ•œ ์‚ฌ๋ก€: ๊ทธ๋ž˜๋””์–ธํŠธ ํฌํ™”๋กœ ์ธํ•ด ์ถ”์ •๋œ ๊ทธ๋ž˜๋””์–ธํŠธ ฮท๊ฐ€ 0์œผ๋กœ ์ˆ˜๋ ดํ•˜์—ฌ ๋ฏผ๊ฐ๋„ ๊ณต๋ฆฌ ์œ„๋ฐ˜

ํ•ต์‹ฌ ๋ฐฉ๋ฒ•๋ก :


Originality


Limitation & Further Study


Evaluation

Novelty: 4/5 Technical Soundness: 4.5/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: GEEX๋Š” ๊ทธ๋ž˜๋””์–ธํŠธ ๊ธฐ๋ฐ˜ ์„ค๋ช…์˜ ์ •๋ฐ€์„ฑ๊ณผ ๋ธ”๋ž™๋ฐ•์Šค ๋ฐฉ๋ฒ•์˜ ์œ ์—ฐ์„ฑ์„ ๊ฒฐํ•ฉํ•œ ์‹ค์šฉ์ ์ด๊ณ  ์ด๋ก ์ ์œผ๋กœ ๊ฒฌ๊ณ ํ•œ ์ ‘๊ทผ๋ฒ•์ด๋‹ค. ํŠนํžˆ ์—„๋ฐ€ํ•œ ๊ณต๋ฆฌ ๊ธฐ๋ฐ˜ ๋ถ„์„์œผ๋กœ ์„ค๋ช…์˜ ์‹ ๋ขฐ์„ฑ์„ ๋ณด์ฆํ•˜๋Š” ์ ์ด ์ฃผ๋ชฉํ•  ๋งŒํ•˜๋‚˜, ๊ณ„์‚ฐ ๋น„์šฉ๊ณผ ๊ธฐ์ค€์„  ์„ ํƒ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ๋…ผ์˜๊ฐ€ ๋ณด๊ฐ•๋˜๋ฉด ๋”์šฑ ์™„์„ฑ๋„ ๋†’์€ ์—ฐ๊ตฌ๊ฐ€ ๋  ๊ฒƒ์ด๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ฉ”์ปค๋‹ˆ์ฆ˜ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ํ‰๊ฐ€์— ๋Œ€ํ•œ ์ข…ํ•ฉ ๋ฆฌ๋ทฐ๋กœ, ๋ธ”๋ž™๋ฐ•์Šค ๋ชจ๋ธ ํŒŒํ•ด๋ฒ• ์—ฐ๊ตฌ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
582๋ฒˆ์€ ๋ธ”๋ž™๋ฐ•์Šค LLM ์„ค๋ช…๊ณผ ํ”ผ์ฒ˜ ๊ท€์†์„ ์ฃผ๋กœ ๋‹ค๋ฃจ๊ณ  ์žˆ์–ด, 657๋ฒˆ๊ณผ ๊ฐ™์ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก ยท๊ฒ€์ฆ ๋ฌธ์ œ์—์„œ ๋ณด์™„์ ์œผ๋กœ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
836๋ฒˆ ๋…ผ๋ฌธ์€ ๋Œ€ํ˜• ์–ธ์–ด๋ชจ๋ธ์˜ ์ž‘๋™ ์›๋ฆฌ๋ฅผ ์„ค๋ช…๋ ฅ ๊ด€์ ์—์„œ ์กฐ๋ช…ํ•˜์—ฌ, 582๋ฒˆ์˜ ๋ธ”๋ž™๋ฐ•์Šค ๊ธฐ๋ฐ˜ ๊ทธ๋ž˜๋””์–ธํŠธ ์„ค๋ช… ์—ฐ๊ตฌ์™€ ๋Œ€์กฐ๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ์‚ฌ์‹ค ๊ฒ€์ฆ์˜ ์ •ํ™•๋„์™€ ์„ค๋ช… ์ผ๊ด€์„ฑ์„ ๋ถ„์„ํ•œ ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
591๋ฒˆ ๋…ผ๋ฌธ์€ OpenReview์™€ ๊ฐ™์€ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ํ‰๊ฐ€ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•ด, ๋ธ”๋ž™๋ฐ•์Šค ์„ค์ •์—์„œ์˜ ์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ(582)๊ณผ ์ƒํ˜ธ๋ณด์™„์  ๋…ผ์˜๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
404๋ฒˆ์€ ๊ณ ์„ฑ๋Šฅ RAG ์•„ํ‚คํ…์ฒ˜์˜ ์‹ ๋ขฐ์„ฑ ๋ฐ ์„ค๋ช…๋ ฅ ์ธก์ •์„ ๋‹ค๋ฃจ์–ด, 582๋ฒˆ์˜ ๋ธ”๋ž™๋ฐ•์Šค ํ™˜๊ฒฝ์—์„œ์˜ ์„ค๋ช… ๊ธฐ์ˆ ๊ณผ ์ƒํ˜ธ๋ณด์™„์ ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Self-verification/reinforcement ์ ‘๊ทผ์„ ํ†ตํ•ด LLM์˜ ์„ค๋ช… ๋ฐ ๊ฒ€์ฆ ๋Šฅ๋ ฅ์„ ๋†’์ด๋Š” ๋ฐฉ๋ฒ•๋ก  ๋น„๊ต๊ฐ€ GEEX ์—ฐ๊ตฌ์™€ ์˜๋ฏธ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Polymer Brushes ๋…ผ๋ฌธ์€ ๋ฌผ์งˆ ์„ค๊ณ„์—์„œ ํ•ด์„ ๊ฐ€๋Šฅํ•œ AI๊ฐ€ ์™œ ํ•„์š”ํ•œ์ง€ ์‹ค์งˆ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•˜๋ฉฐ GEEX์™€ ์—ฐ๊ฒฐ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Transforming Science with Large Language Models ๋…ผ๋ฌธ์€ LLM ํ•ด์„๊ณผ ํ™œ์šฉ, ๊ทธ๋ฆฌ๊ณ  ์„ค๋ช…๊ฐ€๋Šฅ์„ฑ์ด ๊ณผํ•™์  ๋ฐœ๊ฒฌ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ๊นŒ์ง€ ํญ๋„“๊ฒŒ ๋‹ค๋ฃจ์–ด ํ™•์žฅ์  ๊ด€์ ์„ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์ง€์‹ ์ถ”์ถœ ๋ฐ QA ๋ถ„์•ผ์—์„œ GEEX์™€ ๊ฐ™์€ ์„ค๋ช… ์ƒ์„ฑ ๊ธฐ๋ฒ•์ด ์‹ค์ œ ๋„๋ฉ”์ธ ๋ฌธ์ œ(์ƒ์˜ํ•™ ์งˆ์˜ ์‘๋‹ต)์— ์–ด๋–ป๊ฒŒ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์„์ง€ ์‹œ์‚ฌ์ ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
654๋ฒˆ ๋…ผ๋ฌธ์—์„œ ์ œ๊ณตํ•˜๋Š” ์ผ๊ด€์„ฑ ์žˆ๋Š” peer review ๋ฐ์ดํ„ฐ๋Š” 582๋ฒˆ์ด ์ œ์•ˆํ•œ gradient-like explanation ๋ฐฉ๋ฒ•์˜ ์‹ค์ œ ํ‰๊ฐ€ ๋ฐ ์ ์šฉ์— ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •