TrustLLM: Trustworthiness in Large Language Models

์ €์ž: Lichao Sun, Yue Huang, Haoran Wang, Siyuan Wu, Qihui Zhang ์™ธ 40๋ช… | ๋‚ ์งœ: 2024 | DOI: 10.48550/arXiv.2401.05561 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(Large Language Models, LLMs)์˜ ์‹ ๋ขฐ์„ฑ์„ ์ข…ํ•ฉ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์›์น™ ๊ธฐ๋ฐ˜์˜ ๋ฒค์น˜๋งˆํฌ TrustLLM์„ ์ œ์‹œํ•œ๋‹ค. ์ง„์‹ค์„ฑ, ์•ˆ์ „์„ฑ, ๊ณต์ •์„ฑ, ๊ฒฌ๊ณ ์„ฑ, ํ”„๋ผ์ด๋ฒ„์‹œ, ๊ธฐ๊ณ„์œค๋ฆฌ ๋“ฑ 6๊ฐ€์ง€ ํ•ต์‹ฌ ์ฐจ์›์—์„œ 16๊ฐœ ์ฃผ์š” LLM์„ ํ‰๊ฐ€ํ•˜์—ฌ ์‹ ๋ขฐ์„ฑ์˜ ๋‹ค์ธต์  ํŠน์„ฑ์„ ๊ทœ๋ช…ํ•œ๋‹ค.

Motivation

Achievement

Figure 1

๊ทธ๋ฆผ 1: TRUSTLLM์—์„œ 16๊ฐœ LLM์˜ ์‹ ๋ขฐ์„ฑ ์„ฑ๋Šฅ ์ˆœ์œ„์นด๋“œ

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: 6๊ฐœ ์ฐจ์› 30๊ฐœ ๋ฐ์ดํ„ฐ์…‹์„ ์•„์šฐ๋ฅด๋Š” ์ตœ์ดˆ์˜ ์ข…ํ•ฉ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ์ œ์‹œ
  2. ์ฃผ์š” ๊ฒฝํ—˜์  ๋ฐœ๊ฒฌ:
    • ์‹ ๋ขฐ์„ฑ๊ณผ ์œ ์šฉ์„ฑ(๊ธฐ๋Šฅ์  ํšจ๊ณผ์„ฑ)์ด ์ผ๋ฐ˜์ ์œผ๋กœ ์–‘์˜ ์ƒ๊ด€๊ด€๊ณ„: GPT-4, ERNIE, Llama2์™€ ๊ฐ™์€ ๊ณ ์„ฑ๋Šฅ ๋ชจ๋ธ๋“ค์ด ์‹ ๋ขฐ์„ฑ์—์„œ๋„ ์šฐ์ˆ˜
    • ๋Œ€ํ˜• ํ์‡„ํ˜•(proprietary) LLM์ด ๋Œ€๋ถ€๋ถ„์˜ ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜์ง€๋งŒ, Llama2๋Š” ์—ฌ๋Ÿฌ ๊ณผ์ œ์—์„œ ํ์‡„ํ˜• ๋ชจ๋ธ๊ณผ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ ๋ณด์ž„
    • ์ผ๋ถ€ ๋ชจ๋ธ(์˜ˆ: Llama2)์€ ๊ณผ๋„ํ•œ ์•ˆ์ „ ๊ต์ •(over-calibration)์œผ๋กœ ์ธํ•ด ์œ ์šฉ์„ฑ ์ €ํ•˜ ๋ฌธ์ œ ๋ฐœ์ƒ
  3. ์ฐจ์›๋ณ„ ํ•ต์‹ฌ ํ†ต์ฐฐ:
    • ์ง„์‹ค์„ฑ: ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ์žก์Œ, ํ—ˆ์œ„์ •๋ณด, ๊ตฌ์‹ ์ •๋ณด๋กœ ์ธํ•œ ์–ด๋ ค์›€; ์™ธ๋ถ€ ์ง€์‹ ํ†ตํ•ฉ ์‹œ ์„ฑ๋Šฅ ํ˜„์ €ํžˆ ๊ฐœ์„ 
    • ์•ˆ์ „์„ฑ: ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ๋“ค์ด ํ์‡„ํ˜• ๋ชจ๋ธ์— ๋น„ํ•ด ํŠนํžˆ ํƒˆ์˜ฅ(jailbreak), ๋…์„ฑ, ์˜ค์šฉ ์ธก๋ฉด์—์„œ ํฐ ๊ฒฉ์ฐจ
    • ๊ณต์ •์„ฑ: ๊ณ ์ •๊ด€๋… ์ธ์‹ ๋Šฅ๋ ฅ ๋ถ€์กฑ (์ตœ๊ณ  ์„ฑ๋Šฅ GPT-4๋„ 65% ์ •ํ™•๋„)
    • ๊ฒฌ๊ณ ์„ฑ: ๊ฐœ๋ฐฉํ˜• ๊ณผ์ œ์™€ ๋ถ„ํฌ ์™ธ(out-of-distribution) ๊ณผ์ œ์—์„œ ํฐ ํŽธ์ฐจ
    • ํ”„๋ผ์ด๋ฒ„์‹œ: ํ”„๋ผ์ด๋ฒ„์‹œ ๊ทœ๋ฒ” ์ธ์‹์€ ์žˆ์œผ๋‚˜ ๊ฐœ์ธ์ •๋ณด ์ฒ˜๋ฆฌ์— ํŽธ์ฐจ ํผ; ์ผ๋ถ€ ๋ชจ๋ธ์—์„œ ์ •๋ณด ์œ ์ถœ ๊ด€์ฐฐ
    • ๊ธฐ๊ณ„์œค๋ฆฌ: ๊ธฐ๋ณธ์  ๋„๋• ์ดํ•ด๋Š” ์žˆ์œผ๋‚˜ ๋ณต์žกํ•œ ์œค๋ฆฌ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๋ถ€์กฑ

How

Figure 2

๊ทธ๋ฆผ 2: TRUSTLLM ๋ฒค์น˜๋งˆํฌ ์„ค๊ณ„

ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก :

Originality

Limitation & Further Study

ํ•œ๊ณ„:

ํ›„์† ์—ฐ๊ตฌ ๋ฐฉํ–ฅ:

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4.4/5

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM ์‹ ๋ขฐ์„ฑ์— ๋Œ€ํ•œ ์ตœ์ดˆ์˜ ํฌ๊ด„์ ์ด๊ณ  ์›์น™ ๊ธฐ๋ฐ˜์˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ, AI ์•ˆ์ „์„ฑ๊ณผ ์‹ ๋ขฐ์„ฑ ์—ฐ๊ตฌ์— ์ค‘๋Œ€ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค. 8๊ฐœ ์ฐจ์›์— ๊ฑธ์นœ ์ฒด๊ณ„์  ํ‰๊ฐ€์™€ 16๊ฐœ ๋ชจ๋ธ์— ๋Œ€ํ•œ ๋Œ€๊ทœ๋ชจ ์‹ค์ฆ ์—ฐ๊ตฌ๋Š” ํฐ ์˜๋ฏธ๊ฐ€ ์žˆ์œผ๋‚˜, ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ์˜ ์ผ๋ถ€ ์ฃผ๊ด€์„ฑ๊ณผ ๋ฌธํ™”์  ๋‹ค์–‘์„ฑ ๋ถ€์กฑ์ด ๊ฐœ์„  ๊ณผ์ œ์ด๋‹ค. ์˜คํ”ˆ ์•ก์„ธ์Šค ์ œ๊ณต์œผ๋กœ ์ปค๋ฎค๋‹ˆํ‹ฐ ๊ธฐ์—ฌ ํ™œ์„ฑํ™” ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AI ๋ณด์กฐ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋„๊ตฌ์˜ ์ฝ”๋“œ ํ’ˆ์งˆ ๋ฐ ๋ณด์•ˆ์— ๊ด€ํ•œ ์ด๋ก ์ ยท์‹ค์ฆ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
TrustLLM ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ LLM์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ์•ˆ์ „์„ฑ ํ‰๊ฐ€/๊ฐ•ํ™”์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜๊ณผ ์ตœ์‹  ๋ฐฉ๋ฒ•์„ ์ •๋ฆฌํ•ด GPT-4o ํ‰๊ฐ€์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
How deep do large language models internalize scientific literature ๋…ผ๋ฌธ์€ LLM์˜ ๊ณผํ•™์  ์‚ฌ์‹ค ๋‚ด๋ฉดํ™” ๊นŠ์ด์— ์ดˆ์ ์„ ๋‘์–ด, TrustLLM์˜ ์‹ ๋ขฐ์„ฑ ์ธก์ •๊ณผ ๊ทผ๋ณธ์ ์œผ๋กœ ์—ฐ๊ด€๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
846์€ LLM ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜์—ฌ, 350์˜ ๋ฉ”ํŠธ๋ฆญ ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์ž๋™์ƒ์„ฑ ํ’ˆ์งˆ ๊ฒ€์ฆ ๊ณผ์ •์— ๊ธฐ๋ฐ˜์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
TrustLLM์€ LLM์˜ ์‹ ๋ขฐ์„ฑ์„ ๋‹ค์ฐจ์›์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋ฉฐ, DEFAME๊ฐ€ ๋ชฉํ‘œํ•˜๋Š” ์„ค๋ช… ๊ฐ€๋Šฅํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ํŒฉํŠธ์ฒดํ‚น์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์ด SafeScientist์˜ ์œ„ํ—˜์ธ์ง€ ๋ฐ ๋‹ค์ธต์  AI ๊ณผํ•™์ž ํ”„๋ ˆ์ž„์›Œํฌ ํ‰๊ฐ€์— ๊ทผ๊ฐ„์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
TrustLLM์€ LLM์˜ ์‹ ๋ขฐ์„ฑ์„ ๋‹ค์ฐจ์›์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์ข…ํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, AI ์—์ด์ „ํŠธ ์‹ ๋ขฐ์„ฑ ๊ณผํ•™์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
TrustLLM์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€๋ฐฉ์‹์„ ๊ณผํ•™ ๋ถ„์•ผ LLM์— ํŠนํ™”ํ•ด ์‹ฌ์ธต์ ์œผ๋กœ ์ ์šฉํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ์•ˆ์ „์„ฑ๊ณผ ์ •๋ ฌ(Alignment) ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ํ‹€์ด ๋‹ค์ฐจ์› ์•ˆ์ „์„ฑ ๋ถ„์„๊ณผ ์ง์ ‘ ์—ฐ๊ฒฐ๋จ.
๋‹ค๋ฅธ ์ ‘๊ทผ
846์€ LLM์ด ์ƒ์„ฑํ•œ ํ…์ŠคํŠธ๋ฅผ ํƒ์ง€ํ•˜๊ฑฐ๋‚˜ ๋™๋ฃŒํ‰๊ฐ€ ๊ณผ์ •์˜ ๋ฌด๊ฒฐ์„ฑ์„ ๋ณดํ˜ธํ•˜๋Š” ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ ๊ฐ„์ ‘ ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž… ์›Œํ„ฐ๋งˆํ‚น๊ณผ ๋น„๊ต๋œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
444๋ฒˆ ๋…ผ๋ฌธ์€ AI ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์ž‘์„ฑ์˜ ์œค๋ฆฌ, ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ์— ๋Œ€ํ•œ ๊ณผํ•™์ž ์ธ์‹ ์กฐ์‚ฌ๋กœ, LLM ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„๊ณผ ์ƒํ˜ธ๋ณด์™„์  ์‹œ๊ฐ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
TrustLLM์€ LLM์˜ ์‹ ๋ขฐ์„ฑ์„ ๋‹ค์ฐจ์›์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋ฉฐ, ํŒฉํŠธ์ฒดํ‚น์˜ ํ˜„์‹ค์  ํ•œ๊ณ„๊ฐ€ LLM ์‹ ๋ขฐ์„ฑ ์—ฐ๊ตฌ์—์„œ ์–ด๋–ป๊ฒŒ ๋‹ค๋ฃจ์–ด์ง€๋Š”์ง€ ์—ฐ๊ฒฐ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
TrustLLM์—์„œ๋Š” LLM์˜ ์‹ ๋ขฐ์„ฑ์„ ํ‰๊ฐ€ํ•˜๊ณ  ๊ฐ•ํ™”ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋…ผ์˜ํ•˜๋ฉฐ, OpenAI o1์˜ ์•ˆ์ „์„ฑ ํ‰๊ฐ€ ๋งฅ๋ฝ์—์„œ ๋งŽ์€ ์‹œ์‚ฌ์ ์„ ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
846๋ฒˆ ๋…ผ๋ฌธ์€ LLM ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ•˜๋Š” ํ™•์žฅ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, 736๋ฒˆ์˜ SciTrust ๋‹ค์ค‘ ํ‰๊ฐ€๋ฒ•๊ณผ ์ƒํ˜ธ ๋ณด์™„์ ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
TrustLLM์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€๋Š” AAAR-1.0์˜ AI ์—ฐ๊ตฌ ์ง€์› ํ‰๊ฐ€์™€ ์ƒํ˜ธ ๋ณด์™„์ ์œผ๋กœ AI์˜ ์‹ค์งˆ์  ํ™œ์šฉ ๋Šฅ๋ ฅ์„ ์ด๊ด„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์˜ ์‹ ๋ขฐ์„ฑ ํ‰๊ฐ€์™€ ๋„๊ตฌ์‚ฌ์šฉ/์œค๋ฆฌ/์•ˆ์ „ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, 692๋Š” ํŠนํžˆ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ๊ณผ์ •์—์„œ์˜ ์œ„ํ—˜์ธ์ง€์™€ ๋‹ค์ธต ์•ˆ์ „์ฒด๊ณ„๋กœ 846์˜ ํ‰๊ฐ€๋ฒ”์œ„๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
TrustLLM ๋…ผ๋ฌธ์€ LLM/RL ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์˜ ์‹ ๋ขฐ์„ฑ, ์•ˆ์ „์„ฑ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋ฏ€๋กœ, ๊ฐ•ํ™”ํ•™์Šต์˜ ์•ˆ์ „ ๊ณ ๋ ค ์ธก๋ฉด์„ ํญ๋„“๊ฒŒ ๊ณ ์ฐฐํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
TrustLLM ๋…ผ๋ฌธ์€ ๋Œ€ํ˜•์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜ ํ˜•์‹ ์ถ”๋ก ์˜ ์‹ ๋ขฐ๋„, ๋ถˆํ™•์‹ค์„ฑ, ํ‰๊ฐ€๋ฐฉ๋ฒ•์„ ๋ณด๋‹ค ํญ๋„“๊ฒŒ ๋‹ค๋ฃจ์–ด 390์˜ ์‘์šฉ๊ฐ€๋Šฅ์„ฑ์„ ํ™•์žฅํ•ด ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
846๋ฒˆ ๋…ผ๋ฌธ์€ LLM์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ๊ณต์ •์„ฑ ๋“ฑ ๋‹ค์ฐจ์› ํ‰๊ฐ€๋ฅผ ์‹œ๋„ํ•˜์—ฌ, 148๋ฒˆ ๋””๋ฐ”์ด์–ด์‹ฑ์˜ ํšจ๊ณผ์™€ ํ•œ๊ณ„๋ฅผ ๊ฒ€์ฆํ•  ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
800 ๋…ผ๋ฌธ์€ LLM ์‹ ๋ขฐ์„ฑ๊ณผ ์ •๋ ฌ ๋ฌธ์ œ์˜ ํŠน์„ฑ์„ ๋‹ค์–‘ํ•œ ๊ด€์ ์—์„œ ๋‹ค๋ฃจ๋ฉฐ, 846์˜ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ๋ณด์™„์ ์ด๋ฉฐ ๋•Œ๋กœ๋Š” ๋Œ€๋น„๋˜๋Š” ๋…ผ์˜๋ฅผ ์ „๊ฐœํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •