Essence
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(Large Language Models, LLMs)์ ์ ๋ขฐ์ฑ์ ์ข
ํฉ์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํ ์์น ๊ธฐ๋ฐ์ ๋ฒค์น๋งํฌ TrustLLM์ ์ ์ํ๋ค. ์ง์ค์ฑ, ์์ ์ฑ, ๊ณต์ ์ฑ, ๊ฒฌ๊ณ ์ฑ, ํ๋ผ์ด๋ฒ์, ๊ธฐ๊ณ์ค๋ฆฌ ๋ฑ 6๊ฐ์ง ํต์ฌ ์ฐจ์์์ 16๊ฐ ์ฃผ์ LLM์ ํ๊ฐํ์ฌ ์ ๋ขฐ์ฑ์ ๋ค์ธต์ ํน์ฑ์ ๊ท๋ช
ํ๋ค.
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4.4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM ์ ๋ขฐ์ฑ์ ๋ํ ์ต์ด์ ํฌ๊ด์ ์ด๊ณ ์์น ๊ธฐ๋ฐ์ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ์ฌ, AI ์์ ์ฑ๊ณผ ์ ๋ขฐ์ฑ ์ฐ๊ตฌ์ ์ค๋ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. 8๊ฐ ์ฐจ์์ ๊ฑธ์น ์ฒด๊ณ์ ํ๊ฐ์ 16๊ฐ ๋ชจ๋ธ์ ๋ํ ๋๊ท๋ชจ ์ค์ฆ ์ฐ๊ตฌ๋ ํฐ ์๋ฏธ๊ฐ ์์ผ๋, ํ๊ฐ ๋ฉํธ๋ฆญ์ ์ผ๋ถ ์ฃผ๊ด์ฑ๊ณผ ๋ฌธํ์ ๋ค์์ฑ ๋ถ์กฑ์ด ๊ฐ์ ๊ณผ์ ์ด๋ค. ์คํ ์ก์ธ์ค ์ ๊ณต์ผ๋ก ์ปค๋ฎค๋ํฐ ๊ธฐ์ฌ ํ์ฑํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
AI ๋ณด์กฐ ํ๋ก๊ทธ๋๋ฐ ๋๊ตฌ์ ์ฝ๋ ํ์ง ๋ฐ ๋ณด์์ ๊ดํ ์ด๋ก ์ ยท์ค์ฆ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
TrustLLM ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ LLM์ ์ ๋ขฐ์ฑ๊ณผ ์์ ์ฑ ํ๊ฐ/๊ฐํ์ ์ด๋ก ์ ๊ธฐ๋ฐ๊ณผ ์ต์ ๋ฐฉ๋ฒ์ ์ ๋ฆฌํด GPT-4o ํ๊ฐ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
How deep do large language models internalize scientific literature ๋
ผ๋ฌธ์ LLM์ ๊ณผํ์ ์ฌ์ค ๋ด๋ฉดํ ๊น์ด์ ์ด์ ์ ๋์ด, TrustLLM์ ์ ๋ขฐ์ฑ ์ธก์ ๊ณผ ๊ทผ๋ณธ์ ์ผ๋ก ์ฐ๊ด๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
846์ LLM ์ ๋ขฐ์ฑ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ์ฌ, 350์ ๋ฉํธ๋ฆญ ๊ธฐ๋ฐ ๋
ผ๋ฌธ ์๋์์ฑ ํ์ง ๊ฒ์ฆ ๊ณผ์ ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
TrustLLM์ LLM์ ์ ๋ขฐ์ฑ์ ๋ค์ฐจ์์ ์ผ๋ก ํ๊ฐํ๋ฉฐ, DEFAME๊ฐ ๋ชฉํํ๋ ์ค๋ช
๊ฐ๋ฅํ๊ณ ์ ๋ขฐํ ์ ์๋ ํฉํธ์ฒดํน์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ์ ๋ขฐ์ฑ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ด SafeScientist์ ์ํ์ธ์ง ๋ฐ ๋ค์ธต์ AI ๊ณผํ์ ํ๋ ์์ํฌ ํ๊ฐ์ ๊ทผ๊ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
TrustLLM์ LLM์ ์ ๋ขฐ์ฑ์ ๋ค์ฐจ์์ ์ผ๋ก ํ๊ฐํ๋ ์ข
ํฉ ํ๋ ์์ํฌ๋ก, AI ์์ด์ ํธ ์ ๋ขฐ์ฑ ๊ณผํ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
TrustLLM์ ์ ๋ขฐ์ฑ ํ๊ฐ๋ฐฉ์์ ๊ณผํ ๋ถ์ผ LLM์ ํนํํด ์ฌ์ธต์ ์ผ๋ก ์ ์ฉํ๋ ๋ฒค์น๋งํฌ๋ฅผ ๋ค๋ฃน๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ์์ ์ฑ๊ณผ ์ ๋ ฌ(Alignment) ์ ๋ขฐ์ฑ ํ๊ฐ ํ์ด ๋ค์ฐจ์ ์์ ์ฑ ๋ถ์๊ณผ ์ง์ ์ฐ๊ฒฐ๋จ.
๋ค๋ฅธ ์ ๊ทผ
846์ LLM์ด ์์ฑํ ํ
์คํธ๋ฅผ ํ์งํ๊ฑฐ๋ ๋๋ฃํ๊ฐ ๊ณผ์ ์ ๋ฌด๊ฒฐ์ฑ์ ๋ณดํธํ๋ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ ์ ์ํ์ฌ ๊ฐ์ ํ๋กฌํํธ ์ฃผ์
์ํฐ๋งํน๊ณผ ๋น๊ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
444๋ฒ ๋
ผ๋ฌธ์ AI ๊ธฐ๋ฐ ๋
ผ๋ฌธ ์์ฑ์ ์ค๋ฆฌ, ์ ๋ขฐ์ฑ ๋ฌธ์ ์ ๋ํ ๊ณผํ์ ์ธ์ ์กฐ์ฌ๋ก, LLM ์ ๋ขฐ์ฑ ํ๊ฐ ํ๋ ์๊ณผ ์ํธ๋ณด์์ ์๊ฐ์ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
TrustLLM์ LLM์ ์ ๋ขฐ์ฑ์ ๋ค์ฐจ์์ ์ผ๋ก ํ๊ฐํ๋ฉฐ, ํฉํธ์ฒดํน์ ํ์ค์ ํ๊ณ๊ฐ LLM ์ ๋ขฐ์ฑ ์ฐ๊ตฌ์์ ์ด๋ป๊ฒ ๋ค๋ฃจ์ด์ง๋์ง ์ฐ๊ฒฐ๋๋ค.
ํ์ ์ฐ๊ตฌ
TrustLLM์์๋ LLM์ ์ ๋ขฐ์ฑ์ ํ๊ฐํ๊ณ ๊ฐํํ๋ ํ๋ ์์ํฌ๋ฅผ ๋
ผ์ํ๋ฉฐ, OpenAI o1์ ์์ ์ฑ ํ๊ฐ ๋งฅ๋ฝ์์ ๋ง์ ์์ฌ์ ์ ์ค๋ค.
ํ์ ์ฐ๊ตฌ
846๋ฒ ๋
ผ๋ฌธ์ LLM ์ ๋ขฐ์ฑ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๋ ํ์ฅ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, 736๋ฒ์ SciTrust ๋ค์ค ํ๊ฐ๋ฒ๊ณผ ์ํธ ๋ณด์์ ์ด๋ค.
ํ์ ์ฐ๊ตฌ
TrustLLM์ ์ ๋ขฐ์ฑ ํ๊ฐ๋ AAAR-1.0์ AI ์ฐ๊ตฌ ์ง์ ํ๊ฐ์ ์ํธ ๋ณด์์ ์ผ๋ก AI์ ์ค์ง์ ํ์ฉ ๋ฅ๋ ฅ์ ์ด๊ด ํ๊ฐํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ์ ๋ขฐ์ฑ ํ๊ฐ์ ๋๊ตฌ์ฌ์ฉ/์ค๋ฆฌ/์์ ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ฉฐ, 692๋ ํนํ ๊ณผํ์ ๋ฐ๊ฒฌ ๊ณผ์ ์์์ ์ํ์ธ์ง์ ๋ค์ธต ์์ ์ฒด๊ณ๋ก 846์ ํ๊ฐ๋ฒ์๋ฅผ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
TrustLLM ๋
ผ๋ฌธ์ LLM/RL ๊ธฐ๋ฐ ์์คํ
์ ์ ๋ขฐ์ฑ, ์์ ์ฑ ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ฏ๋ก, ๊ฐํํ์ต์ ์์ ๊ณ ๋ ค ์ธก๋ฉด์ ํญ๋๊ฒ ๊ณ ์ฐฐํ๋ ๋ฐ ๋์์ด ๋๋ค.
ํ์ ์ฐ๊ตฌ
TrustLLM ๋
ผ๋ฌธ์ ๋ํ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ ํ์ ์ถ๋ก ์ ์ ๋ขฐ๋, ๋ถํ์ค์ฑ, ํ๊ฐ๋ฐฉ๋ฒ์ ๋ณด๋ค ํญ๋๊ฒ ๋ค๋ฃจ์ด 390์ ์์ฉ๊ฐ๋ฅ์ฑ์ ํ์ฅํด ์ค๋๋ค.
์์ฉ ์ฌ๋ก
846๋ฒ ๋
ผ๋ฌธ์ LLM์ ์ ๋ขฐ์ฑ๊ณผ ๊ณต์ ์ฑ ๋ฑ ๋ค์ฐจ์ ํ๊ฐ๋ฅผ ์๋ํ์ฌ, 148๋ฒ ๋๋ฐ์ด์ด์ฑ์ ํจ๊ณผ์ ํ๊ณ๋ฅผ ๊ฒ์ฆํ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ค.
๋ฐ๋ก /๋นํ
800 ๋
ผ๋ฌธ์ LLM ์ ๋ขฐ์ฑ๊ณผ ์ ๋ ฌ ๋ฌธ์ ์ ํน์ฑ์ ๋ค์ํ ๊ด์ ์์ ๋ค๋ฃจ๋ฉฐ, 846์ ํ๋ ์์ํฌ์ ๋ณด์์ ์ด๋ฉฐ ๋๋ก๋ ๋๋น๋๋ ๋
ผ์๋ฅผ ์ ๊ฐํฉ๋๋ค.