Essence
Fig. 1. An example of the prompt used for the multiple-choice datasets. The
SciTrust๋ ๊ณผํ ๋ถ์ผ์์ LLM์ ์ ๋ขฐ์ฑ์ ํ๊ฐํ๊ธฐ ์ํ ํฌ๊ด์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ด ์ฐ๊ตฌ๋ ์ค์งํ์ฑ, ์ ํ์ฑ, ํ๊ฐ, ๊ทธ๋ฆฌ๊ณ ์์ฒจ ํ์์ ์ค์ฌ์ผ๋ก ๋ค ๊ฐ์ง ๊ฐ๋ฐฉํ ๋ฒค์น๋งํฌ(Computer Science, Chemistry, Biology, Physics)๋ฅผ ๋์
ํ๋ฉฐ, ์ ํต์ ๋ฉํธ๋ฆญ๊ณผ LLM ๊ธฐ๋ฐ ํ๊ฐ๋ฅผ ๊ฒฐํฉํ ๋ค๊ฐ์ ํ๊ฐ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
Achievement
Fig. 1. An example of the prompt used for the multiple-choice datasets. The
์ฃผ์ ์ฑ๊ณผ: 1) ํฌ๊ด์ ํ๊ฐ ํ๋ ์์ํฌ ์ ์: ์ค์งํ์ฑ, ๋
ผ๋ฆฌ์ ์ถ๋ก , ํ๊ฐ ์ ํญ, ์์ฒจ ์ ํญ์ ํ๊ฐํ๋ ํตํฉ ํ๋ ์์ํฌ ๊ตฌ์ถ. 2) ์ ๊ท ๋ฒค์น๋งํฌ ๊ฐ๋ฐ: Computer Science, Chemistry, Biology, Physics ๋๋ฉ์ธ์ 4๊ฐ์ง ๊ฐ๋ฐฉํ ๋ฐ์ดํฐ์
์ ์. 3) LLM ๊ธฐ๋ฐ ํ๊ฐ ๋ฐฉ๋ฒ๋ก : ์ฒ์์ผ๋ก LLM-as-judge๋ฅผ ์ ๋ขฐ์ฑ ํ๊ฐ์ ์ ์ฉ. 4) ๋ชจ๋ธ ์ฑ๋ฅ ๋น๊ต: Llama3-70B-Instruct๊ฐ ์ ๋ฐ์ ์ผ๋ก ์ฐ์ํ์๊ณ , ๊ณผํ ๋ชจ๋ธ ์ค์์๋ Galactica-120B์ SciGLM-6B๊ฐ ๊ฐ๊ฐ ๊ฐ์ ์ ๋ณด์. 5) HPC ํ๊ฒฝ ์ฑ๋ฅ ๋ถ์: Frontier ์ํผ์ปดํจํฐ์์์ ์ถ๋ก ์ง์ฐ ์๊ฐ ์ธก์ ๋ฐ ํ์ฅ์ฑ ํ๊ฐ.
Limitation & Further Study
์ ํ์ฌํญ: 1) ๋ชจ๋ธ ์ ์ ํ: ํ๊ฐ ๋์์ด 5๊ฐ ๋ชจ๋ธ๋ก ์ ํ๋์ด ์์ด ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ด ์ ํ์ . 2) ๋ฒค์น๋งํฌ ๊ท๋ชจ: ์๋ก์ด ๊ฐ๋ฐฉํ ๋ฒค์น๋งํฌ์ ๊ตฌ์ฒด์ ํฌ๊ธฐ์ ๋ฐ์ดํฐ ๊ตฌ์ฑ์ด ๋ช
ํํ๊ฒ ๊ธฐ์ ๋์ง ์์. 3) LLM-as-judge ์ ๋ขฐ์ฑ: judge ๋ชจ๋ธ ์์ฒด์ ํธํฅ์ด๋ ์ค๋ฅ๊ฐ ํ๊ฐ ๊ฒฐ๊ณผ์ ๋ฏธ์น๋ ์ํฅ์ ๋ํ ์์ธ ๋ถ์ ๋ถ์กฑ. 4) ๋ค๊ตญ์ด ํ๊ฐ: ์์ด ์ค์ฌ ํ๊ฐ๋ก ๋ค์ธ์ด ๊ณผํ ์ฝํ
์ธ ์ ๋ํ ์ฑ๋ฅ ๋ถ๋ช
ํ. ํ์์ฐ๊ตฌ: ๋ ๋ง์ ๊ณผํ ํนํ ๋ชจ๋ธ์ ํ๊ฐ, ๊ณ์ธต์ ํ๋กฌํํ
์ ํตํ ์ถ๋ก ๊น์ด ๋ถ์, ๋ค์ํ judge ๋ชจ๋ธ์ ์ผ๊ด์ฑ ์ฐ๊ตฌ, ๊ณผํ ๋๋ฉ์ธ๋ณ ์ธ๋ถํ๋ ์ ๋ขฐ์ฑ ํ๋กํ์ผ๋ง.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: SciTrust๋ ๊ณผํ LLM์ ์ ๋ขฐ์ฑ์ ํ๊ฐํ๊ธฐ ์ํ ์ต์ด์ ํฌ๊ด์ ํ๋ ์์ํฌ๋ก์ ํ์ ์ ยท์ค๋ฌด์ ๊ฐ์น๊ฐ ๋๋ค. LLM-as-judge ๋ฐฉ๋ฒ๋ก ๊ณผ ์ ๊ท ๋ฒค์น๋งํฌ ๊ฐ๋ฐ์ ํ์ ์ ์ด๋ฉฐ, ๋ค์ํ ๊ณผํ ๋๋ฉ์ธ์ ๋ํ ์ฒด๊ณ์ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ๋ค. ๋ค๋ง ํ๊ฐ ๋ชจ๋ธ ์์ ์ ํ๊ณผ ์ผ๋ถ ๋ฐฉ๋ฒ๋ก ์ ์ธ๋ถ ๊ธฐ์ ์ด ๊ฐ์ ๋ ์ฌ์ง๊ฐ ์์ผ๋ฉฐ, ํ๊ฐ ๋ฒค์น๋งํฌ์ ๊ท๋ชจ์ ๊ตฌ์ฑ์ ๋ํ ๋ช
ํํ ๊ธฐ์ ์ด ํ์ํ๋ค. ์ ๋ฐ์ ์ผ๋ก ๊ณผํ ๋ถ์ผ์์ ์ ๋ขฐํ ์ ์๋ AI ๊ฐ๋ฐ ๋ฐฉํฅ ์ ์๋ผ๋ ์ ์์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ๊ณผํ ์ง์ ์ถ์ถ๊ณผ ํ๊ฐ ๋ฌธ์ ๋ฑ์ ๊ณผ์ ๋ฅผ ์ ๋ฐ์ ์ผ๋ก ๊ฒํ ํ๋ฉฐ ์ ๋ขฐ์ฑ ํ๊ฐ ํ๋ ์์ํฌ์ ๋ฐฐ๊ฒฝ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
SciTrust ๋
ผ๋ฌธ์ ํ๊ฐ ์ ๋ขฐ์ฑ, ๋ถํ์ค์ฑ ๋ฑ LLM ํ๊ฐ์ ๊ทผ๋ณธ์ ํ๊ณ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ชจ๋ธ ํ๊ฐ ๋ฐ ์ ๋ขฐ๋ ํ๊ฐ์ ๊ดํ ๊ณผํ์ ํ๊ฐ ์ฒด๊ณ๋ฅผ ์ ๊ณตํ๋ฏ๋ก, ํ๊ฐ์ด ์ฑ๋ฅ์ ๋ฏธ์น๋ ํจ๊ณผ ํด์์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ์ค๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
736์ SciTrust ๋
ผ๋ฌธ์ LLM ํ๊ฐ ๊ฒ์ฆ ๋ฐ ์ํ ํ๊ฐ ์งํ์ ํ๋ ์์ํฌ๋ฅผ ์ ๋ฆฝํด, 396์ด ์ ์ํ ์์ด์ ํธ ์กฐ์จ ๋ฐฉ์์ ์ ๋ขฐ์ฑ ํ๊ฐ์ ํต์ฌ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
TrustLLM์ ์ ๋ขฐ์ฑ ํ๊ฐ๋ฐฉ์์ ๊ณผํ ๋ถ์ผ LLM์ ํนํํด ์ฌ์ธต์ ์ผ๋ก ์ ์ฉํ๋ ๋ฒค์น๋งํฌ๋ฅผ ๋ค๋ฃน๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ด ๋ค์ํ ์ธ๊ตฌํต๊ณ ์ง๋จ์ ์ฌ๋ฆฌ์ ๋ฐ์์ ์ผ๋ง๋ ์ ์๋ฎฌ๋ ์ด์
ํ๋์ง ํ๊ฐํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
820์ ๊ณผํ ๊ฐ์ค ์์ฑ์์ LLM ํ๊ฐ ๋ฐ ์ ๋ขฐ์ฑ ๋ฌธ์ ๋ฅผ ์คํ์ ์ผ๋ก ๋ค๋ฃจ๋ฉฐ, 736๊ณผ ์ ๋ขฐ์ฑ ํ๊ฐ ๋ฒ์๊ฐ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciTrust๋ LLM์ ์ ๋ขฐ์ฑ ํ๊ฐ์งํ๋ฅผ ๊ณผํ ์ ๋ณด ์ถ์ถ/๊ฒ์ฆ ๋งฅ๋ฝ์์ ๊ฒํ ํ์ฌ ๋นํ์ ๊ด์ ์ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์ ๋ขฐ์ฑ ํ๊ฐ๋ผ๋ ์ ์์, ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง ํ์ง๊ณผ LLM ์ ๋ขฐ์ฑ ๋ฌธ์ ๋ฅผ ์ฐ๊ด์ง์ด ๋ณผ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
846๋ฒ ๋
ผ๋ฌธ์ LLM ์ ๋ขฐ์ฑ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๋ ํ์ฅ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, 736๋ฒ์ SciTrust ๋ค์ค ํ๊ฐ๋ฒ๊ณผ ์ํธ ๋ณด์์ ์ด๋ค.
ํ์ ์ฐ๊ตฌ
LLM ์ ๋ขฐ์ฑ ๋ฐ ๊ณผํ์ ์ ๋ขฐ๋ ํ๊ฐ(736)๋ Sciglm(723)์ ํ๊ณ ์ง๋จ๊ณผ ํ๊ฐ ์งํ๋ฅผ ์ค์ง์ ์ผ๋ก ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
396 ๋
ผ๋ฌธ์ ๋ค์ค ์์ด์ ํธ ๋ฐฉ๋ฒ์ผ๋ก LLM ํ๊ฐ(hallucination) ์ํ ๋ฐฉ์์ ์ ์ํ์ฌ, 736์ ์ ๋ขฐ์ฑ ํ๊ฐ์์ ์ ์ํ ํ๊ฐ ์ฒ๋ฆฌ์ ์ค์ง์ ๋์ ๋ฐฉ๋ฒ์ ๋ณด์ํด์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
845๋ LLM์ ์๊ธฐ ๊ฒ์ฆ ๊ธฐ๋ฐ ์ ๋ขฐ ๋ณด๊ฐ ์ ๊ทผ์ ์คํํ์ฌ, 736์ LLM ์ ๋ขฐ์ฑ ํ๊ฐ ํ๋ ์์ํฌ ์ดํ์ ๊ฐ์ ๋ฐฉํฅ์ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
736์ ๊ณผํ ๋ถ์ผ์์ LLM์ ์ ๋ขฐ์ฑ(framework)์ ์ข
ํฉ์ ์ผ๋ก ํ๊ฐํ์ฌ, 820์ ์ง์ค์ฑ ๋ฐ ํ๊ฐ ์ด์ ํ๊ฐ์ ์ง์ ์ ์ผ๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๊ณผํ RAG์ ์ ๋ขฐ์ฑ/๋ณต์ก์ฑ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ถ๊ฐ๋ก ์ ๊ณตํ๋ฉฐ, HiPerRAG์ ์ฑ๋ฅ์ ์ธก์ ํ๋ ๊ธฐ์ค์ ๋ณด์ํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
๊ณผํ ๋ถ์ผ LLM์ ์ ๋ขฐ์ฑ ํ๊ฐ๋ฅผ ๋ค์ํ ์งํ๋ก ๋ค๋ค, ๋
ผ๋ฌธ ์ค๋ฅ ๊ฒ์ฆ ์คํจ์ ํ๊ณ์ ๋ณด์์ ์ ํจ๊ป ๊ณ ๋ฏผํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
SciTrust๋ LLM ๊ธฐ๋ฐ ๊ณผํ ์์ธก์ ์ ๋ขฐ์ฑ ํ๊ฐ ์ฒด๊ณ๋ฅผ ์ ๊ณตํ์ฌ, ์ ํ์ ๋ถ์ ๊ตฌ์กฐ ์์ธก์ ์ ๋ขฐ์ฑ ํ๋จ ์ฐ๊ตฌ์ ์ง์ ์ ์ผ๋ก ์ฐ๊ด๋๋ค.
์์ฉ ์ฌ๋ก
๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง ๊ณผ์ ์์์ LLM ์ ๋ขฐ์ฑ ํ๊ฐ ๋ฐ ํ์ค ์์ฉ์์ ๋์ ์ ์ LLM ํธ๋ฌ์คํธํ๋ ์๊ณผ ์ฐ๊ฒฐํด ๋น๊ตํ ์ ์๋ค.
์์ฉ ์ฌ๋ก
๊ณผํ ์ง์ ์ถ์ถ ๋ฐ hallucination ๋ฌธ์ ์ ์ ๋ขฐ์ฑ ํ๊ฐ ๋ฐฉ๋ฒ์ ์ค์ ํ๋ ์์ํฌ ์์ค์ผ๋ก ํ์ฅํ ๋
ผ๋ฌธ์
๋๋ค.
์์ฉ ์ฌ๋ก
SciTrust ์ ๋ขฐ์ฑ ํ๊ฐ ํ๋ ์์ํฌ๊ฐ ๋
ผ๋ฌธ ์ค๋ฅ ๊ฒ์ฆ ์๋ํ ์คํจ ์ฌ๋ก๋ฅผ ํด์ํ๋ ๋ฐ ๋์์ ์ค๋๋ค.
๋ฐ๋ก /๋นํ
471๋ฒ ๋
ผ๋ฌธ์ LLM์ด ์ถ๋ก ์ ์ค๋ฅ๋ฅผ ์์ง์ ์์ฒด์ ์ผ๋ก ๊ต์ ํ์ง ๋ชปํ๋ค๊ณ ์ง์ ํ๋ฉฐ, 736๋ฒ์ ๋ค์ค ์ ๋ขฐ์ฑ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋นํ์ ์ผ๋ก ๋์๋ณผ ๊ทผ๊ฑฐ๋ฅผ ์ ์ํ๋ค.
๋ฐ๋ก /๋นํ
736 ๋
ผ๋ฌธ์ LLM์ ๊ณผํ์ ์ ๋ขฐ์ฑ ํ๊ณ๋ฅผ ํ๊ฐํ์ฌ ๊ณต์ ๋ ํ๊ฐ ํ์์ ์ฒด๊ณ์ ์ผ๋ก ์ง๋จํฉ๋๋ค.
๋ฐ๋ก /๋นํ
SciTrust๋ ๋ํ ์ธ์ด๋ชจ๋ธ์ ์ ๋ขฐ์ฑ ๋ฌธ์ ๋ฅผ ์ค์ ์ ์ผ๋ก ํ๊ฐํ์ฌ AI Scientist์ ํ๊ณ(๊ฐ๊ฑด์ฑ, ์ ๋ขฐ์ฑ ๋ถ์กฑ) ๊ด๋ จ ํ ๋ก ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ๋ํฉ๋๋ค.