์ ์: Franck Cappello, Sandeep Madireddy, Robert Underwood, Neil Getty, Nicholas Lee-Ping Chia, Nesar Ramachandra, Josh Nguyen, Murat Keceli, Tanwi Mallick, Zilinghan Li, Marieme Ngom, Chenhui Zhang, Angel Yanguas-Gil, Evan Antoniuk, Bhavya Kailkhura, Minyang Tian, Yufeng Du, Yuan-Sen Ting, Azton Wells, Bogdan Nicolae, Avinash Maurya, M. Mustafa Rafique, Eliu Huerta, Bo Li, Ian Foster, Rick Stevens | ๋ ์ง: 2025 | DOI: 10.48550/ARXIV.2502.20309 📄 PDF
Fig. 1. The AGIL approach to generate scalable MCQ benchmarks. The current version of the AI4S benchmark contains only m
๋ณธ ๋ ผ๋ฌธ์ Argonne National Laboratory์์ ๊ฐ๋ฐํ EAIRA๋ผ๋ ์ข ํฉ์ ์ธ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค. ์ด ๋ฐฉ๋ฒ๋ก ์ Multiple Choice Questions, Open Response, Lab-Style Experiments, Field-Style Experiments ๋ฑ ๋ค ๊ฐ์ง ํ๊ฐ ๊ธฐ๋ฒ์ ๊ฒฐํฉํ์ฌ LLMs์ ๊ณผํ ์ฐ๊ตฌ ์กฐ์๋ก์์ ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ค.
Fig. 1. The AGIL approach to generate scalable MCQ benchmarks. The current version of the AI4S benchmark contains only m
์ฌ๋ฌ LLM ๋ชจ๋ธ์ ์ฑ๋ฅ ๋ถ์: GPT-4o, Gemini, Claude ๋ฑ ์ฃผ์ ๋ชจ๋ธ๋ค์ ๋ฅ๋ ฅ์ ๋ค์ํ ๊ณผํ ๋๋ฉ์ธ์์ ๋น๊ต ํ๊ฐํจ.\nEAIRA ๋ฐฉ๋ฒ๋ก ์ ์๋ฆฝ: ๋ค ๊ฐ์ง ํ๊ฐ ๊ธฐ๋ฒ์ ํตํฉํ ํฌ๊ด์ ๋ฐฉ๋ฒ๋ก ์ ๊ฐ๋ฐํ์ฌ LLM์ ๊ณผํ์ ์ง์, ์ถ๋ก ๋ฅ๋ ฅ, ์ ๋ขฐ์ฑ์ ์ข ํฉ์ ์ผ๋ก ํ๊ฐ ๊ฐ๋ฅํ๊ฒ ํจ.\nํ์ ์ ํ๊ฐ ๊ธฐ๋ฒ: Lab-style๊ณผ Field-style ์คํ์ด๋ผ๋ ์๋ก์ด ํ๊ฐ ๊ธฐ๋ฒ์ ๋๊ท๋ชจ๋ก ์ฒ์ ๋์ ํ์ฌ ์ค์ ์ฐ๊ตฌ ํ๊ฒฝ์์์ LLM ์ฑ๋ฅ์ ํ๊ฐํจ.\n๋ค์ค ๋๋ฉ์ธ ๋ฒค์น๋งํฌ(AI4S) ๊ฐ๋ฐ: ๊ณผํ ๋ถ์ผ์ ํนํ๋ ํตํฉ ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ์ฌ ๋๋ฉ์ธ ์ ๋ฌธ๊ฐ์ ์ง์๊ณผ LLM ํ์ ์์ ๋ฅ๋ ฅ์ ๊ฒฐํฉํจ.\n์ ์ ๊ฐ๋ฅํ ํ๋ ์์ํฌ ์ค๊ณ: ๋น ๋ฅด๊ฒ ๋ณํํ๋ LLM ๊ธฐ์ ์ ๋์ํ๊ธฐ ์ํด ๋ฐฉ๋ฒ๋ก ์ ์ง์์ ์ผ๋ก ์งํ์ํฌ ์ ์๋๋ก ์ค๊ณํจ.
Fig. 1. The AGIL approach to generate scalable MCQ benchmarks. The current version of the AI4S benchmark contains only m
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ LLMs๋ฅผ ๊ณผํ ์ฐ๊ตฌ ์กฐ์๋ก ํ๊ฐํ๊ธฐ ์ํ ํฌ๊ด์ ์ด๊ณ ํ์ ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค. ํนํ Lab-style๊ณผ Field-style ์คํ์ด๋ผ๋ ์๋ก์ด ํ๊ฐ ๊ธฐ๋ฒ์ ๋๊ท๋ชจ๋ก ๋์ ํ์ฌ ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ค๋ ์๋๊ฐ ๋งค์ฐ ๊ฐ์น ์๋ค. ๋ค๋ง, ํ์ฌ ๋ฐฉ๋ฒ๋ก ์ด ๊ณผํ ๋๋ฉ์ธ์ ์ผ๋ถ์์๋ง ๊ฐ๋ฐ๋์๊ณ , ์๋ฐ์ ์ฐธ์ฌ์ ๊ธฐ๋ฐํ ํ๊ฐ์ ๋ํ์ฑ ๋ฌธ์ ๊ฐ ๋จ์์๋ค. ์ ์ฒด์ ์ผ๋ก LLM ํ๊ฐ ๋ถ์ผ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ ๋ ผ๋ฌธ์ด๋ฉฐ, ํฅํ ๊ณผํ AI์ ์ ๋ขฐ๋ ํ๊ฐ๋ฅผ ์ํ ๊ธฐ์ด๊ฐ ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.