์ ์: Bodhisattwa Prasad Majumder, Harshit Surana, D. P. Agarwal, Bhavana Dalvi Mishra, Abhijeetsingh Meena, Aryan Prakhar, Tirth Vora, Tushar Khot, Ashish Sabharwal, Peter E. Clark | ๋ ์ง: 2024 | DOI: N/A 📄 PDF
Essence
๊ฐ DiscoveryBench ๊ณผ์ ๋ ๋ชฉํ์ ๋ฐ์ดํฐ์
์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ํต๊ณ ๋ถ์๊ณผ ๊ณผํ์ ์๋ฏธ ์ถ๋ก ์ด ํ์ํ๊ณ , ๋ค๋ฉด์ ํ๊ฐ๋ฅผ ํตํด ์๋ฐํ๊ฒ ํ๊ฐ๋จ
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ด ๋ฐ์ดํฐ์
๋ง์ผ๋ก ๊ฐ์ค์ ์๋์ผ๋ก ํ์ํ๊ณ ๊ฒ์ฆํ ์ ์๋์ง ํ๊ฐํ๊ธฐ ์ํ ์ต์ด์ ํฌ๊ด์ ๋ฒค์น๋งํฌ DiscoveryBench๋ฅผ ์ ์ํ๋ค. 264๊ฐ์ ์ค์ ๊ณผ์ ์ 903๊ฐ์ ํฉ์ฑ ๊ณผ์ ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ํ์ฌ ์ต๊ณ ์ฑ๋ฅ LLM๋ 25%์ ์ ํ๋๋ง ๋ฌ์ฑํ์ฌ ์๋ํ๋ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ฐ๊ฒฌ์ ๋์ ๋ฅผ ๋๋ฌ๋ธ๋ค.
Evaluation
์ดํ: DiscoveryBench๋ LLM ๊ธฐ๋ฐ ์๋ํ๋ ๊ณผํ์ ๋ฐ๊ฒฌ์ ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ ์ค์ํ ์ฒซ ๋ฒ์งธ ๋ฒค์น๋งํฌ๋ก์, ์๋ก์ด ํ์ํ ํ๋ ์์ํฌ์ ๋ค๋ฉด์ ํ๊ฐ ๋ฉ์ปค๋์ฆ์ ์ ์ํ๋ค. 264๊ฐ์ ์ค์ ๊ณผ์ ์ 903๊ฐ์ ํฉ์ฑ ๊ณผ์ ๋ก ๊ตฌ์ฑ๋ ํฌ๊ด์ ์ธ ์์์ ์ ๊ณตํ๋ฉฐ, ํ์ฌ LLM์ 25% ์ ์กฐํ ์ฑ๋ฅ์ ์ด ๋ถ์ผ์ ๋ฏธํด๊ฒฐ ๊ณผ์ ๋ฅผ ๋ช
ํํ ๋๋ฌ๋ธ๋ค. ๋ค๋ง ํ๊ฐ ์ผ๊ด์ฑ ๊ฒ์ฆ์ด ๋ณด์๋๊ณ , ์คํจ ๋ชจ๋์ ๋ํ ๋ ๊น์ ๋ถ์์ด ์ด๋ฃจ์ด์ง๋ค๋ฉด ์ด ๋ฒค์น๋งํฌ๋ ํฅํ ๊ณผํ์ ๋ฐ๊ฒฌ ์๋ํ ์ฐ๊ตฌ์ ์ค์ํ ์ถ์ง๋ ฅ์ด ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Towards a client-centered assessment of llm therapists by cl ๋
ผ๋ฌธ์ ํ๊ฐ ํ๋ ์์ํฌ์ ์ค์ LLM ํ์ฉ ์ธก์ ์ ๊ธฐ์ด๋ฅผ ๋
ผ์ํ๋ฏ๋ก, ์๋ก์ด ํ๊ฐ ์งํ ๊ฐ๋ฐ์ ๊ธฐ๋ฐ์ ์ญํ ์ ํ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ณผํ์ ๋ฐ๊ฒฌ์ ์ํ LLM ํ์ฉ์ ์ด๋ก ์ ยท๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
DiscoveryBench ๋
ผ๋ฌธ์ LLM์ด ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ฐ์ค ํ์ ๋ฐ ๊ฒ์ฆ์ ์๋ํ๋ ๋ฒค์น๋งํฌ๋ก, ๊ณ ์ฐจ์ ์๋ฒ ๋ฉ ํ์ฉ ๋ฐ ํ๊ฐ ํ๋ ์์ํฌ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ๋ฐ์ดํฐ ๋ถ์ ๋ฐ ๊ณผํ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์ ์ฌํ ๋ฒค์น๋งํฌ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์๋ํ๋ ๊ณผํ์ ๊ฐ์ค ์์ฑ ๋ฐ ๊ฒ์ฆ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์ ์ฌํ ๋ฒค์น๋งํฌ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Blade ์ญ์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋ฐ๊ฒฌ ๋ฅ๋ ฅ์ LLM agent๋ก ํ๊ฐํ๋ ๋ฒค์น๋งํฌ๋ก, DiscoveryBench์ ํ๊ฐ ๋ฐฉ์์ด๋ ํ๊ณ์ ๋น๊ต๊ฐ ์ ์ฉํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋์ผํ๊ฒ LLM์ด ๋ฐ์ดํฐ ๊ณผํ ์คํ๊ณผ์ ์ ์๋ํํ ์ ์๋์ง ํ๊ตฌํ๋ฉฐ, DiscoveryBench์ ๋น๊ตํ ๋งํ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
EarthSE ๋
ผ๋ฌธ๋ ํน์ ๋ถ์ผ(์ง๊ตฌ๊ณผํ)์์ LLM์ ์ฌ์ธต ํ๊ตฌ ๋ฐ ๋ฒค์น๋งํฌ๋ฅผ ๋ค๋ฃจ๋ฏ๋ก, DiscoveryBench์ ๊ณผ์ ๋์ด๋ยท๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ฝ๋ฉ ๋ฅ๋ ฅ์ ํ์ฉํ ๋ฐ์ดํฐ ๊ณผํ ํ์คํฌ ์๋ํ์ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ฉํ ์๋ํ๋ ์ฐ๊ตฌ ๋ฐ๊ฒฌ ํ์ดํ๋ผ์ธ์ ๋์์ ๊ตฌํ ๋ฐฉ์์ ํ๊ตฌํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๊ท๋ชจ LLM ๊ธฐ๋ฐ ๋ฐ์ดํฐ ๋ถ์์ ํตํ ๊ณผํ ๋ฐ๊ฒฌ ํธ๋ ๋ ์์ธก ์ฐ๊ตฌ๋ก, ์ ์์๊ฑฐ๋ ์ฐ๊ตฌ ๋ํฅ์ ๊ณ๋์ ๋ถ์๊ณผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
277๋ฒ ๋
ผ๋ฌธ์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋๊ท๋ชจ ๊ณผํ์ ๋ฐ๊ฒฌ ํ๋ ์์ํฌ๋ฅผ ๋ค๋ฃจ์ด 2865๋ฒ์ ๋ถ์ผ๋ณ ์์งํ์ ์ ๋ํ๊ฐ์ ๋น๊ต ๋์์ด ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
AI scientist๊ฐ ํ์ ์ ์์ด๋์ด ํ์ง ๋ฐ ์คํ ์๋ํ๋ฅผ ์ค์ ์ฐ๊ตฌ ํ์ฅ์ ์ ์ฉํ ๊ฒฐ๊ณผ(313)๋ฅผ ํตํด, LLM์ ๊ณผํ๋ฐ๊ฒฌ ์๋ํ ํ๊ณ์ ์ค์ง์ ํ๊ธํจ๊ณผ๋ฅผ ์กฐ๋งํ ์ ์๋ค.
์์ฉ ์ฌ๋ก
Bridging the Gap Between Climate Science and Machine Learning ๋
ผ๋ฌธ์ ๊ธฐํ ๋ชจํ ์ ์ฉ ์ฌ๋ก๋ก, ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ณผํ ๋ฐ๊ฒฌ์ ์ค์ ์ ์ฉ ์์๋ฅผ ์ ๊ณตํฉ๋๋ค.