์ ์: Keith Tyser, Ben Segev, Gaston Longhitano, Xin-Yu Zhang, Zachary Meeks, Jason Lee, Uday Garg, Nicholas Belsten, Avi Shporer, Madeleine Udell, Dov Te'eni, Iddo Drori | ๋ ์ง: 2024-08-19 | DOI: 10.48550/arXiv.2408.10365 📄 PDF
Essence
OpenReviewer: ์ฌ์ฉ์๊ฐ ๋
ผ๋ฌธ์ ์
๋ก๋ํ๋ฉด ์๋์ผ๋ก ๊ฒํ ๋๊ณ ์์ ์ง์นจ๊ณผ ํจ๊ป ํผ๋๋ฐฑ์ ๋ฐ์
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ํ์ ๋
ผ๋ฌธ ๊ฒํ ์ ๋ณ๋ชฉ ํ์์ ํด๊ฒฐํ๊ธฐ ์ํด LLM(Large Language Model) ๊ธฐ๋ฐ์ ์๋ ๋
ผ๋ฌธ ๊ฒํ ์์คํ
์ ๊ฐ๋ฐํ๊ณ , ์ธ๊ฐ ๊ฒํ ์์ ์ ํธ๋์์ ์ ๋ ฌ๋(alignment)๋ฅผ ํ๊ฐํ๋ ์ฐ๊ตฌ์ด๋ค. ํนํ ์๊ฐ-ํ
์คํธ ํตํฉ ๋ถ์, ๋์ ์ง๋ฌธ ์ ์, ํธํฅ ๊ฐ์ ๋ฉ์ปค๋์ฆ์ ํตํด ๊ณ ํ์ง์ ์ผ๊ด๋ ๊ฒํ ๋ฅผ ์ ๊ณตํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ํ์ ๋
ผ๋ฌธ ๊ฒํ ์์คํ
์ ์ค์ฉ์ ๊ตฌํ๊ณผ ํจ๊ป ์ธ๊ฐ ๊ฒํ ์์ ์ ๋ ฌ๋๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ ์ฃผ์ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ํนํ ๋ฉํฐ๋ชจ๋ฌ ๋ถ์, ํธํฅ ์ํ, ๋๊ท๋ชจ ์ค์ ๋ฐ์ดํฐ ์ ์ฉ ๋ฑ์ด ๊ฐ์ ์ด๋ฉฐ, ์ค๋ฅ ๋์
์ ํตํ ์ ๋ขฐ ์์ญ ๋งคํ์ ์ฐฝ์์ ํ๊ฐ ๋ฐฉ์์ด๋ค. ๋ค๋ง ์ธ๊ฐ ์ ํธ๋ ๋ฐ์ดํฐ ๊ท๋ชจ ์ ํ๊ณผ ์ผ๋ถ ์ค๋ฆฌ์ ์ํ์ ๋ํ ๋ฏธํกํ ํด๊ฒฐ์ด ๊ฐ์ ๊ณผ์ ์ด๋, ํ์ ์ถํ ์ํ๊ณ์ ์ฆ์ ์ ์ฉ ๊ฐ๋ฅํ ์ค์ง์ ์๋ฃจ์
์ ์ ์ํ ์ ์์ ๋์ ๊ฐ์น๋ฅผ ์ง๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๋ค๋ฅธ ์ ๊ทผ
๋์ ์ง๋ฌธ ์ ์ ๋๋ ์ค์ผ์ผ๋ฌ๋ธ AI ๋ฆฌ๋ทฐ ์์คํ
์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์๋ ๋
ผ๋ฌธ ๊ฒํ ์์คํ
์ ์ธ๊ฐ ๊ฒํ ์์์ ์ ๋ ฌ๋๋ฅผ ํ๊ฐํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์์คํ
์ ํธํฅ ๋๋ ํ์ง์ ํ๊ฐํ๋ ์ ์ฌํ ๋ชฉํ์ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๊ฐ-ํ
์คํธ ํตํฉ ๋ถ์์ ํฌํจํ ์๋ ๋
ผ๋ฌธ ํ๊ฐ ์์คํ
์ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
843์ LLM ๊ธฐ๋ฐ ๊ณผํ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ ์ง๋ฌธ ํธ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ๋์
ํ์ฌ, 083์ ๋์ ์ ์ ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์์ฑ๊ณผ ์ฐจ๋ณ์ฑ์ ๋ณด์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ReviewAgents ๋
ผ๋ฌธ์ AI ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ ์ธ๊ฐ ๊ฐ์ ์ ๋ ฌ/๊ฒฉ์ฐจ๋ฅผ ๋ถ์ํ๋ฉฐ, ๋๊ท๋ชจ ์๋ ๋ฆฌ๋ทฐ ์์คํ
์ ํ๊ฐ ๊ด์ ์ ๋ค๋ฅด๊ฒ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ฉํ ๋๋ฃํ๊ฐ ์๋ํ ์์คํ
ํจ๊ณผ๋ถ์์ผ๋ก, 809๋ฒ ๋
ผ๋ฌธ์ ์ฌ๋ก๋ฅผ ์์คํ
์ ์ผ๋ก ์ ๊ฐํ๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ํ์ฉํ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ํ๊ฐ์ ํ์ฅ์ฑ๊ณผ ํ์ฉ์ ๋ํ์ฌ ๊ท๋ชจ ๋ฐ ์ค์ ์ฑ ์ฐจ์์ ๋ถ์์ ๋ํ๋ค.
ํ์ ์ฐ๊ตฌ
AI ์์ฑ ๋
ผ๋ฌธ์ ์ค์ ๋ฆฌ๋ทฐ์ ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ๋ํ์ ์
์ ๋ฑ ํ์์ฉ ๋ถ์ผ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ์์ฌํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
262๋ ์ธ๊ฐ๊ณผ ์ ์ฌํ ๋ฆฌ๋ทฐ ํ๊ฐ ๊ตฌ์กฐ๋ฅผ ์ ์ฉํ์ฌ 083์ LLM ๋ฆฌ๋ทฐ ํ์ง ๋ฌธ์ ๋ฅผ ์ฌํ ๋ถ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Advancing AI-Scientist Understanding ๋
ผ๋ฌธ์ LLM์ด ํ๋จํ ๋ ์ธ๊ฐ์ ์ฌ๊ณ ๋ฐฉ์๊ณผ ์ ์ฌํ๊ฒ ํ๊ฐ ๋ฐ ์ค๋ช
ํ๋ ๋ฐฉ์์ ํ์ํ์ฌ ๋
ผ๋ฌธํ๊ฐ์ ์ ๋ขฐ์ฑ ๋ฌธ์ ์ฌํ์ ๊ธฐ์ฌํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
AI ์์ฑ ๋ฆฌ๋ทฐ์ ํ์ง์ ๋ค์ํ ๊ด์ ์์ ํ๊ฐํ๋ ReviewEval ํ๋ ์์ํฌ๋ฅผ ํตํด ํ์ง ์ ๋ ฌ๊ณผ ํธํฅ ๊ฐ์ ๊ด๋ จ ๋
ผ์๋ฅผ ์ฌํํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
083๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ํ์ฅํ ๋ฆฌ๋ทฐ ์์คํ
์ ๋๊ท๋ชจ ํ๊ฐ๋ฅผ ํตํด, 041๋ฒ์ ๋ฑ์ฅํ๋ ๋ฆฌ๋ทฐ ์์ฑ ๋ฐ ํฌ๋ฆฌํฑ ๋ฅ๋ ฅ ํ๊ฐ ํญ๋ชฉ๊ณผ ์คํ์ ์ผ๋ก ์ฐ๊ฒฐํ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
083์ LLM ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์์คํ
์ ๋๊ท๋ชจ, ์ค์ ํ๊ฐ๋ฅผ ๋ค๋ฃจ์ด REMOR์ ๊ด๋ จ๋ ์ค์ ์ ์ฉ ๋งฅ๋ฝ์ ๋ณด์ฌ์ค๋ค.