Essence
Figure 1. (a) Execution-grouned evaluation uncovers failures that narrative-alone review misses. In this example, Failur
๋
ผ๋ฌธ ๋ด๋ฌํฐ๋ธ๋ง์ผ๋ก๋ ๊ฐ์งํ ์ ์๋ ์ฐ๊ตฌ์ ๋ฌธ์ ์ ์ ๋ฐ๊ฒฌํ๊ธฐ ์ํด, ์ฝ๋์ ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ๊ฒ์ฆํ๋ execution-grounded evaluation ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ MechEvalAgent๋ฅผ ๊ตฌํํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ด ๋
ผ๋ฌธ์ ์ฌํ์ฑ ์๊ธฐ ์๋์ AI ์์ด์ ํธ๋ฅผ ํ๊ฐ์๋ก ํ์ฉํ๋ ํ์ ์ ์ ๊ทผ์ ์ ์ํ๋ฉฐ, execution-grounded evaluation์ผ๋ก ์ธ๊ฐ ๋ฆฌ๋ทฐ์ด๊ฐ ๋์น๋ 51๊ฐ์ ๋ฌธ์ ๋ฅผ ์๋ณํ์ฌ ๊ณผํ์ ์๋ฐ์ฑ ๊ฐํ์ ์ค์ง์ ๊ฒฝ๋ก๋ฅผ ์ ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
261์์ ๋ค์ํ ๋ฅ๋ฆฌ์์น ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ฏ๋ก, LLM ๋ถ์๊ฐ ํ๊ฐ ๋ฌธ์ ์์ ์คํ ์ค๊ณ ๋ฐ ๋น๊ต ํ๊ฐ์ ์ฐธ๊ณ ํ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฝ๋์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ฐ๊ตฌ ๊ฒ์ฆ์ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ๋ค.
๋ค๋ฅธ ์ ๊ทผ
MLE-bench ์ญ์ ์คํ ๊ธฐ๋ฐ์ ํ๊ฐ๋ฅผ ๋ฐํ์ผ๋ก ๋ฐ์ดํฐ์ ์ฝ๋์ ์ค์ ์๋์ ํตํด LLM์ ๊ณผํ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฒ์ฆํ๋ฏ๋ก, ์คํ ์ค์ฌ ํ๊ฐ ๊ด์ ์์ ๊ฐ์ด ๋ณด๋ฉด ์ข์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ์คํ ์ฌํ์ฑ ๋ฐ ์๋ํ ์ฝ๋ ์์ฑ์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐ๊ตฌ ํ๊ฐ ๋ฐ ๊ฒ์ฆ ํ๋ ์์ํฌ๋ฅผ ๋ค๋ฃจ์ง๋ง ๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์์ ์ทจํ๋ ๋์์ ์ฐ๊ตฌ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๊ณผํ ๋
ผ๋ฌธ ์๋ ๋ถ์ ๋ฐ ํ๊ฐ ์์คํ
์ผ๋ก ์ ์ฌํ AI ์์ด์ ํธ ์ ๊ทผ๋ฒ์ ๊ณต์ ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐ๊ตฌ ์์ด์ ํธ ๋๋ AI ๊ธฐ๋ฐ ์ ๋ณด ๊ฒ์ ์์คํ
์ ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ๊ฐ๋ฐํ๋ ์ ์ฌํ ๋ชฉ์ ์ ๊ณต์ ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ๋ณต์กํ ์ถ๋ก ๋๋ ๊ตฌ์กฐ์ ์ดํด ๋ฅ๋ ฅ ํ๊ฐ ์ฐ๊ตฌ๋ก ์ ์ฌํ ๋ชฉ์ ์ ๊ณต์ ํ๋ค.
ํ์ ์ฐ๊ตฌ
Towards an AI co-scientist๋ ๊ณผํ์ ์ถ๋ก ์ ์ ๋ขฐ์ฑ๊ณผ ์๋ํ์ ๋ํด ๋ ๋์ ์๊ฐ์ ์ ๊ณตํ์ฌ, execution-grounded ํ๊ฐ ๊ธฐ๋ฒ์ ์ค์ ์ ์ฉ์ ํ์ฅํ๋ ํ๋ ์์ํฌ์ ์ฐ๊ฒฐ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Curie ํ๋ ์์ํฌ์ ์๋ํ ๊ณผํ ์คํ ๊ฐ๋
์ ํ์ฅํ๊ฑฐ๋ ๋ณด์ํ๋ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
execution-grounded evaluation ๊ฐ๋
์ ํน์ ๋๋ฉ์ธ์ ์ ์ฉํ์ฌ ํ์ฅํ ์ฐ๊ตฌ๋ค.