Essence
Vending-Bench ๋ฒค์น๋งํฌ ๊ฐ์
๋ณธ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์์ด์ ํธ๊ฐ ์ฅ๊ธฐ๊ฐ(>2์ฒ๋ง ํ ํฐ)์ ๊ฑธ์ณ ์ผ๊ด๋ ์ฑ๋ฅ์ ์ ์งํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด ์ํ๊ธฐ ์ด์์ด๋ผ๋ ๋จ์ํ์ง๋ง ์ฅ์๊ฐ ์ง์๋๋ ๋น์ฆ๋์ค ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ์ ์ํ๋ค. ์คํ ๊ฒฐ๊ณผ Claude 3.5 Sonnet๊ณผ o3-mini๋ ๋๋ถ๋ถ์ ์คํ์์ ์์ต์ ์ฐฝ์ถํ์ง๋ง ๋ชจ๋ ๋ชจ๋ธ์ด ๋์ ๋ถ์ฐ๋(variance)๋ฅผ ๋ณด์ด๋ฉฐ, ๋ฐฐ์ก ์ผ์ ์คํด์, ์ฃผ๋ฌธ ๋ง๊ฐ, ๋๋ "๋ฉํธ๋ค์ด" ๋ฃจํ ๋ฑ์ผ๋ก ์ธํด ์ฅ๊ธฐ์ ์ผ๋ก ์ฑ๋ฅ์ด ์ ํ๋จ์ ๋ฐ๊ฒฌํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM ์์ด์ ํธ์ ์ฅ๊ธฐ ์ผ๊ด์ฑ์ด๋ผ๋ ์ค์ํ์ง๋ง ์์ธ๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ ์ค์ง์ ์ด๊ณ ์ ์ค๊ณ๋ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ฉฐ, ํ์ฌ ์ต๊ณ ์ฑ๋ฅ ๋ชจ๋ธ๋ค๋ ์ฅ๊ธฐ๊ฐ ์์ ์ฑ์์ ํ์ ํ ๋ฌธ์ ๋ฅผ ๋ณด์ธ๋ค๋ ๋ฐ๊ฒฌ์ AI ์์ด์ ํธ ๊ฐ๋ฐ๊ณผ ์์ ํ๊ฐ์ ์์ฌ์ ์ ์ ๊ณตํ๋ค. ๋ค๋ง ์คํจ ์์ธ ๋ถ์์ ์ฌํ, ์ธ๊ฐ ๊ธฐ์ค์ ์ ํต๊ณ์ ํ์ถฉ, ๋ค์ค ๋๋ฉ์ธ ํ์ฅ์ ํตํด ์ฐ๊ตฌ๊ฐ ๋์ฑ ๊ฐํ๋ ์ ์์ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฌํ ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ์์ด์ ํธ ํ๋ ๋ถ์ ์๋ฒ ์ด๋ก, ์ฅ๊ธฐ๊ฐ ์์ด์ ํธ ์ผ๊ด์ฑ ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
247๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋๊ท๋ชจ ์ง๋จ ์์ด์ ํธ์ ์ฌํ์ ์๋ฎฌ๋ ์ด์
๊ณผ ์ผ๊ด์ฑ ๋ฌธ์ ๋ฅผ ์ด๋ก ์ ํ์์ ๋ค๋ฃน๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
AI ๊ธฐ๋ฐ ์์ด์ ํธ(์: Elicit)์ ์ฅ๊ธฐ์ ์ฝํ๋ฐ์ค ๋ฐ ์ค์ง์ ํจ์ฉ์ฑ ํ๊ฐ๋ผ๋ ๋์ผ ๋งฅ๋ฝ์์ ์ฑ๋ฅ์ ์งํ์ ํ๊ณ๋ฅผ ํจ๊ป ๋
ผ์ํ ์ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฅ๊ธฐ๊ฐยท๋๊ท๋ชจ ๊ณํ ๋ฐ ์ฌํ์ ์ํธ์์ฉ์ ์์ด์ ํธ ๋ฒค์น๋งํฌ๋ก ์ ์ํ์ฌ, ์ํ๊ธฐ-๋น์ฆ๋์ค ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ๊ณผ ๋ชฉ์ ์ด ํก์ฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ด์
์ ์ค์ ์ ์ฅ๊ธฐ ์ผ๊ด์ฑ๊ณผ ์ฑ๋ฅ์ ์ธก์ ํ๋ ์๋ก์ด ๋ฐฉ๋ฒ ์ ์๋ก, ์ํ๊ธฐ ํ๊ฒฝ ๋ฒค์น๋งํฌ์ ๋น๊ตํ ๋งํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
OmniScientist ๋
ผ๋ฌธ์ ์ธ๊ฐ-AI ์ฌํ์ ์ํธ์์ฉ ๋ฐ ์ฅ๊ธฐ๊ฐ ์๋ฎฌ๋ ์ด์
์์ ์์ด์ ํธ ์ผ๊ด์ฑ๊ณผ ํ์ต์ ๋ชจ๋ธ๋งํ์ฌ Vending-Bench์ ์ฅ๊ธฐ ์์ด์ ํธ ์ผ๊ด์ฑ ๋ถ์๊ณผ ๊ด๋ จ ๊น๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฅ๊ธฐ์ ์ผ๊ด์ฑ ํ๊ฐ๋ฅผ ์ํ ์์ด์ ํธ ๋ฒค์น๋งํฌ๋ผ๋ ๋์ผ ๋ฌธ์ ์ ๋ํด ์๋ก ๋ค๋ฅธ ํ๊ฒฝ๊ณผ ๋ฐฉ์์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋
๋ฆฝ์ ์์ด์ ํธ์ ์ฅ๊ธฐ์ ์ผ๊ด์ฑ๊ณผ ์ฌํ์ ์๋ฎฌ๋ ์ด์
์ ์ด์ ์ ๋ง์ถ ๋ฒค์น๋งํฌ ๋
ผ๋ฌธ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
์ฅ๊ธฐ์ ์์ด์ ํธ ํ์ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ(์๋ ํ๋งค๊ธฐ)์ ํตํด ์ค์ธ๊ณ ๋น์ฆ๋์ค ์ ์ฉ๊น์ง ์ธ๊ฐ-์์ด์ ํธ ์ํคํ
์ฒ ๋
ผ์๋ฅผ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
641๋ฒ ๋
ผ๋ฌธ์ LLM ์์ด์ ํธ์ ์ฌํ์ ํ์
๊ณผ์ ์์ ๋ํ๋๋ ํ๋ ํํ์ ์ผ๊ด์ฑ ๋ฌธ์ ๋ฅผ ์คํ์ ์ผ๋ก ๋ถ์ํ ์์ฉ ์ฐ๊ตฌ์
๋๋ค.
์์ฉ ์ฌ๋ก
What ChatGPT and generative AI mean for science ๋
ผ๋ฌธ์ ์ฅ๊ธฐ๊ฐ ์ฌ์ฉ ์ LLM ๊ธฐ๋ฐ ์์คํ
์ ์ฌํ์ ๋ฐ ๊ธฐ์ ์ ์ํฅ๊ณผ ์ ์ฌ์ ๋ฆฌ์คํฌ๋ฅผ ๋ค๋ค, ์์ด์ ํธ ์ผ๊ด์ฑ ์ธก์ (865)์ด ๊ณผํยท์ฐ์
ํ์ฅ์ ์ค์ ๋ก ์ด๋ค ์๋ฏธ๋ฅผ ๊ฐ๋์ง ์ค๋ช
ํ๋ค.
์์ฉ ์ฌ๋ก
Vending-Bench ๋
ผ๋ฌธ์ ์ฅ๊ธฐ ๊ณผ์ ์ํ์ ์ผ๊ด์ฑ ํ๊ฐ๋ฅผ ์ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํด, AI/์ธ๊ฐ ํ์
๊ธฐ๋ฐ ์ฐ๊ตฌ ์์คํ
์ ์คํํจ๊ณผ๋ฅผ ์ธก์ ํ๋๋ฐ ํ์ฉ๋ฉ๋๋ค.