Essence
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ๊ฐ์ค ์์ฑ(Hypothesis Generation) ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํด 7๊ฐ์ ์ค์ ๊ณผ์ ์ 5๊ฐ์ ํฉ์ฑ ๊ณผ์ ๋ก ๊ตฌ์ฑ๋ 194๊ฐ ๋ฐ์ดํฐ์
์ ํฌํจํ๋ ๋ฒค์น๋งํฌ HypoBench๋ฅผ ์ ์ํ๋ค. ํฉ์ฑ ๋ฐ์ดํฐ์
์์ ๋์ด๋ ์ฆ๊ฐ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ์ ํ๋๋ ์ (์ต๊ณ 38.8% ํ๋ณต์จ)์ ํตํด ํ์กด ๊ฐ์ค ์์ฑ ๋ฐฉ๋ฒ์ ์๋นํ ๊ฐ์ ์ฌ์ง๋ฅผ ๋๋ฌ๋ธ๋ค.
Evaluation
์ดํ: HypoBench๋ ๊ฐ์ค ์์ฑ ๋ถ์ผ์ ์ฒซ ์ฒด๊ณ์ ๋ฒค์น๋งํฌ๋ก์, ๋ช
ํํ ๋ฌธ์ ์ ์์ 194๊ฐ ๋ฐ์ดํฐ์
์ ๋ฐฉ๋ํ ๊ท๋ชจ์์ ํฐ ๊ฐ์น๋ฅผ ์ง๋๋ค. ํนํ ๋์ด๋ ์ ์ด ๊ฐ๋ฅํ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ํตํด ํ์กด ๋ฐฉ๋ฒ(38.8% HDR)์ ํ๊ณ๋ฅผ ์ ๋ํํ ์ ์ ํฅํ ์ฐ๊ตฌ์ ๋ช
ํํ ๋ฐฉํฅ์ฑ์ ์ ์ํ๋ค. ๋ค๋ง ์ค์ ๋ฐ์ดํฐ์ ๊ทธ๋ผ์ด๋ ํธ๋ฃจ์ค ๋ถ์ฌ์ ํฅ๋ฏธ๋ก์ ์งํ์ ๋ฏธ์์ฑ์ด ํ๊ฐ์ ์์ ์ฑ์ ์ ์ฝํ๋ฏ๋ก, ํ์ ๊ฐ์ ๊ณผ ํ์ฅ์ด ๊ธฐ๋๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
HypoBench ๋
ผ๋ฌธ์ ์ฒด๊ณ์ ๊ณผํ์ ๋ฌธ์ ์ ๊ฐ์ค๋ฐ๊ฒฌ ํ์คํฌ๋ฅผ ๋ฒค์น๋งํนํ์ฌ SciBench์ ํ๊ฐ ๋๊ตฌ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
From Reasoning to Learning(363)์ ๊ณผํ์ ๊ฐ์ค ๋ฐ๊ฒฌ/์์ฑ์ ์ํ LLM ๋ฐฉ๋ฒ๋ก ์ ์๋ฒ ์ดํ๋ฉฐ, 417์ ๋ฒค์น๋งํฌ ์ค๊ณ ์์ ์ ๋ฐฐ๊ฒฝ์ง์์ผ๋ก ์ ํฉํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ฐ์ค ๋ฐ๊ฒฌยทํ๊ฐ์ ์ด์ ์ ๋ ์ฒด๊ณ์ ๋ฒค์น๋งํฌ๋ก์, ResearchBench์ ์ค๊ณ ๋
ผ๋ฆฌ์ ๋ณด์ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
417(HypoBench)๋ LLM ๋ฐ ์์ด์ ํธ ๊ธฐ๋ฐ ๊ณผํ ๊ฐ์ค๋ฒค์น๋งํฌ ๊ฐ๋ฐ ๋ฐ ํ๊ฐ ํ๋ ์์ํฌ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ์ํ์ฌ 558์ ๊ณผ์ ์ค๊ณ์ ์์๋ถ์ ์ค๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
417 ๋
ผ๋ฌธ์ ๊ณผํ์ ๊ฐ์ค ํ๊ฐ๋ฅผ ์ํ ์ฒด๊ณ์ ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํด 763์ HypoGen ๋ฐ์ดํฐ์
๊ธฐ๋ฐ ๊ฐ์ค ์์ฑ ํ๋ ์ ์ค๊ณ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
HypoBench(417)์ ํ์ ์ ๋ฌธ์ -๊ฐ์ค ์กฐํฉ ํ๊ฐ๋ฅผ ์ํ systematic benchmarking์ ์ ๊ณตํด, 777๋ฒ์ ํ์ ์ ๊ตฌ์กฐ ๋ฐ๊ฒฌ ํ๋ ์์ํฌ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ์ ๊ฐ์ค ์์ฑ์ ๋ํ ์์คํ
์ ๋ฒค์น๋งํน์ ๊ฐ๋ฅํ๊ฒ ํ ๊ธฐ๋ณธ ์ฐ๊ตฌ๋ก ํ HypoBench ๋ฐ์ดํฐ์
๋ฐ ํ๊ฐ ๊ธฐ์ค ์ค์ ์ ๋ผ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ์ ๊ฐ์ค ์์ฑ ๋ฐ ๊ฒ์ฆ ๋ฒค์น๋งํน์ ์์น์ ๊ธฐ์ค ์๋ฆฝ์ ํตํด MolQuest์ ์์ด์ ํธ ํ๊ฐ ์งํ ์ ์์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
417์ LLM์ ํ์ฉํ ๊ณผํ์ ์์ด๋์ด ์์ฑ ๋ฒค์น๋งํฌ ํ๊ฐ๋ฅผ ๋ค๋ฃจ์ด, 153์ ์ฐฝ์์ฑ ๋น๊ต ์คํ๊ณผ ๋ฌธ์ ์์์ด ๊ฒน์น๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋
ผ๋ฌธ ๋ชจ๋ LLM ๊ธฐ๋ฐ ๊ณผํ ๊ฐ์ค ์์ฑ์ ํ๊ฐ ๋ฐฉ๋ฒ์ ์ง์คํ๋, ํ๋๋ ๋ฒค์น๋งํฌ ์ค๊ณ์, ๋ค๋ฅธ ํ๋๋ ์๊ณ ๋ฆฌ์ฆ ๊ฐ์ ์ ์ด์ ์ ๋ก๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ฐ์ค ์์ฑ LLM์ ์ ๋ขฐ์ฑยท์ ํ์ฑ ๊ธฐ์ค์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ๋ก, HypoBench์ ๋ฐ์ดํฐ์ ์ฑ๋ฅ ํ๊ณ๋ฅผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
HypoBench๋ LLM์ ๊ณผํ์ ๊ฐ์ค ์์ฑ/๊ฒ์ฆ ์ญ๋์ ์๋ฐํ๊ฒ ๋ฒค์น๋งํนํ๋ ํ๋ ์์ํฌ๋ก, EAIRA์ ์ ์ฌํ๊ฒ AI์ ๊ณผํ์ ํ๊ฐ๋ฅผ ๋ค์ํ ์๊ฐ์์ ์ ๊ทผํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฌผ๋ฆฌ์ ์ ์ฝ์ ๋ฐ์ํ ๊ฒฐ์ ๊ตฌ์กฐ ์ค๊ณ๋ฅผ ์ํ ๋์์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
์์ํ ์ง์ ๋คํธ์ํฌ ๊ธฐ๋ฐ ๊ฐ์ค ์์ฑ์ ํน์ ์์ฉ ๋ถ์ผ์ ์ ์ฉํ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
HypoBench๋ ๊ฐ์ค ๋ฐ๊ฒฌ ๋ฐ ๊ท์นํ์ต ๊ด๋ จ LLM ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ์ฌ, Survey ๋
ผ๋ฌธ์ด ์ ๊ธฐํ ๊ฐ์คํ AI์ ์ค์ฆ์ ํ๊ฐ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
์์ฉ ์ฌ๋ก
HypoBench(417)๋ LLM ๊ธฐ๋ฐ ์คํ ๋๋ฉ์ธ ๊ณผํ ๊ฐ์ค ํ์ ์ฑ๋ฅ์ ์ํํ ์ค์ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์ ์ ๊ณตํ๋ค.