Essence
๊ทธ๋ฆผ 1: ๋ฏธ์ธ์กฐ์ ๋ 65B LLaMA ๋ชจ๋ธ์ด ์์ฑํ ๊ฐ์ค์ ์์๋ก, ๊ธฐ์กด ๋ฌธํ์ ๋ฐ๊ฒฌ๊ณผ ์ ์ฌํ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํจ
๋๊ท๋ชจ์ธ์ด๋ชจ๋ธ(LLM)์ด ํ์ต๋์ง ์์ ๊ณผํ ๊ฐ์ค์ ์ ์ํ ์ ์์ผ๋ฉฐ, ์์ฑ๋ ๊ฐ์ค์ด ์ค์ ์ถํ๋ ๋ฌธํ๊ณผ ์ผ์นํ๋ ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ด์ฉ์์ ์
์ฆํ๋ ์ฐ๊ตฌ์ด๋ค. ํนํ ๋ถํ์ค์ฑ ์ฆ๊ฐ๊ฐ ์์ ํ์ต(zero-shot) ๊ฐ์ค ์์ฑ ๋ฅ๋ ฅ์ ํฅ์์ํจ๋ค๋ ๋ฐ๊ฒฌ์ ์ ์ํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM์ ๊ณผํ์ ๊ฐ์ค ์์ฑ ๋ฅ๋ ฅ์ ํ์์ ์ผ๋ก ๊ฒ์ฆํ๋ ์ ๊ตฌ์ ์ฐ๊ตฌ๋ก, ์๊ฐ ๊ธฐ๋ฐ ๋ฐ์ดํฐ์
๋ถํ ๊ณผ ๋ถํ์ค์ฑ์ ๊ธ์ ์ ์ญํ ์ด๋ผ๋ ํฅ๋ฏธ๋ก์ด ๋ฐ๊ฒฌ์ ์ ์ํ๋ค. ๊ทธ๋ฌ๋ ํ๊ฐ ๋ฉํธ๋ฆญ์ ์ ์ ๋ถ์กฑ, ์์ํ ๋๋ฉ์ธ ํ์ , ๊ทธ๋ฆฌ๊ณ ์ค์ ๊ณผํ์ ์ ํจ์ฑ ๊ฒ์ฆ์ ๋ฏธํกํจ์ผ๋ก ์ธํด ๊ธฐ์ ์ ์์ฑ๋๊ฐ ๋ค์ ๋ฎ์ผ๋ฉฐ, ์ถ๊ฐ์ ์ธ ์คํ๊ณผ ์๋ฐํ ๋ถ์์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
์์ํ ์ง์ ๊ทธ๋ํ ๊ตฌ์ถ ๋ฐ ์จ๊ฒจ์ง ์ฐ๊ฒฐ ๋ฐ๊ฒฌ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Large Language Models are Zero Shot Hypothesis Proposers ๋
ผ๋ฌธ์ zero-shot ๋ฅ๋ ฅ์ ๊ตฌ์ฒด์ ์ผ๋ก ํ๊ฐํด 441์ ํฉํธ ์ฒดํฌ zero-shot/์ ์ด ๋ฅ๋ ฅ ๋ถ์์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
419๋ LLM์ ๊ณผํ์ ๊ฐ์ค ์์ฑ ๋ฅ๋ ฅ์ ๋น๊ต ํ๊ฐํ๋ ์ด๋ก ์ /๋ฒค์น๋งํฌ์ ๋ฐฐ๊ฒฝ์ ์ ์ํด, 468์ zero-shot ๋ฅ๋ ฅ ๋
ผ์๋ฅผ ์ฌํํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Large Language Models are Zero Shot Hypothesis Proposers ๋
ผ๋ฌธ์ LLM์ ๊ฐ์ค ์์ฑยทํ๊ฐ ๋ฅ๋ ฅ์ ๋ค๋ฃจ์ด, ๊ณผํ ์ค๋ณด ๊ฒ์ถ ๋ชจ๋ธ์ ๊ฐ๋ฅ์ฑ ๋ฐ ํ๊ณ ์ดํด์ ๋์์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ํ ์ธ์ด๋ชจ๋ธ์ ์ ๋ก์ท ๊ฐ์ค ์์ฑ ๋ฅ๋ ฅ์ ์ค์ฆ ํ๊ฐํ์ฌ, ๋ฌธํ+๋ฐ์ดํฐ ํตํฉ ๊ธฐ๋ฐ์ ๊ฐ์ค ์์ฑ ๋
ผ๋ฌธ ๋ฐฐ๊ฒฝ์ ์ด๋ฃฌ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Large Language Models are Zero Shot Hypothesis Proposers ๋
ผ๋ฌธ์ LLM์ ๊ณผํ์ ์ง์ยท๊ฐ์ค ์์ฑ ๋ฅ๋ ฅ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํ์ฌ, ์ ๋ขฐ์ฑยท์๊ฐ์ ๋ณด ํตํฉ QA ๊ฐ์ ์ ํ ๋๋ฅผ ๋ง๋ จํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Large Language Models are Zero Shot Hypothesis Proposers(468)๋ LLM์ ์๋ก์ด ๊ณผํ ๊ฐ์ค ์ ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ฉฐ, 474์ ์ธ๊ณผ๊ตฌ์กฐ ์ถ๋ก ๋ ฅ์ ๋ํ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ zero-shot ๊ฐ์ค ์์ฑ ๋ฅ๋ ฅ ๊ฐ๋
์ ์คํ ๊ธฐ๋ฐ ์ธ๊ณ ๋ชจ๋ธ ํ๊ฐ์ ์ฐ๊ฒฐ์ง์ด ๊ธฐํธ์ ๋ชจ๋ธ๋ง ํ๊ณ์ ์ ์ฌ๋ ์๊ฒ ๋ถ์ํ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ์ ๋ก์ท ๊ธฐ๋ฐ ๊ฐ์ค ์์ฑ/์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํจ์ผ๋ก์จ, ๊ธฐ์ ํ๋จ์ ํ์ํ LLM์ ์ค์ ์ ํ์ฉ ์ง์์ ํ์
ํ ์ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
031 ๋
ผ๋ฌธ์ ๊ณผํ์ ๋ฐ๊ฒฌ์ ์ํ ๊ฐ์ค ์์ฑ์ ๊ดํ ์๋ฒ ์ด๋ก, 468์ ์์ด๋์ด ๋์ฝ์ ์ด๋ก ์ ๊ทผ๊ฑฐ์ ๋ฐฐ๊ฒฝ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐ๊ตฌ ๊ฐ์ค ์์ฑ์์ ์ ์ด ๊ฐ๋ฅํ ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ ๋ถํ์ค์ฑ ๊ธฐ๋ฐ ์ ๋๋ ์ดํฐ๋ธ ์ ๊ทผ์ ๋น๊ตยท๋ถ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Large Language Models are Zero Shot Hypothesis Proposers ๋
ผ๋ฌธ์ LLM์ ์ ๋ก์ท ๊ณผํ ๊ฐ์ค ์์ฑ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํ๋ฉฐ, MOOSE-Chem์ ์ฐฝ๋ฐ์ ์ ์ฉ๊ณผ ๋น๊ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ zero-shot ๊ฐ์ค ์์ฑ ๋ฅ๋ ฅ์ ๋ถ์ํด HypoGeniC๊ณผ ํ์ ์ ๋ต์ ํจ๊ณผ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
820์ LLM์ ๊ณผํ์ ๊ฐ์ค ์์ฑ ์ ์ ๋ขฐ์ฑ๊ณผ ํ๊ฐ ์ฒ๋์ ์ง์คํ์ฌ, 468์ ์ฃผ์ฅ์ ์ค์ฆ์ ๊ทผ๊ฑฐ์ ์ค์ ์ ํ๊ณ๋ฅผ ๋ํด์ค๋ค.
ํ์ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ์์ด๋์ด ์์ฑ ๊ธฐ๋ฅ์ด ๋ถํ์ค์ฑ ์์ค์ ์ค์ ์ถํ ์ฐ๊ตฌ์์ ๋์์ฑ์ ๋ณด์ด๋ฉฐ, ํตํฉ์ ์์ด๋์ด ํ๊ฐ ์์คํ
์ผ๋ก ๋ฐ์ ํ๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ์ ๋ก์ท ๊ฐ์ค ์ ์ ๋ฐ ์ธ๊ณผํ์ ์ฑ๋ฅ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ํตํด, MRAgent์ ์ค์ต์ ์ธ๊ณผ ๊ด๊ณ ๋ฐ๊ฒฌ์ ํ์ค์ ์ธ ์ ์ฉ ์์ ๋ก ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
374๋ ๋๋ ํ์ ๋ฌธํ์ ์์ฝ์ LLM์ผ๋ก ์์ฑํ์ฌ, 468์์ ์ ์ํ๋ ํ์ต๋์ง ์์ ๊ฐ์ค๊ณผ ์ค์ ๊ฒ์ฆ๋ ์ ๋ณด ๊ฐ ์ฐ๊ฒฐ ์์ฉ์ด ๊ฐ๋ฅํฉ๋๋ค.
์์ฉ ์ฌ๋ก
๊ฐ์ค ๋์ถ ๋ฅ๋ ฅ์ด ์ค์ ๊ณผํ์ ์์ฐ๊ณผ์ ์์ ์ด๋ป๊ฒ ํ์ฉ๋๋์ง LLM ์์ฐ์ฑ ํฅ์ ๋งฅ๋ฝ์ผ๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค.
๋ฐ๋ก /๋นํ
Large Language Models are Zero Shot Hypothesis Proposers ๋
ผ๋ฌธ์ ๋ค์ค ๊ด์ /์ค๋ฅ ํผ๋๋ฐฑ ์์ด๋ LLM์ด ์ฐฝ์์ ์ถ๋ก ์ ์ํํ ์ ์๋ค๋ ์ ์ ๊ฐ์กฐํ๋ฉฐ, Wrong-of-Thought(887)์ ๋ค์ค ๊ฒ์ฆ ์ ๋ต ์ ๊ทผ๊ณผ ๋์กฐ๋๋ค.