Essence
ํํ ๋๋ฉ์ธ์ ์ํด ํนํ๋ ์ถ๋ก ๋ชจ๋ธ(reasoning model)์ ๊ฐํํ์ต์ผ๋ก ํ๋ จํ๋ฉด, ์ถ๊ฐ ๋๋ฉ์ธ ์ฌ์ ํ์ต ์์ด๋ ์ผ๋ฐ ๋ชฉ์ ๋ชจ๋ธ๊ณผ ์ ๋ฌธ๊ฐ๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ์
์ฆํ๋ ์ฐ๊ตฌ์ด๋ค. ether0๋ผ๋ 24B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ์์ฐ์ธ์ด ์ถ๋ก ๊ณผ ํํ ๊ตฌ์กฐ(SMILES) ์ถ๋ ฅ์ ํตํฉํ์ฌ ์ฝ๋ฌผ ๋ฐ๊ฒฌ์ ํต์ฌ ๋จ๊ณ๋ฅผ ์ง์ํ๋ค.
Evaluation
์ดํ: ํํ ์ถ๋ก ์ ์ํ ๋๊ท๋ชจ RL ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ ๊ฐ๋ฐ์ ์ฒซ ์ฌ๋ก๋ก์, ์คํ ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ 640K ๋ฌธ์ ์ 375๊ฐ ์์
์ ๋ค์ํ ๊ฒ์ฆ ๋ฉ์ปค๋์ฆ์ ํตํด ๋ฐ์ดํฐ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์์ ์ฐ์์ฑ์ ์
์ฆํ ๊ฐ๋ ฅํ ์ฐ๊ตฌ์ด๋ค. ์ฝ๋ฌผ ๋ฐ๊ฒฌ ํ์ดํ๋ผ์ธ ํตํฉ๊ณผ ๋ค๋ฅธ ๊ณผํ ๋ถ์ผ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๋์ผ๋, ์ค์ ํฉ์ฑ ๊ฒ์ฆ, 3D ๊ตฌ์กฐ ๊ณ ๋ ค, ๋ฐ ์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ํ ํ๊ฐ๋ ํฅํ ๊ณผ์ ๋ก ๋จ์ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํํ ๋ฐ์ ์์ธก ๋ฑ์์์ LLM ์์ด์ ํธ ์ฒด๊ณ ๊ฐ๋ฐ์ ๋ค๋ฃจ๊ณ ์์ด, ๋๋ฉ์ธ ํนํ ๋ชจ๋ธ์ ์ค์ ์ ์ฉ ์ํฉ์ ํ์ธํ ์ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
419๋ ๊ณผํ์ ๊ฐ์ค ์์ฑ ๋ฐ reasoning ํ๊ฐ์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํ์ฌ, 837์ ๋๋ฉ์ธ ํนํ reasoning ์คํ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
705๋ ๊ณผํ์ ์ถ๋ก ์๋ํ, ์จํจ๋ก์ง ํตํฉ, ๋ฉํฐ์์ด์ ํธ ํ๋ ์์ํฌ์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํด 837์์ ํํ ํนํ ๋ชจ๋ธ ๊ฐ๋ฐ์ ๊ธฐ๋ฐ์ ์ด๋ฃน๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฐ์ด์ค/ํํ ๋ถ์ผ ๋ํ ์ธ์ด๋ชจ๋ธ์ ์ต๊ทผ ๋ฐ์ ๊ณผ ํ๊ฐ๋ฅผ ๋ค๋ฃฌ ์๋ฒ ์ด๋ก, ํํ ํนํ ์ถ๋ก ๋ชจ๋ธ์ ํ์์ฑ์ ๊ฐ์กฐํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Augmenting large language models with chemistry tools ๋
ผ๋ฌธ์ ํํ ๋๋ฉ์ธ ํนํ ๋๊ตฌ ์ฌ์ฉ์ ํตํ LLM ํฅ์์ ์ง์คํ์ฌ ether0 ๋ชจ๋ธ ํ๋ จ ์ ๋ต์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
265๋ ๊ฐํํ์ต์ ํตํ LLM ์ถ๋ก ์ธ์ผํฐ๋ธ ์ต์ ํ ์๋ฆฌ๋ฅผ ์ ์ํ๋ฉฐ, 837์ RL ๊ธฐ๋ฐ ํนํ๋ชจ๋ธ ํ๋ จ๊ณผ ์ง์ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํํ ์คํ ๊ธฐํ ๋ฑ์ LLM-๊ธฐ๋ฐ AI ํ์
ํ๋ ์์ํฌ๋ฅผ ์ ์ฉํ๋ ๊ด์ ์ ๋ค๋ฃน๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
837์ ํํ ํนํ LLM์ ์ถ๋ก ๋ฐ ์ ๋ฌธ๊ฐ ์์ค ์ฑ๋ฅ์, 225๋ ์์ ์ง๋จ ํนํ LLM์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ๊ฐ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๊ณผํ ๋ฐฉ์ ์ ๋ฐ๊ฒฌ์ ์ํ ๋ฒค์น๋งํฌ๋ก, ํํ ๋๋ฉ์ธ ์ธ์ ๊ณผํ์ ์ถ๋ก ์ฑ๋ฅ ๋น๊ต ์ฐ๊ตฌ๋ก์ ์ฝ์ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ChemAgent ๋
ผ๋ฌธ์ ํํ ์คํ ๋ถ์ ์์
์ LLM ๊ธฐ๋ฐ ์์ด์ ํธ๋ฅผ ์ ์ฉํ ์ฌ๋ก๋ก ํํ ํนํ ์ถ๋ก ๊ณผ ๊ฒฐ๊ณผ ํด์ ๋ฐฉ์์ ๋น๊ตํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
135๋ ์คํ ML๊ณผ LLM ๊ฒฐํฉ์ ํ์ค์ ๋์ ๊ณผ์ ๋ฅผ ๋ถ์ํ์ฌ, 837์์ ์ ์ํ reasoning ๊ฐํ๋ฅผ ์ค์ ํํ๋ ๊ณผ์ ์ ์ค์ง์ ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
837 ๋
ผ๋ฌธ์ ํํ ์ ์ฉ reasoning ๋ชจ๋ธ ํ๋ จ์ด๋ผ๋ T-SciQ์ ๊ณผํ ๋ฌธ์ ํน์ด์ฑ์ ์ฌํ์ํจ ์ฌ๋ก๋ก, Chain-of-Thought ๊ต์ก ์ ๋ต์ ๋ํ ๋น๊ต ํต์ฐฐ์ด ๊ฐ๋ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
837์ ํํ ๋ถ์ผ ํนํ ์ถ๋ก ๋ชจ๋ธ์ RL๋ก ํ๋ จํ์ฌ 705์์ ์ ์ํ๋ ์๋ ๊ณผํ ๋ฐ๊ฒฌ ํ๋ ์์ํฌ๋ฅผ ์ค์งํํฉ๋๋ค.
์์ฉ ์ฌ๋ก
LLM์ด ์ฝ๋ฌผ ๋ฐ ํํ ๋ถ์ผ ์๋ํ์ ์ ์ฉ๋ 34๊ฐ์ง ์ค์ ์ฌ๋ก๋ฅผ ์ ์ํ์ฌ, ๋๋ฉ์ธ ํนํ ์ถ๋ก ๋ชจ๋ธ์ ์ค์ฉ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค.
์์ฉ ์ฌ๋ก
ํํ ๋ถ์ผ์์ LLM ๊ธฐ๋ฐ ๊ณผํ์ ์ถ๋ก ์ ํ์ฅํด ์ํ์ AI ์์คํ
์ ๋ฒ์ฉ์ฑ๊ณผ ํ๊ณ๋ฅผ ๋น๊ต ๋ถ์ํ ์ ์์.