Essence
scAgent์ ์ ์ฒด ํ๋ ์์ํฌ: (a) ๋ค์ํ ์ฌ์ฉ์ ์ฟผ๋ฆฌ์ ๋์ํ๋ ๋ฅ๋ ฅ, (b) ๊ณํ ๋ชจ๋์ ๊ตฌ์กฐ, (c) ํ๋ ๊ณต๊ฐ์ ๊ตฌ์ฑ, (d) ๋ฉ๋ชจ๋ฆฌ ๋ชจ๋์ ์ ๋ณด
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ ์์ด์ ํธ๋ฅผ ํ์ฉํ ๋ฒ์ฉ ๋จ์ผ์ธํฌ ์ฃผ์(cell annotation) ํ๋ ์์ํฌ๋ก, ์กฐ์ง ๊ฐ ์ผ๋ฐํ, ์ ๊ท ์ธํฌ ํ์
๋ฐ๊ฒฌ, ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๋์์ ๋ฌ์ฑํ๋ค. scAgent๋ 160๊ฐ ์ธํฌ ํ์
๊ณผ 35๊ฐ ์กฐ์ง์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
Evaluation
์ดํ: scAgent๋ LLM ๊ธฐ๋ฐ ์์ด์ ํธ ์ํคํ
์ฒ์ MoE-LoRA ํ๋ฌ๊ทธ์ธ์ ๊ฒฐํฉํ์ฌ ๋ฒ์ฉ ์ธํฌ ์ฃผ์์ ์ธ ๊ฐ์ง ๊ณผ์ (์ผ๋ฐํ, ์ ๊ท ๋ฐ๊ฒฌ, ํ์ฅ์ฑ)๋ฅผ ๋์์ ํด๊ฒฐํ ํ์ ์ ์ ๊ทผ๋ฒ์ผ๋ก, ๊ด๋ฒ์ํ ์คํ์ ๊ฒ์ฆ์ ํตํด ์ฐ์ํ ์ฑ๋ฅ์ ์
์ฆํ๋ค. ๋ค๋ง LLM ๊ณ์ฐ ๋น์ฉ๊ณผ ์ ๊ท ์ธํฌ ํ๋ณ ๊ธฐ์ค์ ์๋ฌผํ์ ์๋ฐ์ฑ์ ๋ํ ๋ณด์์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
699๋ ๋จ์ผ์ธํฌ ์ ์ ์ ๋ฐํ ๋ฐ์ดํฐ ๋ถ์ ํ์ค ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ์ฌ, 693์ LLM ๊ธฐ๋ฐ ์ธํฌ ์ฃผ์ ์๋ํ์ ๋ฐ์ดํฐ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋จ์ผ์ธํฌ foundation model์ ํจ์จ์ ์ผ๋ก ํ์ธํ๋ํ์ฌ ์กฐ์ง ๊ฐ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๊ธฐ๋ฐ์ ๊ธฐ์ ์ ์ ์ํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
scAgent๋ LLM ๊ธฐ๋ฐ ๋จ์ผ์ธํฌ ๋ฐ์ดํฐ ์ฃผ์ ์๋ํ ์์คํ
์ผ๋ก, scBaseCamp์ ๋์ฉ๋ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋ฐ ํ์ฉ ๋ฐฐ๊ฒฝ์ ์ง์ํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
scAgent๋ ์ฑ๊ธ์
๊ธฐ๋ฐ ํฌ๋ก๋งํด ํน์ง ์์ธก๊ณผ ์ฃผ์ ๋ถ์ฌ ๋ถ์ผ์ ์ฒจ๋จ ์์ด์ ํธ ์์คํ
์ผ๋ก, Hi-Compass์ ํ์ค ์ ์ฉ์ฑ๊ณผ ๋ณ๋์ฑ ์์ฉ๋ ฅ์ ํ ๋ก ํ ๋ ์ง์ ์ ์ฐธ๊ณ ๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จ์ผ์ธํฌ ๋ฐ์ดํฐ ์๋ ์ฃผ์ํ์ ๋ถ์์ ์ํ LLM ์์ด์ ํธ(scAgent) ์ ๊ทผ๋ฒ์ ์ค์ฉ์ ์ผ๋ก ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
164๋ ๋ฐ์ด์ค์ธํฌ๋งคํฑ์ค ์์ด์ ํธ(BIA)๋ฅผ ํตํด ์ ์ฌํ ๋จ์ผ์ธํฌ ๋ฐ ์๋ช
๊ณผํ ๋ฐ์ดํฐ ๋ถ์์์์ LLM ํ์ฉ์ ํ๊ตฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
scAgent ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋จ์ผ์ธํฌ ๋ฐ์ดํฐ ์ฃผ์ ์๋ํ๋ฅผ ๋ชฉํ๋ก ํ์ฌ foundation model ์ธํฌ ๋ถ์์ ๋ค๋ฅธ ์ ๊ทผ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
693๋ฒ ๋
ผ๋ฌธ์ ๋จ์ผ์ธํฌ ๋ฐ์ดํฐ ์ฃผ์์ LLM ์์ด์ ํธ๋ก ์ํํ๋ ์ ๊ทผ๋ฒ์ผ๋ก, 505๊ณผ ๋ฐ์ดํฐ ํ์ฉ ์ธก๋ฉด์์ ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฒ์ฉ ๋จ์ผ์ธํฌ ๋ฐ์ดํฐ ์๋ํ ๋ฐ ์์ด์ ํธ ํ๋ ์ด์
๋ฐฉ์์ ์ ์ฉํ ๋๊ท๋ชจ ํ๋ ์์ํฌ๋ก, ์ ์ฌ ๋ถ์ผ์ ๋ํ ๋์์ ์ ๊ทผ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
scAgent๋ CASSIA์ ๊ฐ์ด LLM ๊ธฐ๋ฐ ๋จ์ผ์ธํฌ ์ฃผ์์ ๋ชฉํ๋ก ํ๋ฉฐ, ๋ค์ํ ๋ฉํฐ์์ด์ ํธ ์ ๊ทผ๋ฒ์ ์ฐจ์ด๋ฅผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
scAgent ๋
ผ๋ฌธ์ ๋จ์ผ์ธํฌ ์ฃผ์ ์์
์ ์ํ ๋ฒ์ฉ LLM ์์ด์ ํธ๋ฅผ ์ ์ํ์ฌ, omics ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ฐ๊ตฌ์์ BAISBench์ ๋น๊ตํด๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
scAgent๋ ๋จ์ผ์ธํฌ ์ฃผ์ ๋ถ์ผ์์ LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ์๋ํ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํ์ฌ ๊ณต๊ฐ์๋ฌผํ ํ์ดํ๋ผ์ธ ์๋ํ์ ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
scAgent ๋
ผ๋ฌธ์ ๋จ์ผ์ธํฌ ๋ฐ์ดํฐ ์ฃผ์ ๋ถ์ผ์์ ๋ฒ์ฉ LLM ์์ด์ ํธ๋ฅผ ์ ์ํด Cell2Sentence์ ๋ถ์ผ์ ์ฐจ๋ณ์ฑ๊ณผ ์ ์ฌ์ ์ ํ์
ํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
3057๋ฒ ๋
ผ๋ฌธ๋ ๋จ์ผ์ธํฌ ๋ถ์์ ์ํ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ ๋๊ท๋ชจ foundation model์ ์ ์ํ์ฌ ์ ์ฒด์ ์ธ ์ ๊ทผ ๋ฐฉ๋ฒ์ ๋ค๋ฅด์ง๋ง ์ ์ฌ ๋ถ์ผ๋ฅผ ๋ค๋ฃน๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จ์ผ์ธํฌ ์ฃผ์ ๋ฐ ๋ณ์์ฒด ๋ถ๋ฅ ์์
์์ LLM ๊ธฐ๋ฐ ๋ฒ์ฉ ์์ด์ ํธ ํ์ฉ ์ฌ๋ก๋ก, ํ์ฒญ๊ตฐ ๋ถ๋ฅ์ ML ํ์ดํ๋ผ์ธ๊ณผ ์ฐจ๋ณ์ ํ๊ณ์ ์๋์ง๋ฅผ ๋น๊ตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋จ์ผ์ธํฌ ์์ค ๋ฐ์ดํฐ ์ด๋
ธํ
์ด์
๊ณผ ํฌ๋ก๋งํด ๋ฃจํ ํ์ง ๋ฑ ์ธํฌ ๋ด ๊ตฌ์กฐ ๋ถ์์ ์ํ ๋ค๋ฅธ AI ์ ๊ทผ๋ฒ์ ๋ณด์ฌ์ค.
ํ์ ์ฐ๊ตฌ
Biological sequence annotation์ ์ํ LLM ๊ธฐ๋ฐ ์์ด์ ํธ ์ ๊ทผ๋ฒ์ผ๋ก, ActionIE์ ์๋ฌผํ์ ์ํ์ค ์์ฉ์ ํ์ฅํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
scAgent ๋
ผ๋ฌธ์ ๋จ์ผ์ธํฌ ์ฃผ์์์
์๋ํ์์ LLM-์์ด์ ํธ์ ์ญํ ์ ๋ถ์ํ์ฌ, CellAgent์ ์๋ฌผ์ ๋ณดํ ์๋ํ์ ์ฑ๋ฅ ๋น๊ต์ ์ ํฉํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
BioAgents(160)๋ scAgent์ฒ๋ผ ๋๊ท๋ชจ ๋ฐ์ด์ค์ธํฌ๋งคํฑ์ค ๋ถ์์์ LLM ๊ธฐ๋ฐ ๋ฉํฐ์์ด์ ํธ ํ๋ ์์ํฌ ํ์ฉ์ ํ๋ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋จ์ผ์ธํฌ ๋ถ์์์ LLM ๊ธฐ๋ฐ ์๋ ์ฃผ์ํ ์์ด์ ํธ๋ฅผ ์ ์ฉํ ๋
ผ๋ฌธ์ผ๋ก, DECODE์ ๋์ปจ๋ณผ๋ฃจ์
๋ฐฉ๋ฒ์ ์ค์ ๋จ์ผ์ธํฌ ๋ถ์ ๋ฌธ์ ์ ํ์ฅ ์ ์ฉํฉ๋๋ค.
์์ฉ ์ฌ๋ก
168์ ๋ฒ์ฉ ๋ฐ์ด์ค๋ฉ๋์ปฌ AI ์์ด์ ํธ ๊ตฌ์ถ ๋งฅ๋ฝ์์ 693์ ๋ฒ์ฉ annotation ๋ฐฉ๋ฒ๋ก ์ด ์ค์ ๋ก ์ด๋ป๊ฒ ํ์ฉ๋๋์ง ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
LLM ๊ธฐ๋ฐ ๋จ์ผ์ธํฌ ์ฃผ์ ์๋ํ ๋ฑ ์ค์ ๋จ์ผ์ธํฌ ๋ฐ์ดํฐ ์ ํ์ ๋ํ ์ค์ ์ ์ฉ ์ฐ๊ตฌ์ด๋ค.