Essence
DrugAgent ํ๋ ์์ํฌ ๊ฐ์: LLM Planner์ LLM Instructor์ ํ๋ ฅ์ ํตํด ์์ฐ์ธ์ด๋ก ํํ๋ ์ ์ฝ ๋ฐ๊ฒฌ ๊ณผ์ ๋ฅผ ์๋์ผ๋ก ML ํ๋ก๊ทธ๋๋ฐ์ผ๋ก ๋ณํ
LLM ๊ธฐ๋ฐ ๋ค์ค ์์ด์ ํธ ํ๋ ์์ํฌ DrugAgent๋ ์ ์ฝ ๋ฐ๊ฒฌ ๋ถ์ผ์ ์ ๋ฌธ์ ์ง์์ ํตํฉํ์ฌ ์ผ๋ฐ ๋ชฉ์ AI ์์ด์ ํธ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , DTI(์ฝ๋ฌผ-ํ์ ์ํธ์์ฉ) ์์ธก์์ ReAct ๋๋น 4.92% ํฅ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.25/5
์ดํ: DrugAgent๋ ์ ์ฝ ๋ฐ๊ฒฌ ๋ถ์ผ์ ๋๋ฉ์ธ ์ง์์ LLM ์์ด์ ํธ์ ์ฒด๊ณ์ ์ผ๋ก ํตํฉํ๋ ์ค์ง์ ์ ๊ทผ์ ์ ์ํ๋ฉฐ, ์ผ๋ฐ ๋ชฉ์ ์์ด์ ํธ ๋๋น ์ ์๋ฏธํ ์ฑ๋ฅ ๊ฐ์ ๊ณผ ์ ๋ขฐ์ฑ(์ ํจ ์ ์ถ๋ฅ , ์ค๋ฅ์จ)์ ์
์ฆํ๋ค. ๋ค๋ง ํ๊ฐ ๋ฒ์ ํ๋, ๊ณ์ฐ ๋น์ฉ ๋ถ์, ์ค์ ์ ์ฝ ๊ฐ๋ฐ ํ๊ฒฝ๊ณผ์ ๊ฒ์ฆ์ด ์ถ๊ฐ๋๋ฉด ์์ ์ ์ฉ์ฑ์ด ๊ฐํ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
ReAct(655) ๊ธฐ๋ฐ ํ๋ ์์ํฌ๊ฐ DrugAgent์ reasoning-acting ์๋์ง ๋ชจ๋ธ๋ง์์ ๊ทผ๊ฐ์ ํ์ฑํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ์๋ฃ ์์ฉ์ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ ํ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
115(ChemCrow)๋ LLM ๊ธฐ๋ฐ ํํ ์์ด์ ํธ ์ํคํ
์ฒ์ ์ด๊ธฐ ์ฌ๋ก๋ก, DrugAgent(290)์ ์ ์ฝ๋ฐ๊ฒฌ ์๋ํ ํ๋ ์์ํฌ์ ์ด๋ก ์ ยท๊ตฌํ์ ๊ธฐ๋ฐ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
290๋ฒ ๋
ผ๋ฌธ์ ์๋ํ๋ ์ ์ฝ๊ฐ๋ฐ ์์ด์ ํธ ์์คํ
์ผ๋ก, PharmAgents๊ฐ ์ถ๊ตฌํ๋ ํตํฉ์ ํ์ดํ๋ผ์ธ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ด๋ฃน๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
DrugAgent ๋
ผ๋ฌธ์ ์ ์ฝ ์ค๊ณ์ ํน์ ๋จ๊ณ์์ ๋ฉํฐ์์ด์ ํธ์ ๋๊ตฌ ํ์ฉ๋ฒ์ ์ ์ํ์ฌ, FROGENT์ end-to-end ์๋ํ ๊ธฐ๋ฐ์ ๊ตฌ์ถํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
DrugAgent๋ ์ฝ๋ฌผ ์ค๊ณ ๊ณผ์ ์ LLM ๊ธฐ๋ฐ ์๋ํ ์ฐ๊ตฌ๋ก, Ara ์์ด์ ํธ ์ํฌํ๋ก์ฐ์ ๊ธฐ์ ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
DrugAgent๋ ์ฝ๋ฌผ ์ฌ์ฐฝ์ถ ๋ฑ ์ฝ๋ฌผ-์ง๋ณ ์ถ๋ก ์ agent ๊ธฐ๋ฐ ์ ๊ทผ์ ์ฌ์ฉํ๋ฏ๋ก, DrugCLIP์ ๋น๊ต ๋์์ผ๋ก ์ ํฉํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
DrugAgent๋ ์ฝ๋ฌผ ๋ฐ๊ฒฌ ํ๋ก๊ทธ๋๋ฐ์ ์๋ํํ๋ LLM ๊ธฐ๋ฐ ์์คํ
์ผ๋ก, ์ ์ ์ ๊ธฐ๋ฐ ์ฐ๊ตฌ ์๋ํ์ ์ ๊ทผ ๋ฐฉ์ ๋น๊ต์ ๋์์ด ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋ค ์ ์ฝ ๋ฐ๊ฒฌ์์ LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ํ์ฉ์ ๋ค๋ฃจ์ง๋ง, 290์ ํ๋ก๊ทธ๋๋ฐ ์๋ํ, 651์ ํด ์ฌ์ฉ๊ณผ ํ์
์ ๊ฐํํ๋ ์ ์์ ๋น๊ตํ ๋งํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
PharmAgents(616)๋ ์ฝ๋ฌผ ๊ฐ๋ฐ์ฉ LLM ์์ด์ ํธ ํ๋ ์์ํฌ๋ก, ๋๊ตฌ ํตํฉ ๋ฐ ํ์ดํ๋ผ์ธ ์๋ํ์์ DrugAgent์ ๋๋ฑํ ๋์์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ ์ฝ๊ฐ๋ฐ์ ์ํ LLM ๊ธฐ๋ฐ ์ถ๋ก ๋ฐ ํ๋ผ๋ฏธํฐ ์ต์ ํ ํ๋ ์์ํฌ๋ก, ์ ์ฝ ์กฐ๊ฑด ๋ด ๋
ผ๋ฆฌ์ ๊ณํ ์ญ๋์ ์๋ก ๋ณด์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
290๋ฒ ๋
ผ๋ฌธ์ ์ฝ๋ฌผ ๋ฐ๊ฒฌ์ ์ํ ํ๋ผ๋ฏธํฐํ๋ ์ถ๋ก ๊ธฐ๋ฐ ์์ด์ ํธ๋ก, ๊ณ์ธต์ /๊ณผ์ ๊ฐ ์ผ๋ฐํ ๋ฌธ์ ์์ ์ ์ฌ ๊ณผ์ ๋ฅผ ๋ค๋ฃน๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ ์ฝ ๊ฐ๋ฐ์ ์ํ ๋ค๋ฅธ LLM ๊ธฐ๋ฐ ์์ด์ ํธ ์์คํ
์ ์ ์ํ ๋์์ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
DrugAgent ๋
ผ๋ฌธ์ ์ ์ฝ ๋ฐ๊ตด ์๋ํ ํ์ดํ๋ผ์ธ์์ LLM ๊ธฐ๋ฐ reasoning ๋ฐ ๋ฐ์ดํฐ ํ์ฉ์ ์ด์ ์ ๋ง์ถ๋ค.
๋ค๋ฅธ ์ ๊ทผ
DrugAgent๋ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ฝ๋ฌผ ๋ฐ๊ฒฌ ์๋ํ ํ๋ก๊ทธ๋๋ฐ์ ์ ์ํ๋ฉฐ, TxAgent์ ์น๋ฃ์ ๋ค๋จ๊ณ ์ถ๋ก ๊ณผ ์ฐจ๋ณ์ ์ ๋ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
DrugAgent๋ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ ์ฝ๊ฐ๋ฐ ์๋ํ๋ฅผ ์งํฅํ๋ฉฐ, PanMETAI์ ๊ฐ์ด ์์ ๋ฐ ๋ถ์ ๋ฐ์ดํฐ๋ฅผ ํตํฉํด ์ํ์ ์ง๋จยท์์ธก์ ๋
ผ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
LLM๊ณผ ๊ฐํํ์ต ๊ธฐ๋ฐ ๊ณผ์ ์๋ํ๋ก, ์ ์ฑ
์ต์ ํ/์ผ๋ฐํ์ ํ๊ณ๋ฅผ ์์ด์ ํธ ์ค๊ณ ๊ด์ ์์ ๋ณด๋ค ์คํ์ ์ผ๋ก ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
FROGENT ๋
ผ๋ฌธ์ ์ ์ฝ ์ค๊ณ ์ ๊ณผ์ ์ ๋ฉํฐ์์ด์ ํธ ์์คํ
์ผ๋ก ํตํฉํ์ฌ DrugAgent์ ๋ชจ๋ํ๋ ํ์ดํ๋ผ์ธ์ ์ด์ฒด์ ์ผ๋ก ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ ๋ค LLM์ ํ์ฉํ ์ ์์ ์ ์ฝ๊ฐ๋ฐ ์๋ํ์ง๋ง, 490(LIDDIA)์ด ๋๊ตฌ์ฆ๊ฐํ ์์ด์ ํธ๋ผ๋ฉด 290์ ๋ฐ์ดํฐ ์ค์ฌ ํ๋ก๊ทธ๋๋ฐ ์๋ํ๋ก ์ค๊ณ ๊ด์ ์ด ํ์ฐํ ๋ค๋ฆ
๋๋ค.
ํ์ ์ฐ๊ตฌ
177์์ ์ ์ํ DO Challenge ๋ฐ Deep Thought์ ์คํจ์ฑ์ 290 ๋
ผ๋ฌธ์ ์๋ํ๋ LLM ๊ธฐ๋ฐ ์ ์ฝ ๋ฐ๊ฒฌ ์์คํ
์ฌ๋ก์์ ํ์ฅ์ ์ผ๋ก ๊ฒํ ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
AI-์ฝ๋ฉ ๊ธฐ๋ฐ ๋๋ญ๋์ค์ปค๋ฒ๋ฆฌ ์๋ํ pipeline ์ฐ๊ตฌ๋ก, ํฌ๊ฒ ๋ณด๋ฉด Latent-Y์ ์ ์ฌ ๋ชฉํ์ ๋๋ฌํ๋ค.
์์ฉ ์ฌ๋ก
Can large language models detect misinformation in scientific news ๋
ผ๋ฌธ์ LLM ์์ฉ์์ ์ ๋ขฐ์ฑ ํ๊ฐ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ๋ฉฐ, ์ ์ฝ ๊ฐ๋ฐ ์คํ์ ๊ฒฐ๊ณผ ๊ฒ์ฆ ๋ฐ ์ฌํ์ฑ ํ๊ฐ์ ์ฐธ๊ณ ๊ฐ ๋ฉ๋๋ค.
์์ฉ ์ฌ๋ก
290๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์๋ ์ฝ๋ฌผ ๋ฐ๊ฒฌ ์์ด์ ํธ๋ฅผ ๋ค๋ฃจ๋ฉฐ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ์์ด์ ํธ ๊ธฐ์ ์ ์ค์ ๋ฐ์ด์ค๋ฉ๋์ปฌ ์์ฉ ์ฌ๋ก๋ฅผ ์ ๊ณตํฉ๋๋ค.