Essence
BIODSA-1K์ ๋ฒค์น๋งํฌ ํต๊ณ: 329๊ฐ ๋
ผ๋ฌธ์์ ์ถ์ถ๋ ๋ค์ํ ์์ํ ์ฐ๊ตฌ ์ ํ๊ณผ ๋ฐ์ดํฐ ๋ถ์ ๊ณผ์ ๋ค, ๋ฐ์ดํฐ ํ
์ด๋ธ์ ํ๊ณผ ์ด์ ๋ฒ์๋ฅผ ๋ณด์ฌ์ฃผ๋ ๋ฒ๋ธ ํ๋กฏ
๋ณธ ๋
ผ๋ฌธ์ ์์ํ ์ฐ๊ตฌ์์ AI ์์ด์ ํธ์ ๊ฐ์ค ๊ฒ์ฆ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด 1,029๊ฐ์ ๊ฐ์ค ์ค์ฌ ๊ณผ์ ์ 1,177๊ฐ์ ๋ถ์ ๊ณํ์ผ๋ก ๊ตฌ์ฑ๋ BIODSA-1K ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค. 329๊ฐ ์ถํ ๋
ผ๋ฌธ์์ ์ถ์ถ๋ ์ด ๋ฒค์น๋งํฌ๋ ์ค์ ์ฐ๊ตฌ ์ํฌํ๋ก์ฐ๋ฅผ ๋ฐ์ํ๋ฉฐ, ๊ฒ์ฆ ๋ถ๊ฐ๋ฅํ ๊ฐ์ค ์ฌ๋ก๋ฅผ ํฌํจํ์ฌ ํ์ค์ ์ธ ๋ฐ์ดํฐ ๊ณผํ ์๋๋ฆฌ์ค๋ฅผ ํ๊ฐํ๋ค.
Achievement
BIODSA-1K์ ์ ์ฒด ๊ฐ์: (a) ๋ฒค์น๋งํฌ ํ๋ ์ด์
- ๋
ผ๋ฌธ์ ๊ฐ์ค๊ณผ ๊ทผ๊ฑฐ ์ถ์ถ, (b) ์คํ - AI ์์ด์ ํธ์ ๊ณํ-ํ๋ก๊ทธ๋จ-๋ถ์-๊ด์ฐฐ-์์ฌ๊ฒฐ์ ์ฌ์ดํด, (c) ํ๊ฐ ์งํ - ๊ฐ์ค ๊ฒฐ์ ์ ํ๋, ๊ทผ๊ฑฐ ์ ๋ ฌ ์ ์, ๊ฒ์ฆ ๋ถ๊ฐ๋ฅ ๊ฐ์ค ๊ฐ์ง(์ ๋ฐ๋/์ฌํ์จ), ์ฝ๋ ์คํ ๊ฐ๋ฅ์ฑ
- ๋๊ท๋ชจ ๋ค์ํ ๋ฒค์น๋งํฌ ๊ตฌ์ถ: 329๊ฐ ๋
ผ๋ฌธ์์ 1,029๊ฐ ๊ฐ์ค๊ณผ 1,177๊ฐ ๋ถ์ ๊ณผ์ ์ถ์ถ, 8๊ฐ์ง ๋
ผ๋ฌธ ์ ํ(๊ฒ๋
ธ๋ฏน์ค, ์น๋ฃ์ , ๋ฐ์ด์ค๋ง์ปค, ๋ถ์ ๋ฑ) ํฌํจ
- ๋ณต์กํ ํ์ค์ ๋ฐ์ดํฐ์
: ์์ ๋ฐ์ดํฐ, ๋์ฐ๋ณ์ด ๋ฐ์ดํฐ, ์ ์ ์ ๋ฐํ, ๋จ๋ฐฑ์ง ๋ฐํ ๋ฑ ๋ค์ํ ์์ํ ๋ฐ์ดํฐ ํ์
ํฌํจ, ํ(102~105)๊ณผ ์ด(101~103) ๋ฒ์์ ๋์ ์ด์ง์ฑ ๋ฐ์
- ๋ค๊ฐ์ ํ๊ฐ ํ๋ ์์ํฌ: ๊ฐ์ค ๊ฒฐ์ ์ ํ๋(Type I/II ์ค๋ฅ), ๊ทผ๊ฑฐ-๊ฒฐ๋ก ์ ๋ ฌ๋, ์ถ๋ก ๊ณผ์ ์ ํ์ฑ, ์ฝ๋ ์คํ ๊ฐ๋ฅ์ฑ, ๊ฒ์ฆ ๋ถ๊ฐ๋ฅ ๊ฐ์ค ๊ฐ์ง(์ ๋ฐ๋/์ฌํ์จ) ๋ฑ 4๊ฐ์ง ์ถ์ผ๋ก ํ๊ฐ
- ๊ฒ์ฆ ๋ถ๊ฐ๋ฅ ๊ฐ์ค ํฌํจ: ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ์ฃผ์ฅ์ ํ์ธ/๋ฐ๋ฐํ ์ ์๋ ํ์ค์ ์๋๋ฆฌ์ค๋ฅผ ์ต์ด๋ก ํฌํจ
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.25/5
์ดํ: BIODSA-1K๋ ๊ธฐ์กด ์์ํ AI ๋ฒค์น๋งํฌ์ ๊ท๋ชจ, ๋ณต์ก์ฑ, ํ์ค์ฑ์ ํ๊ธฐ์ ์ผ๋ก ํ๋ํ๋ฉฐ, ํนํ ๊ฒ์ฆ ๋ถ๊ฐ๋ฅ ๊ฐ์ค ํฌํจ๊ณผ ๊ทผ๊ฑฐ-๊ฒฐ๋ก ์ ๋ ฌ ํ๊ฐ๋ AI ์ ๋ขฐ์ฑ ํ๊ฐ์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํ๋ค. ๋ค๋ง ์๋ ์ถ์ถ ๊ณผ์ ์ ์ค๋ฅ ๊ด๋ฆฌ์ ๋๋ฉ์ธ ํนํ ๊ธฐ์ ํ๊ฐ ๋ณด์์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๋ฃ AI ์ฐ๊ตฌ ์๋ํ์ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
294๋ฒ ๋
ผ๋ฌธ์ Data Science Agent์ ๋ฒค์น๋งํน์ ์ค์ฌ์ผ๋ก ํ๋ฉฐ, 163๋ฒ์ ์์ํ์ ๊ฐ์ค ๊ฒ์ฆ Task ํ๊ฐ์ ๋ฒค์น๋งํฌ์ ๋ํ์ฌ ์ํธ์ฐธ๊ณ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์์ ๋ฌธํ ๊ธฐ๋ฐ ์๋ฃ ์ ๋ณด ์๋ํ์์ ์ ์ฌํ ์ ๊ทผ๋ฒ์ ์ฌ์ฉํ๋ ๋์ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Benchmarking AI Scientists in Omics Data-Driven Biological Research ๋
ผ๋ฌธ์ ์ค๋ฏน์ค ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ณผํ ๊ฐ์ค ๊ฒ์ฆ์์์ AI ํ๊ฐ๋ฅผ ์ฃผ์ ๋ก ํ์ฌ, BIODSA-1K์ ์์ํ ์คํ ์๋ํ์ ๋ฌธ์ ์์์ด ์ ์ฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Biodsa-1k ๋
ผ๋ฌธ์ ๋ฐ์ด์ค๋ฉ๋์ปฌ ๋ฐ์ดํฐ ๊ณผํ ์์ด์ ํธ ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ๋ณ๋๋ก ์ ์ํ์ฌ, ์๋ฃ LLM ํ๊ฐ์ ๋ค๋ฅธ ์ธก๋ฉด์ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
BioDSA-1k ๋
ผ๋ฌธ์ ๋ฐ์ด์ค๋ฉ๋์ปฌ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ๋๋ฆฌ ๋ฒค์น๋งํฌ๋ก, Deep active learning๊ณผ ์ ์ ์ ์ํธ์์ฉ ํ์ ํ๋ ์์ํฌ์ ๋ค์ํ ๋์์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ฌผ์ํ ๋ฐ์ดํฐ ๋ถ์์ LLM์ ์ ์ฉํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์์ํ ๋ฐ์ดํฐ์ฌ์ด์ธ์ค ์์
์ ์ํ ๋ฒค์น๋งํฌ์ ์์ด์ ํธ ์ฑ๋ฅ ํ๊ฐ๋ก, Agentomics-ML๊ณผ ๋น๊ต ์ฐ๊ตฌ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Biodsa-1k๋ ์์ํ ๋ฐ์ดํฐ ๊ณผํ ์์ด์ ํธ ๋ฒค์น๋งํฌ๋ก, ๋
ธํ ๋ถ์ผ ๋ฑ ๋ณต์กํ ๋ฌธ์ ์์ PersonaAI์ ๋ฐ์ดํฐ-์ง์ ํตํฉ ํ๋ ์์ํฌ ๊ด์ ์์ ๋น๊ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ง์๊ทธ๋ํ ๊ธฐ๋ฐ ์ค๋ช
์์ฑ ๋๋ ์ ์ํ ์ฌ์ฉ์ ๋ชจ๋ธ๋ง์์ ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ ๋์ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ์ฐ๊ตฌ ์๋ํ ๋๋ ์๋ฃ AI ์์คํ
์ ์ฑ๋ฅ ํ๊ฐ์ ํ์คํ๋ ๋ฒค์น๋งํน์ ๊ดํ ์ ์ฌํ ์ฐ๊ตฌ ๋ชฉ์ ์ ๊ณต์ ํ๋ค.
ํ์ ์ฐ๊ตฌ
MLGym ๋
ผ๋ฌธ์ ๋ฐ์ด์ค ๋ฑ ๊ณผํ ์คํ ํ๊ฒฝ์์ AI ์ฐ๊ตฌ ์์ด์ ํธ์ ์ข
ํฉ์ ๋ฒค์น๋งํฌ๋ฅผ ์ ์, BIODSA-1K์์ ๋ค๋ฃจ๋ ํ์ค์ ๊ณผ์ ์ ํญ์ ๋ํ๋๋ค.
ํ์ ์ฐ๊ตฌ
์์๋ช
๋ฐ์ดํฐ ๊ณผํ ์์ด์ ํธ(BioDSA-1K)์ ๋ํ ๋ฒค์น๋งํฌ๋ก, BioAgents์ ์ฑ๋ฅ ๋ฐ ๋๋ฉ์ธ ์ ์ฉ ๋ฒ์๋ฅผ ํ๊ฐํ๋ค.
ํ์ ์ฐ๊ตฌ
805๋ ์์ด์ ํธ-๊ธฐ๋ฐ ์คํ ์๋ํ(Bench)๋ก ์ค์ ์ ์ฝ ๊ฐ๋ฐ/์์ํ ๋ถ์ผ ์ ์ฉ์ ํ์ฅํ ๋
ผ๋ฌธ์
๋๋ค.
์์ฉ ์ฌ๋ก
Biodsa-1k๋ ๋ฐ์ด์ค๋ฉ๋์ปฌ ๋ฐ์ดํฐ์ฌ์ด์ธ์ค์ฉ ์์ด์ ํธ ํ๊ฐ ๋ฒค์น๋งํฌ๋ก, MLAgentBench์ ๋ฐฉ๋ฒ์ ๊ตฌ์ฒด์ ์๋ฃ์์ญ์ ์ ์ฉํฉ๋๋ค.
์์ฉ ์ฌ๋ก
717์ ๋ค์ํ ๊ณผํ ์ํฌํ๋ก์ฐ์์ ๋ฉํฐ๋ชจ๋ฌ ์์จ ์์ด์ ํธ๋ฅผ ์คํ์ ์ผ๋ก ํ๊ฐํ์ฌ, 163์ ์์ํ ์์ฉ ๋ฒค์น๋งํฌ ๋งฅ๋ฝ์ ํ์ฅํฉ๋๋ค.
์์ฉ ์ฌ๋ก
163๋ฒ ๋
ผ๋ฌธ์ ๋ฐ์ด์ค๋ฉ๋์ปฌ ๋ฐ์ดํฐ ๋ถ์์ ์ํ ์์ด์ ํธ ๋ฒค์น๋งํฌ๋ก, FermiLink์ ํน์ ๋๋ฉ์ธ์ ๋ํ ์ ์ฉ ๋ฐ ํ๊ณ ํ์
์ ๋์์ด ๋ฉ๋๋ค.