MASSW: A new dataset and benchmark tasks for AI-assisted scientific workflows
์ ์: Xingjian Zhang, Yutong Xie, Jin Huang, Jinge Ma, Zhaoying Pan | ๋ ์ง: 2024 | DOI: N/A 📄 PDF
Essence
Figure 1: Visualizations of MASSW aspects.
๋ณธ ๋
ผ๋ฌธ์ ๊ณผํ์ ์ํฌํ๋ก์ฐ๋ฅผ ๊ตฌ์กฐํ๋ ํํ๋ก ํํํ๊ธฐ ์ํด 152,000๊ฐ ์ด์์ ์ปดํจํฐ๊ณผํ ๋
ผ๋ฌธ์์ LLM์ ์ด์ฉํด context, key idea, method, outcome, projected impact์ ๋ค์ฏ ๊ฐ์ง ํต์ฌ ์ธก๋ฉด์ ์๋ ์ถ์ถํ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
MASSW๋ฅผ ์๊ฐํ๋ค. ์ด ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ์
์ ๊ณผํ์ ์ํฌํ๋ก์ฐ ์ต์ ํ๋ฅผ ์ํ AI ๋ฐฉ๋ฒ ๊ฐ๋ฐ๊ณผ ํ๊ฐ๋ฅผ ์ํ ๋ฒค์น๋งํฌ๋ก ํ์ฉ๋ ์ ์๋ค.
Motivation
- Known: ๊ณผํ ์ถํ๋ฌผ์ ๊ตฌ์กฐํ์ ์๋ ์์ฝ์ ๊ธฐ์กด NLP ๋ถ์ผ์์ ๊ด์ฌ ์๋ ์ฃผ์ ์์ผ๋, ๊ณผํ์ ํ์ ์ ์ ์ฒด ์ํฌํ๋ก์ฐ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๊ตฌ์กฐํํ๊ณ ๋๊ท๋ชจ๋ก ์ถ์ถํ๋ ค๋ ์๋๋ ์ ํ์ ์ด์๋ค. LLM์ ๋ฑ์ฅ์ผ๋ก ์๋ ์ฃผ์ ์ฒ๋ฆฌ์ ๊ฐ๋ฅ์ฑ์ด ๋๋๋์์ง๋ง, ๊ณผํ ์ํฌํ๋ก์ฐ ์ธก๋ฉด์ ์ถ์ถ ์ ํ๋ ๊ฒ์ฆ์ด ํ์ํ๋ค.
- Gap: ๊ธฐ์กด ์ฐ๊ตฌ๋ ๊ณผํ ์ถํ๋ฌผ์ ๋ถ๋ถ์ ์์ฝ(์: ๋ฐฐ๊ฒฝ, ๋ฐฉ๋ฒ, ๊ฒฐ๊ณผ)์ ์ง์คํ์ผ๋, ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ, ๊ฐ์ค ๊ฒ์ฆ, ๊ฒฐ๊ณผ ํด์, ๋ฏธ๋ ์ํฅ ์์ธก ๋ฑ ์ ์ฒด ๊ณผํ ์ํฌํ๋ก์ฐ๋ฅผ ํตํฉ์ ์ผ๋ก ๊ตฌ์กฐํํ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์ด ๋ถ์ฌํ๋ค. ํนํ ์ธ๊ฐ ์ ๋ฌธ๊ฐ ์ฃผ์์ ๋น์ฉ๊ณผ ์ผ๊ด์ฑ ๋ฌธ์ ๋ก ์ธํด ํ์ฅ ๊ฐ๋ฅํ ์๋ํ ์๋ฃจ์
์ด ํ์ํ๋ค.
- Why: ๊ณผํ ํ์ ์ ์ฒด๊ณ์ ์ธ ์ํฌํ๋ก์ฐ์ ๋ฐ๋ฅด๋ฉฐ, ์ด๋ฅผ ๊ตฌ์กฐํํ๊ณ ์ดํดํ๋ ๊ฒ์ AI ์์คํ
์ด ์ฐ๊ตฌ์์ ํ๋ ฅ์ ์ญํ ์ ํ๋ ๋ฐ ํ์์ ์ด๋ค. ๋๊ท๋ชจ๋ก ๊ตฌ์กฐํ๋ ๊ณผํ ์ํฌํ๋ก์ฐ ๋ฐ์ดํฐ๋ AI ๊ธฐ๋ฐ ๊ณผํ ์ง์ ๋๊ตฌ ๊ฐ๋ฐ, ์ฐ๊ตฌ ๋ฐฉํฅ ์์ธก, ์์ด๋์ด ์์ฑ ๋ฑ ๋ค์ํ ํ์ ์์
์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Approach: 152,000๊ฐ ์ด์์ 17๊ฐ ์ฃผ์ ์ปดํจํฐ๊ณผํ ํํ ๋
ผ๋ฌธ(๊ณผ๊ฑฐ 50๋
)์ ์์งํ๊ณ , LLM์ ์ด์ฉํด ๊ฐ ๋
ผ๋ฌธ์์ ๋ค์ฏ ๊ฐ์ง ํต์ฌ ์ธก๋ฉด์ ์๋ ์ถ์ถํ๋ค. ์ถ์ถ๋ ์์ฝ์ ํ์ง์ ์ธ๊ฐ ์ฃผ์๊ณผ ๋น๊ตํ์ฌ ๊ฒ์ฆํ์ผ๋ฉฐ, ์ด ๋ฐ์ดํฐ์
์์์ ์์ด๋์ด ์์ฑ, ๊ฒฐ๊ณผ ์์ธก ๋ฑ ๋ค์ํ ๊ธฐ๊ณํ์ต ๋ฒค์น๋งํฌ ์์
์ ์ ์ํ๋ค.
Achievement
Figure 1: Visualizations of MASSW aspects.
๋๊ท๋ชจ ๊ตฌ์กฐํ ๋ฐ์ดํฐ์
๊ตฌ์ถ: 152,000๊ฐ ๋
ผ๋ฌธ์ ๊ณผํ ์ํฌํ๋ก์ฐ๋ฅผ ์ผ๊ด๋๊ฒ ๊ตฌ์กฐํ. ํ์ง ๊ฒ์ฆ: LLM ์ถ์ถ ๊ฒฐ๊ณผ๋ฅผ ์ธ๊ฐ ์ฃผ์๊ณผ ๋น๊ตํ์ฌ ์ ํ์ฑ ์
์ฆ. ๋ฒค์น๋งํฌ ์์
์ ์: ์์ด๋์ด ์์ฑ ์์ธก, ๊ฒฐ๊ณผ ์์ธก, ์ํฅ๋ ฅ ์ถ์ ๋ฑ ๋ค์ํ ๊ธฐ๊ณํ์ต ์์
์ ์. ๊ณต๊ฐ ๋ฆฌ์์ค: ๋ฐ์ดํฐ์
์ ์คํ์์ค๋ก ๊ณต๊ฐํ์ฌ ํฅํ ์ฐ๊ตฌ ์ด์ง.
How
โข 17๊ฐ ์ฃผ์ ์ปดํจํฐ๊ณผํ ํํ(ICML, NeurIPS, ICCV, CVPR ๋ฑ)์์ 50๋
๊ธฐ๊ฐ์ ๋
ผ๋ฌธ ์์ง ๋ฐ ๋ฉํ๋ฐ์ดํฐ ํ๋ ์ด์
. โข LLM์ ์ด์ฉํ ์๋ ์ถ์ถ ํ์ดํ๋ผ์ธ ์ค๊ณ๋ก context, key idea, method, outcome, projected impact ๋ค์ฏ ์ธก๋ฉด ์ถ์ถ. โข ์ธ๊ฐ ์ฃผ์์(์ ๋ฌธ ์ฐ๊ตฌ์)์์ ๋น๊ต๋ฅผ ํตํ ํฌ๋ผ์ฐ๋์์ฑ ๊ฒ์ฆ ๋ฐ ์ ํ๋ ํ๊ฐ. โข ์์ด๋์ด ์์ฑ, ๊ฒฐ๊ณผ ์์ธก, ์ํฌํ๋ก์ฐ ์ฐ๊ด์ฑ ๋ฑ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ๊ธฐ๊ณํ์ต ์์
์ค๊ณ ๋ฐ ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ ๊ฐ๋ฐ.
Originality
โข ๊ณผํ ์ํฌํ๋ก์ฐ์ ๋ค์ฏ ๊ฐ์ง ํต์ฌ ์ธก๋ฉด์ ๋ช
ํํ ์ ์ํ๊ณ ์ฒด๊ณํํ ์ฒซ ๋๊ท๋ชจ ๋
ธ๋ ฅ. โข ๊ธฐ์กด ์ถํ๋ฌผ ์์ฝ ์ฐ๊ตฌ์ ๋ฌ๋ฆฌ "key idea"์ "method"๋ฅผ ๋ช
ํํ ๊ตฌ๋ถํ์ฌ ๊ฐ์ค ์์ฑ๊ณผ ๊ฒ์ฆ ๋จ๊ณ๋ฅผ ๋ถ๋ฆฌ. โข LLM ๊ธฐ๋ฐ ์๋ ์ถ์ถ์ ์ธ๊ฐ ๊ฒ์ฆ๊ณผ ๊ฒฐํฉํ ํ์ฅ ๊ฐ๋ฅํ ํ์ดํ๋ผ์ธ ์ ์. โข ๋ค์ํ ํ์ ์์
์ ํตํด ๊ณผํ ์ํฌํ๋ก์ฐ ์ดํด์ ์ถ์ฒ์ ์ํ ํตํฉ ๋ฒค์น๋งํฌ ์ ๊ณต.
Limitation & Further Study
โข LLM ๊ธฐ๋ฐ ์ถ์ถ์ ์ฒด๊ณ์ ์ค๋ฅ ๋ถ์ ๋ถ์ฌ: ํน์ ๋ถ์ผ๋ ๋
ผ๋ฌธ ์ ํ์์ ์ถ์ถ ์ฑ๋ฅ ํธ์ฐจ์ ๋ํ ์ฌ์ธต ๋ถ์ ํ์. โข ํ์ง ๊ฒ์ฆ์ด ์ ํ์ : ์ธ๊ฐ ์ฃผ์์ ์, ์ฃผ์ ๋ฒ์, ์ผ๊ด์ฑ(inter-annotator agreement) ํต๊ณ ๋ฑ์ด ์์ธํ ๋ณด๊ณ ๋์ง ์์. โข ์ปดํจํฐ๊ณผํ ๋ถ์ผ ํนํ: ์๋ช
๊ณผํ, ๋ฌผ๋ฆฌํ ๋ฑ ๋ค๋ฅธ ํ๋ฌธ ๋ถ์ผ๋ก์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒํ . โข ๋ฒค์น๋งํฌ ์์
์ ๊ธฐ์ด์ (baseline) ์ฑ๋ฅ ๋ฐ ํฅํ ๊ฐ์ ๋ฐฉํฅ์ ๋ํ ๋ถ์ ๋ถ์กฑ. โข ๊ณผํ ์ํฌํ๋ก์ฐ์ ๋์ ํน์ฑ(์: ์ค์ ์ฐ๊ตฌ ๊ณผ์ ์ ๋น์ ํ์ฑ, ๋ฐ๋ณต์ฑ) ๋ฐ์ ์ ํ.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: MASSW๋ ๊ณผํ ์ํฌํ๋ก์ฐ ์ดํด์ AI ์ง์ ์ฐ๊ตฌ ๋๊ตฌ ๊ฐ๋ฐ์ ์ํ ์ค์ํ ๋ฆฌ์์ค๋ก์, ๋๊ท๋ชจ ๋ฐ์ดํฐ์
๊ตฌ์ถ, ์ฒด๊ณ์ ์ธ ์ธก๋ฉด ์ ์, ๊ฒ์ฆ๋ ํ์ง, ๋ค์ํ ๋ฒค์น๋งํฌ ์์
์ ๊ณต์ด๋ผ๋ ์ ์์ ์ฃผ์ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ๋ค๋ง LLM ์ถ์ถ์ ์ค๋ฅ ํน์ฑ ๋ถ์, ์ธ๊ฐ ๊ฒ์ฆ ๋ฒ์ ํ๋, ํ ํ๋ฌธ ๋ถ์ผ ํ์ฅ ๊ฐ๋ฅ์ฑ ๋
ผ์ ๋ฑ์ด ๋ณด๊ฐ๋๋ฉด ์ํฅ๋ ฅ์ด ํ์ธต ์ฆ๋๋ ๊ฒ์ผ๋ก ์์๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
581 ๋
ผ๋ฌธ์ ๊ด๋ จ ์ฐ๊ตฌ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์๋ ๊ตฌ์ถ ๋
ธํ์ฐ๋ฅผ ์ ์ํ์ฌ, 520์ ๊ณผํ ์ฐ๊ตฌ ํต์ฌ์ ๋ณด ์ถ์ถยท๊ตฌ์กฐํ์ ์์ฒ ๋ฐ์ดํฐ์ ๊ธฐ์ ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
803๋ฒ ๋
ผ๋ฌธ์ ์คํ ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์
ํ๊ฐ์ ์ด์ ์ ๋ง์ถฐ, 520๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๊ตฌ์กฐ์ ๋
ผ๋ฌธ ์์ฝยทํ๊ฐ์ ๋น๊ต๋ถ์ํ ์ ์๋ ์๊ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
374 ๋
ผ๋ฌธ์ ์๋ง์ ๋
ผ๋ฌธ์ ๊ตฌ์กฐ์ ์์ฝํ๋ ๋ฐฉ๋ฒ์ ์ ์ํด, 520์ ๊ณผํ ์ฐ๊ตฌ ์ํฌํ๋ก์ฐ ๊ตฌ์กฐํ ๋ฒค์น๋งํฌ ๊ตฌ์ถ๊ณผ ์ ์ฌ ๋ชฉ์ ์ ๊ทผ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI๋ฅผ ์ฌํ๊ณผํ ์ฐ๊ตฌ ๋๊ตฌ๋ก ํ์ฉํ๊ฑฐ๋ AI์ ์ฌํ์ ์ธก๋ฉด์ ๋ถ์ํ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ์ ์๋ฒ ์ด์ ์๋ํ ๋ฐ ํต์ฌ ๋ด์ฉ ์ถ์ถ ๋ฐฉ๋ฒ๋ก ์ผ๋ก, MASSW์ workflow ๊ตฌ์กฐํ์ ๋น๊ต ์ฐ๊ตฌ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ์ค๋ฌธ ์๋ํ ๋ฐ ํต์ฌ ์ ๋ณด ์ถ์ถ์ ๋ค๋ฃจ์ด, 520์ AI ํ์ฉ ์ฐ๊ตฌ ์ํฌํ๋ก์ฐ ์๋ ์ถ์ถ๊ณผ ๋น๊ต๋๋ ๊ตฌ์กฐ์ ๋ฐ์ดํฐ ๊ตฌ์ถ ์ฌ๋ก์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋
ผ๋ฌธ ๋ค์์ ์ง์ ๊ตฌ์กฐํ ๋ฐ ์์ฝ์ ์ด์ ์ ๋๋ฉด์, LLM ๊ธฐ๋ฐ ๊ตฌ์กฐ์ ์ ๋ณด ์ถ์ถ์ ์ค์ ์ ํ๊ณ์ ๋ฐ์ดํฐ์
ํ์ง ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ธฐ์กด ํฉ์ฑ ๋ชจ๋ธ๋ง ๋์ ๋ค์ค์์ฑ ๋ถ์ ์์ฑ ๋ฌธ์ ๋ฅผ ํ๋ฅ ์ ์ ๊ทผ์ผ๋ก ํด๊ฒฐํ์ฌ ์ด๋งค ์ค๊ณ๋ฅผ ๋์ธ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
MASSW๋ AI ๋ณด์กฐ ํํ์คํ ๋ฒค์น๋งํฌ๋ก, DrugPlayGround์ ๋ฒค์น๋งํน ๋ชฉ์ ๊ณผ ์ ์ฌํ์ง๋ง ๊ณผ์ ์ ์ฉ ๋ฒ์๊ฐ ๋ค๋ฅด๋ค.
ํ์ ์ฐ๊ตฌ
๊ณผํ ๋
ผ๋ฌธ์ ์ฃผ์ ์ ๋ณด(๋ฌธ๋งฅ, ๋ฐฉ๋ฒ ๋ฑ)๋ฅผ ์ง์ ๊ทธ๋ํ ๊ด์ ์์ ๊ตฌ์กฐ์ ์ผ๋ก ์ถ์ถยท์์ฝํ๋ ์์
์ผ๋ก, 520์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
๊ตฌ์ถ์ ๊ทธ๋ํ ๊ธฐ๋ฐ์ผ๋ก ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
์์ฑ AI๋ฅผ ํตํ ๊ณผํ ์ง์ ๋ชจ๋ํ ๋ฐ ๊ตฌ์กฐํ๋ฐฉ์์ ๋ํ ์ต๊ทผ ๋ํฅ์ ํญ๋๊ฒ ๋ถ์ํด, MASSW์ ์ค์ง ์์ฉ์ฑ๊ณผ ํ๊ณ๋ฅผ ํ๊ฐํ ์ ์์ต๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์