MASSW: A new dataset and benchmark tasks for AI-assisted scientific workflows

์ €์ž: Xingjian Zhang, Yutong Xie, Jin Huang, Jinge Ma, Zhaoying Pan | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

Figure 1

Figure 1: Visualizations of MASSW aspects.

๋ณธ ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ๊ตฌ์กฐํ™”๋œ ํ˜•ํƒœ๋กœ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด 152,000๊ฐœ ์ด์ƒ์˜ ์ปดํ“จํ„ฐ๊ณผํ•™ ๋…ผ๋ฌธ์—์„œ LLM์„ ์ด์šฉํ•ด context, key idea, method, outcome, projected impact์˜ ๋‹ค์„ฏ ๊ฐ€์ง€ ํ•ต์‹ฌ ์ธก๋ฉด์„ ์ž๋™ ์ถ”์ถœํ•œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ MASSW๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. ์ด ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ์…‹์€ ๊ณผํ•™์  ์›Œํฌํ”Œ๋กœ์šฐ ์ตœ์ ํ™”๋ฅผ ์œ„ํ•œ AI ๋ฐฉ๋ฒ• ๊ฐœ๋ฐœ๊ณผ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: Visualizations of MASSW aspects.

๋Œ€๊ทœ๋ชจ ๊ตฌ์กฐํ™” ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•: 152,000๊ฐœ ๋…ผ๋ฌธ์˜ ๊ณผํ•™ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ์ผ๊ด€๋˜๊ฒŒ ๊ตฌ์กฐํ™”. ํ’ˆ์งˆ ๊ฒ€์ฆ: LLM ์ถ”์ถœ ๊ฒฐ๊ณผ๋ฅผ ์ธ๊ฐ„ ์ฃผ์„๊ณผ ๋น„๊ตํ•˜์—ฌ ์ •ํ™•์„ฑ ์ž…์ฆ. ๋ฒค์น˜๋งˆํฌ ์ž‘์—… ์ •์˜: ์•„์ด๋””์–ด ์ƒ์„ฑ ์˜ˆ์ธก, ๊ฒฐ๊ณผ ์˜ˆ์ธก, ์˜ํ–ฅ๋ ฅ ์ถ”์ • ๋“ฑ ๋‹ค์–‘ํ•œ ๊ธฐ๊ณ„ํ•™์Šต ์ž‘์—… ์ œ์‹œ. ๊ณต๊ฐœ ๋ฆฌ์†Œ์Šค: ๋ฐ์ดํ„ฐ์…‹์„ ์˜คํ”ˆ์†Œ์Šค๋กœ ๊ณต๊ฐœํ•˜์—ฌ ํ–ฅํ›„ ์—ฐ๊ตฌ ์ด‰์ง„.

How

โ€ข 17๊ฐœ ์ฃผ์š” ์ปดํ“จํ„ฐ๊ณผํ•™ ํ•™ํšŒ(ICML, NeurIPS, ICCV, CVPR ๋“ฑ)์—์„œ 50๋…„ ๊ธฐ๊ฐ„์˜ ๋…ผ๋ฌธ ์ˆ˜์ง‘ ๋ฐ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ํ๋ ˆ์ด์…˜. โ€ข LLM์„ ์ด์šฉํ•œ ์ž๋™ ์ถ”์ถœ ํŒŒ์ดํ”„๋ผ์ธ ์„ค๊ณ„๋กœ context, key idea, method, outcome, projected impact ๋‹ค์„ฏ ์ธก๋ฉด ์ถ”์ถœ. โ€ข ์ธ๊ฐ„ ์ฃผ์„์ž(์ „๋ฌธ ์—ฐ๊ตฌ์ž)์™€์˜ ๋น„๊ต๋ฅผ ํ†ตํ•œ ํฌ๋ผ์šฐ๋“œ์†Œ์‹ฑ ๊ฒ€์ฆ ๋ฐ ์ •ํ™•๋„ ํ‰๊ฐ€. โ€ข ์•„์ด๋””์–ด ์ƒ์„ฑ, ๊ฒฐ๊ณผ ์˜ˆ์ธก, ์›Œํฌํ”Œ๋กœ์šฐ ์—ฐ๊ด€์„ฑ ๋“ฑ ๋‹ค์–‘ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ๊ธฐ๊ณ„ํ•™์Šต ์ž‘์—… ์„ค๊ณ„ ๋ฐ ๋ฒ ์ด์Šค๋ผ์ธ ๋ชจ๋ธ ๊ฐœ๋ฐœ.

Originality

โ€ข ๊ณผํ•™ ์›Œํฌํ”Œ๋กœ์šฐ์˜ ๋‹ค์„ฏ ๊ฐ€์ง€ ํ•ต์‹ฌ ์ธก๋ฉด์„ ๋ช…ํ™•ํžˆ ์ •์˜ํ•˜๊ณ  ์ฒด๊ณ„ํ™”ํ•œ ์ฒซ ๋Œ€๊ทœ๋ชจ ๋…ธ๋ ฅ. โ€ข ๊ธฐ์กด ์ถœํŒ๋ฌผ ์š”์•ฝ ์—ฐ๊ตฌ์™€ ๋‹ฌ๋ฆฌ "key idea"์™€ "method"๋ฅผ ๋ช…ํ™•ํžˆ ๊ตฌ๋ถ„ํ•˜์—ฌ ๊ฐ€์„ค ์ƒ์„ฑ๊ณผ ๊ฒ€์ฆ ๋‹จ๊ณ„๋ฅผ ๋ถ„๋ฆฌ. โ€ข LLM ๊ธฐ๋ฐ˜ ์ž๋™ ์ถ”์ถœ์„ ์ธ๊ฐ„ ๊ฒ€์ฆ๊ณผ ๊ฒฐํ•ฉํ•œ ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ํŒŒ์ดํ”„๋ผ์ธ ์ œ์‹œ. โ€ข ๋‹ค์–‘ํ•œ ํ•˜์œ„ ์ž‘์—…์„ ํ†ตํ•ด ๊ณผํ•™ ์›Œํฌํ”Œ๋กœ์šฐ ์ดํ•ด์™€ ์ถ”์ฒœ์„ ์œ„ํ•œ ํ†ตํ•ฉ ๋ฒค์น˜๋งˆํฌ ์ œ๊ณต.

Limitation & Further Study

โ€ข LLM ๊ธฐ๋ฐ˜ ์ถ”์ถœ์˜ ์ฒด๊ณ„์  ์˜ค๋ฅ˜ ๋ถ„์„ ๋ถ€์žฌ: ํŠน์ • ๋ถ„์•ผ๋‚˜ ๋…ผ๋ฌธ ์œ ํ˜•์—์„œ ์ถ”์ถœ ์„ฑ๋Šฅ ํŽธ์ฐจ์— ๋Œ€ํ•œ ์‹ฌ์ธต ๋ถ„์„ ํ•„์š”. โ€ข ํ’ˆ์งˆ ๊ฒ€์ฆ์ด ์ œํ•œ์ : ์ธ๊ฐ„ ์ฃผ์„์ž ์ˆ˜, ์ฃผ์„ ๋ฒ”์œ„, ์ผ๊ด€์„ฑ(inter-annotator agreement) ํ†ต๊ณ„ ๋“ฑ์ด ์ƒ์„ธํžˆ ๋ณด๊ณ ๋˜์ง€ ์•Š์Œ. โ€ข ์ปดํ“จํ„ฐ๊ณผํ•™ ๋ถ„์•ผ ํŠนํ™”: ์ƒ๋ช…๊ณผํ•™, ๋ฌผ๋ฆฌํ•™ ๋“ฑ ๋‹ค๋ฅธ ํ•™๋ฌธ ๋ถ„์•ผ๋กœ์˜ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ ๋ฏธ๊ฒ€ํ† . โ€ข ๋ฒค์น˜๋งˆํฌ ์ž‘์—…์˜ ๊ธฐ์ดˆ์„ (baseline) ์„ฑ๋Šฅ ๋ฐ ํ–ฅํ›„ ๊ฐœ์„  ๋ฐฉํ–ฅ์— ๋Œ€ํ•œ ๋ถ„์„ ๋ถ€์กฑ. โ€ข ๊ณผํ•™ ์›Œํฌํ”Œ๋กœ์šฐ์˜ ๋™์  ํŠน์„ฑ(์˜ˆ: ์‹ค์ œ ์—ฐ๊ตฌ ๊ณผ์ •์˜ ๋น„์„ ํ˜•์„ฑ, ๋ฐ˜๋ณต์„ฑ) ๋ฐ˜์˜ ์ œํ•œ.

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: MASSW๋Š” ๊ณผํ•™ ์›Œํฌํ”Œ๋กœ์šฐ ์ดํ•ด์™€ AI ์ง€์› ์—ฐ๊ตฌ ๋„๊ตฌ ๊ฐœ๋ฐœ์„ ์œ„ํ•œ ์ค‘์š”ํ•œ ๋ฆฌ์†Œ์Šค๋กœ์„œ, ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•, ์ฒด๊ณ„์ ์ธ ์ธก๋ฉด ์ •์˜, ๊ฒ€์ฆ๋œ ํ’ˆ์งˆ, ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ ์ž‘์—… ์ œ๊ณต์ด๋ผ๋Š” ์ ์—์„œ ์ฃผ์š” ๊ธฐ์—ฌ๋ฅผ ํ•œ๋‹ค. ๋‹ค๋งŒ LLM ์ถ”์ถœ์˜ ์˜ค๋ฅ˜ ํŠน์„ฑ ๋ถ„์„, ์ธ๊ฐ„ ๊ฒ€์ฆ ๋ฒ”์œ„ ํ™•๋Œ€, ํƒ€ ํ•™๋ฌธ ๋ถ„์•ผ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ ๋…ผ์˜ ๋“ฑ์ด ๋ณด๊ฐ•๋˜๋ฉด ์˜ํ–ฅ๋ ฅ์ด ํ•œ์ธต ์ฆ๋Œ€๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
581 ๋…ผ๋ฌธ์€ ๊ด€๋ จ ์—ฐ๊ตฌ์˜ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ์ž๋™ ๊ตฌ์ถ• ๋…ธํ•˜์šฐ๋ฅผ ์ œ์‹œํ•˜์—ฌ, 520์˜ ๊ณผํ•™ ์—ฐ๊ตฌ ํ•ต์‹ฌ์ •๋ณด ์ถ”์ถœยท๊ตฌ์กฐํ™”์˜ ์›์ฒœ ๋ฐ์ดํ„ฐ์™€ ๊ธฐ์ˆ ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
803๋ฒˆ ๋…ผ๋ฌธ์€ ์˜คํ”ˆ ๋ฆฌ๋ทฐ ๋ฐ์ดํ„ฐ์…‹ ํ‰๊ฐ€์— ์ดˆ์ ์„ ๋งž์ถฐ, 520๋ฒˆ ๋…ผ๋ฌธ์˜ LLM ๊ธฐ๋ฐ˜ ๊ตฌ์กฐ์  ๋…ผ๋ฌธ ์š”์•ฝยทํ‰๊ฐ€์™€ ๋น„๊ต๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋Š” ์‹œ๊ฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
374 ๋…ผ๋ฌธ์€ ์ˆ˜๋งŽ์€ ๋…ผ๋ฌธ์„ ๊ตฌ์กฐ์  ์š”์•ฝํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ด, 520์˜ ๊ณผํ•™ ์—ฐ๊ตฌ ์›Œํฌํ”Œ๋กœ์šฐ ๊ตฌ์กฐํ™” ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•๊ณผ ์œ ์‚ฌ ๋ชฉ์  ์ ‘๊ทผ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI๋ฅผ ์‚ฌํšŒ๊ณผํ•™ ์—ฐ๊ตฌ ๋„๊ตฌ๋กœ ํ™œ์šฉํ•˜๊ฑฐ๋‚˜ AI์˜ ์‚ฌํšŒ์  ์ธก๋ฉด์„ ๋ถ„์„ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•™์ˆ  ์„œ๋ฒ ์ด์˜ ์ž๋™ํ™” ๋ฐ ํ•ต์‹ฌ ๋‚ด์šฉ ์ถ”์ถœ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ, MASSW์˜ workflow ๊ตฌ์กฐํ™”์™€ ๋น„๊ต ์—ฐ๊ตฌ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์„ค๋ฌธ ์ž๋™ํ™” ๋ฐ ํ•ต์‹ฌ ์ •๋ณด ์ถ”์ถœ์„ ๋‹ค๋ฃจ์–ด, 520์˜ AI ํ™œ์šฉ ์—ฐ๊ตฌ ์›Œํฌํ”Œ๋กœ์šฐ ์ž๋™ ์ถ”์ถœ๊ณผ ๋น„๊ต๋˜๋Š” ๊ตฌ์กฐ์  ๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋…ผ๋ฌธ ๋‹ค์ˆ˜์˜ ์ง€์‹ ๊ตฌ์กฐํ™” ๋ฐ ์š”์•ฝ์— ์ดˆ์ ์„ ๋‘๋ฉด์„œ, LLM ๊ธฐ๋ฐ˜ ๊ตฌ์กฐ์  ์ •๋ณด ์ถ”์ถœ์˜ ์‹ค์ œ์  ํ•œ๊ณ„์™€ ๋ฐ์ดํ„ฐ์…‹ ํ’ˆ์งˆ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ธฐ์กด ํ•ฉ์„ฑ ๋ชจ๋ธ๋ง ๋Œ€์‹  ๋‹ค์ค‘์†์„ฑ ๋ถ„์ž ์ƒ์„ฑ ๋ฌธ์ œ๋ฅผ ํ™•๋ฅ ์  ์ ‘๊ทผ์œผ๋กœ ํ•ด๊ฒฐํ•˜์—ฌ ์ด‰๋งค ์„ค๊ณ„๋ฅผ ๋„์šธ ์ˆ˜ ์žˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
MASSW๋Š” AI ๋ณด์กฐ ํ™”ํ•™์‹คํ—˜ ๋ฒค์น˜๋งˆํฌ๋กœ, DrugPlayGround์˜ ๋ฒค์น˜๋งˆํ‚น ๋ชฉ์ ๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ ๊ณผ์ œ ์ ์šฉ ๋ฒ”์œ„๊ฐ€ ๋‹ค๋ฅด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณผํ•™ ๋…ผ๋ฌธ์˜ ์ฃผ์š” ์ •๋ณด(๋ฌธ๋งฅ, ๋ฐฉ๋ฒ• ๋“ฑ)๋ฅผ ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ด€์ ์—์„œ ๊ตฌ์กฐ์ ์œผ๋กœ ์ถ”์ถœยท์š”์•ฝํ•˜๋Š” ์ž‘์—…์œผ๋กœ, 520์˜ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์„ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
์ƒ์„ฑ AI๋ฅผ ํ†ตํ•œ ๊ณผํ•™ ์ง€์‹ ๋ชจ๋“ˆํ™” ๋ฐ ๊ตฌ์กฐํ™”๋ฐฉ์•ˆ์— ๋Œ€ํ•œ ์ตœ๊ทผ ๋™ํ–ฅ์„ ํญ๋„“๊ฒŒ ๋ถ„์„ํ•ด, MASSW์˜ ์‹ค์งˆ ์‘์šฉ์„ฑ๊ณผ ํ•œ๊ณ„๋ฅผ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •