์ ์: Ken Gu, Ruoxi Shang, Ren Jiang, Keying Kuang, Ren Lin | ๋ ์ง: 2024 | DOI: arXiv:2408.09667 📄 PDF
Figure 1: Overview of BLADE. We gathered research questions and datasets from existing research papers,
BLADE๋ data-driven science๋ฅผ ์ํํ๋ language model ๊ธฐ๋ฐ agents๋ฅผ ํ๊ฐํ๊ธฐ ์ํ ๋ฒค์น๋งํฌ์ด๋ค. 12๊ฐ์ ๋ฐ์ดํฐ์ ๊ณผ ์ฐ๊ตฌ ์ง๋ฌธ์ ๋ํด expert data scientists๋ก๋ถํฐ ์์งํ ground truth ๋ถ์์ ๊ธฐ๋ฐ์ผ๋ก, agents์ ๋ค๋ฉด์ ์ธ ๋ถ์ ์ ๊ทผ์ ์๋์ผ๋ก ํ๊ฐํ๋ค.
Figure 4: Average precision (top row) and coverage@10 (bottom row) percentages averaged across datasets in
BLADE ๋ฒค์น๋งํฌ ๊ตฌ์ถ: 12๊ฐ์ datasets, 188๊ฐ์ multiple choice ๋ฐ 536๊ฐ์ ground truth ๋ถ์ ๊ฒฐ์ ์ผ๋ก ๊ตฌ์ฑ๋ first-of-its-kind ๋ฒค์น๋งํฌ ์์ฑ. ์๋ ํ๊ฐ ํ๋ ์์ํฌ: ๋ค์ํ ํํ ํ์์ ๋ถ์์ ๋งค์นญํ๊ธฐ ์ํ value/graph-based matching ๋ฐ LM-based matching ๋ฐฉ๋ฒ ๊ฐ๋ฐ. ์ข ํฉ ํ๊ฐ ๊ฒฐ๊ณผ: ๋ค์ํ LMs์ ReAct agent์ ๊ฐ์ ๊ณผ ์ฝ์ ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ์ฌ, LMs์ด ๊ธฐ๋ณธ ๋ถ์์๋ ์ ํฉํ์ง๋ง conceptual variable formulation (coverage 13% ์ดํ)๊ณผ variable operationalization (coverage 27% ์ดํ)์์ ํฐ ํ๊ณ๋ฅผ ๋ณด์์ ์ ์ฆ.
Figure 1: Overview of BLADE. We gathered research questions and datasets from existing research papers,
โข Crowd-sourced expert annotations๋ฅผ ํตํด multiple valid analysis approaches๋ฅผ ๋ฐ์ํ ํฌ๊ด์ ์ธ ground truth ์์ง\nโข ์ฐ๊ตฌ ์ง๋ฌธ์ ๋ํ alternative decisions validation ๋ฐ unjustifiable decisions ํฌํจ์ผ๋ก ํ๊ฐ ๊ธฐ์ค์ ๊ฑด์ ์ฑ ํ๋ณด\nโข Conceptual variables, data transformations, statistical models๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ํํํ๊ณ ํ๊ฐํ๊ธฐ ์ํ structured representation ์ค๊ณ\nโข Value ๊ธฐ๋ฐ ๋งค์นญ(๋ณ์๋ช , ์์น), graph ๊ธฐ๋ฐ ๋งค์นญ(๋ฐ์ดํฐ ๋ณํ ๊ตฌ์กฐ), LM ๊ธฐ๋ฐ ๋งค์นญ(์๋ฏธ๋ก ์ ๋๋ฑ์ฑ)์ ๊ฒฐํฉํ ๋ค์ธต ๋งค์นญ ์ ๋ต\nโข ReAct agent๋ฅผ ํตํ agents์ ์ค์ ์ฑ๋ฅ ์ธก์ ๋ฐ baseline ์ ๊ณต
โข ์๋ก์ด ํ๊ฐ ๊ด์ : ๊ธฐ์กด์ ๋จ์ ์์ ๊ธฐ๋ฐ ๋ฒค์น๋งํฌ์ ๋ฌ๋ฆฌ open-ended scientific analysis์ ๋ณต์กํ decision-making์ evaluation ๋์์ผ๋ก ์ผ์\nโข ํฌ๊ด์ ground truth ์ค๊ณ: crowd-sourced analysis์์ alternative decisions, negative examples๊น์ง ์ฒด๊ณ์ ์ผ๋ก ์์งํ์ฌ ๋ค์ํ ์ ๋นํ ์ ๊ทผ๋ฒ์ ์ธ์ \nโข ๋ค์ธต ์๋ ํ๊ฐ ๋ฉ์ปค๋์ฆ: ์ฝ๋ ์์ค(value/graph matching)๋ถํฐ ๊ฐ๋ ์์ค(conceptual variable matching)๊น์ง ์ด์ง์ ์ธ ๋ถ์ ๊ฒฐ์ ์ ์ ์ฐํ๊ฒ ๋น๊ต\nโข ์ค์ ๊ณผํ ๋ฐ์ดํฐ ํ์ฉ: ๊ต๊ณผ์๋ synthetic ๋ฐ์ดํฐ๊ฐ ์๋ published research papers์ ์ค์ ๋ฐ์ดํฐ์ ์ง๋ฌธ ์ฌ์ฉ
โข Ground truth ์์ง์ ์ค์ผ์ผ ์ ์ฝ: 12๊ฐ datasets๋ง ํฌํจ๋์ด ์์ด benchmark์ generalizability์ coverage๊ฐ ์ ํ์ ์ผ ์ ์์\nโข Expert annotation์ ์ฃผ๊ด์ฑ: ์ด๋ค ๋ถ์ ๊ฒฐ์ ์ด \"์ ๋นํ(justifiable)\"์ธ์ง์ ๋ํ ํ๋จ์ด ์ฌ์ ํ expert judgment์ ์์กด\nโข ํ๊ฐ ๋ฉํธ๋ฆญ์ ์ ํ: Average precision๊ณผ coverage@10 ์ค์ฌ์ ํ๊ฐ๋ก agents์ ๋ถ์ ํ์ง์ด๋ scientific validity์ ๋ํ ๋ ๊น์ ํต์ฐฐ์ด ๋ถ์กฑํ ์ ์์\nโข LM agents์ ์ฑ๋ฅ ํ๊ฐ ๋ค์์ฑ ๋ถ์กฑ: ReAct agent ์ธ ๋ค๋ฅธ agent ์ํคํ ์ฒ๋ ๋ ์๋ก์ด LM๋ค(GPT-4o, Claude 3 ๋ฑ)์ ๋ํ ํ๊ฐ ๋ถ์ฌ\nโข Data semantics ์ดํด์ ํ๊ณ: benchmark๊ฐ agents์ domain-specific data ์ดํด๋๋ฅผ ์ถฉ๋ถํ ํ ์คํธํ์ง ๋ชปํ ๊ฐ๋ฅ์ฑ\n\nํ์ ์ฐ๊ตฌ ๋ฐฉํฅ:\nโข ๋ ๋ง์ domains์ datasets๋ฅผ ํฌํจํ benchmark ํ์ฅ\nโข Agent์ ๋ถ์ ๊ณผ์ ์ interpretability์ scientific validity์ ๋ํ ๋ ๊น์ ๋ถ์\nโข ๋ค์ํ agent architectures์ ์ต์ LMs์ ๋ํ ํ๊ฐ ์ถ๊ฐ\nโข Human-in-the-loop evaluation์ ํตํ agents์ ์ค์ ๊ณผํ์ ๊ฐ์น ๊ฒ์ฆ
์ดํ: BLADE๋ data-driven science์์ LM agents๋ฅผ ํ๊ฐํ๊ธฐ ์ํ ์ฒซ ๋ฒ์งธ ์ข ํฉ์ ์ด๊ณ ์์น์ ์ธ ๋ฒค์น๋งํฌ๋ก์, open-ended ๋ถ์ ์์ ์ ๋ณต์ก์ฑ์ ๋ค์ธต์ ์๋ ํ๊ฐ ๋ฐฉ๋ฒ์ผ๋ก ์ฒ๋ฆฌํ๋ค๋ ์ ์์ ์์๊ฐ ํฌ๋ค. ์ค์ ๋ ผ๋ฌธ ๋ฐ์ดํฐ์ expert crowd-sourced annotations๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๊ฒฌ๊ณ ํ ground truth ๊ตฌ์ถ๊ณผ ์ธ๋ฐํ decision-level evaluation์ agents์ ์ค์ analytical capabilities๋ฅผ ํ์ ํ๋ ๋ฐ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ๋ค๋ง 12๊ฐ dataset์ ์ ํ์ ๊ท๋ชจ์ ReAct ์ธ ๋ค์ํ agent architectures์ ๋ถ์ฌ๋ ํฅํ ๊ฐ์ ์ด ํ์ํ ๋ถ๋ถ์ด๋ค.