Large language models for zero-shot inference of causal structures in biology

์ €์ž: Izzy Newsham, Luka Kovaฤeviฤ‡, Richard Moulange, Nan Rosemary Ke, Sach Mukherjee | ๋‚ ์งœ: 2025 | DOI: N/A 📄 PDF


Essence

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์ด ์ƒ๋ฌผํ•™์  ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ๋ฌธํ—Œ ์ง€์‹๋งŒ์œผ๋กœ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ์‹ค์ œ ์œ ์ „์ž ์„ญ๋™ ์‹คํ—˜ ๋ฐ์ดํ„ฐ๋กœ ๊ฒ€์ฆํ•˜๋Š” ํ˜์‹ ์  ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ์ ์ ˆํ•œ ํ”„๋กฌํ”„ํŒ…๊ณผ ์ •๋ณด ์ฆ๊ฐ• ์ „๋žต์„ ํ†ตํ•ด ์ž‘์€ LLM๋„ ์ƒ๋ฌผํ•™์  ์‹œ์Šคํ…œ์˜ ์˜๋ฏธ ์žˆ๋Š” ์ธ๊ณผ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

Motivation

Achievement

  1. ํฌ๊ด„์  ๋ฒค์น˜๋งˆํ‚น ํ”„๋ ˆ์ž„์›Œํฌ: 100๊ฐœ ์ด์ƒ์˜ ๋ณ€์ˆ˜์™€ ์ˆ˜์ฒœ ๊ฐœ์˜ ์ธ๊ณผ ๊ฐ€์„ค์— ๋Œ€ํ•ด LLM์˜ ์ธ๊ณผ๊ด€๊ณ„ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์‹ค์ œ ๊ฐœ์ž… ๋ฐ์ดํ„ฐ(interventional data)๋กœ ๊ฒ€์ฆํ•˜๋Š” ์ฒด๊ณ„์  ๋ฐฉ๋ฒ•๋ก  ๊ฐœ๋ฐœ
  2. ์ „๋žต์  ์ฆ๊ฐ•์˜ ํšจ๊ณผ: ๊ฒ€์ƒ‰ ์ฆ๊ฐ•(retrieval-augmentation)๊ณผ ๋งž์ถคํ˜• ํ”„๋กฌํ”„ํŒ…์„ ํ†ตํ•ด ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์€ LLM๋„ ์ƒ๋ฌผํ•™์  ์‹œ์Šคํ…œ์˜ ์˜๋ฏธ ์žˆ๋Š” ์ธ๊ณผ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉ ๊ฐ€๋Šฅํ•จ์„ ์‹ค์ฆ
  3. ์ง€์‹ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๊ณผ์˜ ๋น„๊ต: STRING ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ๊ฐ™์€ ์ „ํ†ต์  ๊ตฌ์กฐํ™”๋œ ์ง€์‹ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๊ณผ์˜ ๋น„๊ต๋ฅผ ํ†ตํ•ด LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ์ƒ๋Œ€์  ์žฅ๋‹จ์  ๋ช…ํ™•ํ™”

How

Figure 2: Outputs for inferring causal direction with different prompt contexts, for the example gene

๊ทธ๋ฆผ 2: ์˜ˆ์‹œ ์œ ์ „์ž์— ๋Œ€ํ•ด ๋‹ค์–‘ํ•œ ํ”„๋กฌํ”„ํŠธ ๋งฅ๋ฝ์—์„œ ์ธ๊ณผ๋ฐฉํ–ฅ ์ถ”๋ก  ๊ฒฐ๊ณผ

์ธ๊ณผ Ground Truth ๊ตฌ์ถ•

LLM ํ”„๋กฌํ”„ํŒ… ์ „๋žต

ํ‰๊ฐ€ ๋ฉ”ํŠธ๋ฆญ

Figure 3: Gemma2์˜ ๋‹ค์–‘ํ•œ ์œ ์ „์ž๋ณ„ ๋ฌธ๋งฅ ์ •๋ณด ์ •๋„์— ๋”ฐ๋ฅธ ๊ฒฐ๊ณผ

๊ทธ๋ฆผ 3: ์œ ์ „์ž ์ˆ˜์ค€์˜ ๋งฅ๋ฝ ์ •๋ณด ์ œ๊ณต ์ˆ˜์ค€์— ๋”ฐ๋ฅธ LLM ์„ฑ๋Šฅ ๋ณ€ํ™”

๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ „๋žต

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM์ด ๊ณผํ•™ ๋ฐœ๊ฒฌ ๋„๊ตฌ๋กœ์„œ ์‹ค์ œ ๊ฐ€์น˜๋ฅผ ๊ฐ–๋Š”์ง€๋ฅผ ๊ฒ€์ฆํ•˜๋Š” ์ค‘์š”ํ•œ ์ฒซ ๊ฑธ์Œ์œผ๋กœ, ์‹คํ—˜ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด ํ•™์ˆ ์ ยท์‹ค์šฉ์  ๊ธฐ์—ฌ๋ฅผ ๋ชจ๋‘ ์ œ์‹œํ•˜๋‚˜, ๊ฒฐ๊ณผ ๋ถ„์„์˜ ์‹ฌํ™”์™€ ์žฌํ˜„์„ฑ ๊ฐ•ํ™”๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Large Language Models are Zero Shot Hypothesis Proposers(468)๋Š” LLM์˜ ์ƒˆ๋กœ์šด ๊ณผํ•™ ๊ฐ€์„ค ์ œ์•ˆ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋ฉฐ, 474์˜ ์ธ๊ณผ๊ตฌ์กฐ ์ถ”๋ก ๋ ฅ์— ๋Œ€ํ•œ ์ด๋ก ์  ๋ฐฐ๊ฒฝ์ด ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
505 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์œ ์ „์ž ๋„คํŠธ์›Œํฌ ์ธ๊ณผ๊ด€๊ณ„ ํƒ์ง€ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜๋Š”๋ฐ, 474์˜ LLM ๊ธฐ๋ฐ˜ ์ธ๊ณผ์ถ”๋ก  ํ”„๋ ˆ์ž„์„ ์‹คํ—˜์  ์ƒ๋ฌผํ•™์œผ๋กœ ๊ตฌ์ฒดํ™”ํ•œ ์„ ํ–‰์—ฐ๊ตฌ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์˜ ์ œ๋กœ์ƒท ์ธ๊ณผ๊ตฌ์กฐ ์ถ”๋ก  ๋ฐ ์‹คํ—˜ ๊ฒฐ๊ณผ ์˜ˆ์ธก ๋Šฅ๋ ฅ์— ๋Œ€ํ•œ ๊ธฐ์ดˆ์  ํƒ๊ตฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ(RAG) ๋ฐฉ๋ฒ•๋ก ์˜ ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ์˜ํ•™ ๋ฌธํ—Œ์—์„œ ์ง€์‹์„ ์ถ”์ถœํ•˜๊ณ  ๊ฐ€์„ค์„ ์ƒ์„ฑํ•˜๋Š” ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ƒ๋ฌผํ•™์  ์ธ๊ณผ๊ตฌ์กฐ ์ถ”๋ก ์„ ๋ฌธํ—Œ ๊ธฐ๋ฐ˜์œผ๋กœ LLM์— ํ‰๊ฐ€ํ•˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ, 505์—์„œ ์‹คํ—˜ ๋ฐ์ดํ„ฐ ์—†์ด ์ธ๊ณผ๊ด€๊ณ„ ํ‰๊ฐ€๋ฅผ ์‹œ๋„ํ•œ ๋ถ€๋ถ„๊ณผ ์ƒํ˜ธ๋ณด์™„์ ์œผ๋กœ ์ฝ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์‹ ๋ขฐ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ˜ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐ ์ธ๊ณผ์ถ”๋ก  ํ‰๊ฐ€ ์—ฐ๊ตฌ๋กœ, 474์˜ zero-shot ์ธ๊ณผ์ถ”๋ก  ํ”„๋ ˆ์ž„์›Œํฌ์™€ ๋ณด์™„์  ๊ด€์ ์—์„œ ์ฝ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹จ์ผ์„ธํฌ ๋ฐ์ดํ„ฐ์—์„œ ์ธ๊ณผ์  ์œ ์ „์ž ์กฐ์ ˆ ๋„คํŠธ์›Œํฌ๋ฅผ ์ถ”๋ก ํ•˜๋Š” ์œ ์‚ฌํ•œ ์ ‘๊ทผ๋ฒ•์„ ๋‹ค๋ฃจ๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ธ๊ณผ ๊ตฌ์กฐ ์ถ”๋ก ์— ํŠนํ™”๋œ LLM ๊ธฐ๋ฐ˜ causal structure ํ•™์Šต๋ฒ•์œผ๋กœ, QTL ๋ฌธ์ œ์™€ ๊ด€๋ จ๋œ ๊ทผ๋ณธ์  ํ•œ๊ณ„๋ฅผ ๋‹ค๋ฅธ ๊ฐ๋„์—์„œ ํ•ด๊ฒฐํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Literature meets data ๋…ผ๋ฌธ์€ ๋ฌธํ—Œ์ •๋ณด์™€ ์‹คํ—˜์  ๋ฐ์ดํ„ฐ๋ฅผ ๊ฒฐํ•ฉํ•ด ์ธ๊ณผ ๊ตฌ์กฐ ์ถ”๋ก ์„ ํ‰๊ฐ€ํ•จ์œผ๋กœ์จ, ๋ณธ ๋…ผ๋ฌธ์˜ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ๋ฐœ์ „์— ์‹ค์งˆ์  ํ™•์žฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
500๋ฒˆ ๋…ผ๋ฌธ์€ ๊ณผํ•™์  ์ฃผ์žฅ ๊ฒ€์ฆ์„ ์œ„ํ•ด LLM์ด ์ฆ๊ฑฐ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ์ˆ˜์ง‘ยท๊ฒ€์ƒ‰ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋‹ค๋ฃจ์–ด, 474๋ฒˆ์˜ ์ธ๊ณผ๊ตฌ์กฐ ์ถ”๋ก  ํ‰๊ฐ€๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
467 ๋…ผ๋ฌธ์€ LLM์˜ ๋ถˆํ™•์‹ค์„ฑ, ์˜ค๋‹ตยทํ™˜๊ฐ์— ๊ด€ํ•œ ์ข…ํ•ฉ์  ๋…ผ์˜๋ฅผ ์ œ์‹œํ•˜์—ฌ, 474์™€ ๊ฐ™์ด ์ธ๊ณผ ๊ตฌ์กฐ ์ถ”๋ก  ์‹œ ํ™˜๊ฐ ๋ฐ ์ง„์‹ค์„ฑ ์ด์Šˆ์˜ ํ•œ๊ณ„๋ฅผ ๋น„ํŒ์ ์œผ๋กœ ๊ณ ์ฐฐํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •