Moose-chem3: Toward experiment-guided hypothesis ranking via simulated experimental feedback

์ €์ž: Wanhao Liu, Zonglin Yang, Jue Wang, Lidong Bing, Di Zhang, Dongzhan Zhou, Yuqiang Li, Houqiang Li, Erik Cambria, Wanli Ouyang | ๋‚ ์งœ: 2025 | DOI: arXiv:2505.17873 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ ์ž๋™ ๊ณผํ•™ ๋ฐœ๊ฒฌ(automated scientific discovery)์—์„œ ๊ฐ€์„ค ์ˆœ์œ„ ์ง€์ •(hypothesis ranking)์„ ์œ„ํ•ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋œ ์‹คํ—˜ ํ”ผ๋“œ๋ฐฑ(simulated experimental feedback)์„ ํ™œ์šฉํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ณผ์ œ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์‹คํ—˜์‹ค ์‹คํ—˜์ด ๋น„์‹ธ๊ณ  ์ฒ˜๋ฆฌ๋Ÿ‰์ด ์ œํ•œ์ ์ธ ์ž์—ฐ๊ณผํ•™ ์˜์—ญ์—์„œ, ์‹ค์ œ ์‹คํ—˜์„ ๋ฐ˜๋ณต ์ˆ˜ํ–‰ํ•˜์ง€ ์•Š์œผ๋ฉด์„œ๋„ ์‹คํ—˜ ๊ธฐ๋ฐ˜ ์ˆœ์œ„ ์ง€์ • ์ •์ฑ…์„ ๊ฐœ๋ฐœํ•  ์ˆ˜ ์žˆ๋Š” ๊ณ ์ถฉ์‹ค๋„(high-fidelity) ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์™€ ๋งฅ๋ฝ ๋‚ด ๊ฐ•ํ™”ํ•™์Šต(in-context reinforcement learning, ICRL) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: ์„ธ ๊ฐœ๋…์  ๊ธฐ์ดˆ(A1โ€“P1โ€“D1)์˜ ์˜ˆ์‹œ. (a) ์ด์ƒ์  ์„ฑ๋Šฅ ๊ฒฝ๊ด€, (b) ์‹ค์ œ ์„ฑ๋Šฅ ๊ฒฝ๊ด€, (c) ๋ถˆ์™„์ „ํ•œ ์œ ์‚ฌ๋„ ์ถ”์ •์œผ๋กœ ์ธํ•œ ํŽธ์ฐจ

  1. ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ๊ฐœ๋ฐœ ๋ฐ ๊ฒ€์ฆ: ๋ฌธํ—Œ์—์„œ ์‹คํ—˜ ๊ฒฐ๊ณผ๊ฐ€ ๋ณด๊ณ ๋œ 124๊ฐœ ๊ฐ€์„ค๋กœ ๊ตฌ์„ฑ๋œ ๋ฐ์ดํ„ฐ์…‹์„ ์ˆ˜์ง‘ํ•˜์—ฌ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋ฅผ ๊ฒ€์ฆ. ์‹ค์ œ ์‹คํ—˜ ๊ฒฐ๊ณผ์™€ ๋†’์€ ์ถ”์„ธ ์ •๋ ฌ(trend alignment)์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ๊ทธ ํŽธ์ฐจ๊ฐ€ ์Šต์‹ ์‹คํ—˜์‹ค(wet-lab) ๋…ธ์ด์ฆˆ์™€ ์œ ์‚ฌํ•จ์„ ํ™•์ธ. ๊ธฐ์กด ๊ธฐ์ค€์„ ๋“ค(Yang et al., 2025์—์„œ ๊ฐœ์ž‘๋œ ๊ฐ•๋ ฅํ•œ ๊ธฐ์ค€์„  ํฌํ•จ)์„ ๋Šฅ๊ฐ€ํ•จ.
  2. ์‹คํ—˜ ๊ธฐ๋ฐ˜ ์ˆœ์œ„ ์ง€์ • ๊ณผ์ œ ์ •์‹ํ™”: ์ƒํƒœ ์˜์กด์ ์ด๊ณ  ๋™์ ์ธ ๊ฐ€์„ค ์ˆœ์œ„ ์ง€์ •์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ณผ์ œ๋ฅผ ํ˜•์‹ํ™”ํ•˜๊ณ , ์‚ฌ์ „ ์‹คํ—˜ ๋žญํ‚น์˜ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ํ•จ.
  3. ํด๋Ÿฌ์Šคํ„ฐ๋ง ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ์ •์ฑ…: ๊ฐ€์„ค์„ ๊ธฐ๋Šฅ์  ์š”์†Œ(functional elements)๋กœ ๋ถ„ํ•ดํ•˜๊ณ , ๊ณต์œ ๋œ ๊ธฐ๊ณ„์  ์—ญํ• (mechanistic roles)๋กœ ๊ทธ๋ฃนํ™”ํ•œ ๋’ค, ํ”ผ๋“œ๋ฐฑ์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ์œ ๋งํ•œ ์š”์†Œ์˜ ์žฌ์กฐํ•ฉ(recombination)์„ ์šฐ์„ ์ˆœ์œ„ ์ง€์ •. ์‚ฌ์ „ ์‹คํ—˜ ๊ธฐ์ค€์„  ๋ฐ ์ œ๊ฑฐ ์—ฐ๊ตฌ(ablation) ๋ณ€ํ˜•๋“ค์„ ํ˜„์ €ํžˆ ๋Šฅ๊ฐ€ํ•จ.

How

Figure 3

๊ทธ๋ฆผ 3: ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์˜ ๋‚ด๋ถ€ ๊ตฌ์กฐ

์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ๊ตฌ์ถ•

```

f(h, h; q, ฯ†(ยท)) = 1/(2ฯ€ฯƒยฒ)^(d/2) ยท exp(-||ฯ†(h|q) - ฯ†(h*|q)||ยฒ/(2ฯƒยฒ))

```

  • ์‹ค์ œ ์„ฑ๋Šฅ ํ•จ์ˆ˜: ์ธก์ •๋œ ์œ ์‚ฌ๋„ ฯ†ฬ‚(ยท)์˜ ๋ถˆ์™„์ „์„ฑ์œผ๋กœ ์ธํ•œ ํŽธ์ฐจ๋ฅผ ํฌํ•จ
  • ```

    f_real(h) = f(h, h; q, ฯ†) + noise_distortion

    ```

    Figure 4

    ๊ทธ๋ฆผ 4: ๋งฅ๋ฝ ๋‚ด ๊ฐ•ํ™”ํ•™์Šต(in-context RL) ํ”„๋ ˆ์ž„์›Œํฌ ๋‚ด ์‹คํ—˜ ๊ธฐ๋ฐ˜ ์ˆœ์œ„ ์ง€์ • ์ •์ฑ…

    ์‹คํ—˜ ๊ธฐ๋ฐ˜ ์ˆœ์œ„ ์ง€์ • ์ •์ฑ… (ICRL ํ”„๋ ˆ์ž„์›Œํฌ)

    Originality

    Limitation & Further Study

    Evaluation

    ์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์‹คํ—˜ ํ”ผ๋“œ๋ฐฑ์˜ ๋ถˆ๊ฐ€์šฉ์„ฑ์ด๋ผ๋Š” ์ž๋™ ๊ณผํ•™ ๋ฐœ๊ฒฌ์˜ ํ•ต์‹ฌ ๋ณ‘๋ชฉ์„ ์ฐฝ์˜์ ์œผ๋กœ ์ธ์‹ํ•˜๊ณ , ์›๋ฆฌ์ ์œผ๋กœ ํƒ€๋‹นํ•œ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ ์„ค๊ณ„์™€ ํ•จ๊ป˜ ๋™์ž‘ํ•˜๋Š” ICRL ์ •์ฑ…์„ ์ œ์‹œํ•œ๋‹ค. ๊ณต๊ฐœ๋œ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์žฌํ˜„ ๊ฐ€๋Šฅํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์ปค๋ฎค๋‹ˆํ‹ฐ์— ์ฆ‰๊ฐ์ ์ธ ๊ธฐ์—ฌ๋ฅผ ์ œ๊ณตํ•  ๊ฒƒ์œผ๋กœ ํŒ๋‹จ๋˜๋‚˜, ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์˜ ๊ฐ€์šฐ์‹œ์•ˆ ๊ฐ€์ •๊ณผ A1์˜ ํ˜„์‹ค์  ํ•œ๊ณ„์— ๋Œ€ํ•œ ๋ณด์™„๊ณผ ๋” ๊ด‘๋ฒ”์œ„ํ•œ ๋„๋ฉ”์ธ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

    ๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

    ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
    417(HypoBench)๋Š” LLM ๋ฐ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ๊ฐ€์„ค๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ ๋ฐ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ์‹œํ•˜์—ฌ 558์˜ ๊ณผ์ œ ์„ค๊ณ„์— ์ž์–‘๋ถ„์„ ์ค๋‹ˆ๋‹ค.
    ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
    ์‹คํ—˜์  ํ”ผ๋“œ๋ฐฑ๊ณผ ์ž๋™ํ™”๋œ ๊ณผํ•™ ๋ฐœ๊ฒฌ์˜ ํ๋ฃจํ”„ ๊ตฌ์กฐ ๊ด€๋ จ ์ดˆ๊ธฐ ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์•„์ด๋””์–ด ์‹คํ—˜ ์‚ฌ๋ก€๋ฅผ ์ดํ•ดํ•˜๋Š”๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
    ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
    558์˜ ์ž๋™ํ™”๋œ ๊ณผํ•™ ๋ฐœ๊ฒฌ ๊ณผ์ •์—์„œ ๊ฐ€์„ค ํƒ์ƒ‰๊ณผ ์ˆœ์œ„ํ™” ์ฃผ์š”๋ฌธ์ œ๋ฅผ 363์˜ ๊ฐ€์„ค๋ฐœ๊ฒฌ ์„œ๋ฒ ์ด๋ฅผ ํ†ตํ•ด ์ด๋ก ์ ยท์—ญ์‚ฌ์ ์œผ๋กœ ๋งฅ๋ฝํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    ๋‹ค๋ฅธ ์ ‘๊ทผ
    ๊ณ ์ฐจ์› ๊ณผํ•™ ๊ธฐ๊ณ„ํ•™์Šต ์‹คํ—˜๊ณผ ์ž๋™ํ™”, ์‹คํ—˜-์ด๋ก  ํ๋ฃจํ”„ ๋ฐ LLM ํ™œ์šฉ ๋ฐฉ์‹์˜ ์ฐจ์ด๋ฅผ ์‹ค์ œ ๋ฌธ์ œ ์ ์šฉ ์ธก๋ฉด์—์„œ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    ๋‹ค๋ฅธ ์ ‘๊ทผ
    ๊ฐ€์„ค ๊ฒ€์ฆ/์ˆœ์œ„ ์ง€์ • ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋‚˜, Research hypothesis generation์€ ์ง€์‹๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์ž๋™ ์ƒ์„ฑยทํ‰๊ฐ€ ๋ฐฉ์‹์„ ์ฑ„ํƒํ•ฉ๋‹ˆ๋‹ค.
    ๋‹ค๋ฅธ ์ ‘๊ทผ
    578(Novelseek)๋Š” LLM ๊ธฐ๋ฐ˜ ์‹คํ—˜๊ณ„ํš ๋ฐ ํ”ผ๋“œ๋ฐฑ์„ ํ™œ์šฉํ•ด ์ž๋™ ๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ๊ณผ ๊ฒ€์ฆ์„ ์‹คํ—˜์ ์œผ๋กœ ์‹œ๋„ํ•˜๋ฏ€๋กœ, 558์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ๋žญํ‚น ๋ฌธ์ œ์™€ ์ถฉ๋ถ„ํžˆ ๋น„๊ต๋ฉ๋‹ˆ๋‹ค.
    ํ›„์† ์—ฐ๊ตฌ
    558์˜ ์‹คํ—˜ ๊ฐ€์ด๋“œ ๊ฐ€์„ค์ˆœ์œ„ ๊ณผ์ œ ๊ณต์ •์€ 669์˜ ์ฐฝ์˜์ /์˜๊ฐ ๊ธฐ๋ฐ˜ LLM ๊ฐ€์„ค ์ƒ์„ฑยทํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ(ResearchBench)๋กœ ํ™•์žฅ๋˜๋ฉฐ, ์‹ค์ œ ๋ฒค์น˜๋งˆํฌ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
    ์‘์šฉ ์‚ฌ๋ก€
    ์žฌ๋ฃŒ ๊ณผํ•™์  ์˜์—ญ์—์„œ LLM ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ์ƒ์„ฑ ๋ฐ ์„ค๊ณ„ ์ „๋žต ํ‰๊ฐ€๋ฅผ ์‹ค์ œ๋กœ ์ ์šฉํ•ด๋ด…๋‹ˆ๋‹ค.
    ์‘์šฉ ์‚ฌ๋ก€
    ๊ณผํ•™์  ๊ฐ€์„ค์„ ์‹คํ—˜ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ์ˆœ์œ„๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ, ์•„์ด๋””์–ด ํ‰๊ฐ€ ์ธก๋ฉด์˜ ๋‹ค์–‘ํ•œ ์‹ค์ œ ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
    ← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

    ๐ŸŽง Audio Overview

    ์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
    โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •