AIGS: Generating science from ai-powered automated falsification

์ €์ž: Zijun Liu, Kaiming Liu, Yiqi Zhu, Xuanyu Lei, Zonghan Yang, Zhenhe Zhang, Peng Li, Yang Liu | ๋‚ ์งœ: 2024 | ์†Œ์†: ์ฒญํ™”๋Œ€ํ•™๊ต ์ปดํ“จํ„ฐ๊ณผํ•™๊ธฐ์ˆ ํ•™๋ถ€, AIR ์—ฐ๊ตฌ์†Œ 📄 PDF


Essence

Figure 1

์ธ๊ฐ„ ์—ฐ๊ตฌ์ž๊ฐ€ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ณผํ•™ ์—ฐ๊ตฌ ๊ณผ์ •์˜ ์˜ˆ: ๋ช…์‹œ์  ๋ฐ˜์ฆ(falsification)์ด ๊ฒฝํ—˜์  ๋˜๋Š” ์ด๋ก ์  ์‹คํ—˜์„ ํ†ตํ•ด ๊ฐ€์„ค์„ ๊ฒ€์ฆ ๋˜๋Š” ๋ฐ˜๋ฐ•ํ•˜๋Š” ์ค‘์š”ํ•œ ๋‹จ๊ณ„์ž„

๋ณธ ๋…ผ๋ฌธ์€ ์ž์œจ AI ์—์ด์ „ํŠธ๊ฐ€ ์ „์ฒด ๊ณผํ•™ ์—ฐ๊ตฌ ํ”„๋กœ์„ธ์Šค๋ฅผ ๋…๋ฆฝ์ ์œผ๋กœ ์™„์ˆ˜ํ•˜์—ฌ ๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋Š” AI ์ƒ์„ฑ ๊ณผํ•™(AIGS) ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•œ๋‹ค. ํŠนํžˆ ํฌํผ(Popper)์˜ ๊ณผํ•™ ์ฒ ํ•™์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ๋ฐ˜์ฆ(falsification)์„ ๊ณผํ•™ ์—ฐ๊ตฌ์˜ ํ•ต์‹ฌ์œผ๋กœ ์žฌ์ •์˜ํ•˜๊ณ , ์ด๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๊ตฌํ˜„ํ•˜๋Š” BABY-AIGS ์‹œ์Šคํ…œ์„ ๊ฐœ๋ฐœํ–ˆ๋‹ค.

Motivation

Achievement

Figure 2

AI ๊ฐ€์† ๊ณผํ•™ ๋ฐœ๊ฒฌ์˜ 4๊ฐ€์ง€ ํŒจ๋Ÿฌ๋‹ค์ž„: (I) ์„ฑ๋Šฅ ์ตœ์ ํ™”, (II) ์—ฐ๊ตฌ ์–ด์‹œ์Šคํ„ดํŠธ, (III) ์ž๋™ ๊ณผํ•™์ž, (IV) AI ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ

  1. ์ „์ฒด ํ”„๋กœ์„ธ์Šค AIGS ์‹œ์Šคํ…œ ์„ค๊ณ„:
    • ์ „์ฒด ์—ฐ๊ตฌ ์‚ฌ์ดํด์„ ์ž๋™ํ™”ํ•˜๋Š” BABY-AIGS ์‹œ์Šคํ…œ ๊ตฌํ˜„
    • ๋‘ ๋‹จ๊ณ„ ๊ตฌ์กฐ: (1) ๋ฐ˜์ฆ ์ „ ๋‹จ๊ณ„์—์„œ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๋ฐ˜๋ณต ๊ฐœ์„ , (2) ๋ช…์‹œ์  ๋ฐ˜์ฆ ๋‹จ๊ณ„์—์„œ ๊ณผํ•™์  ํ†ต์ฐฐ ๋„์ถœ
  2. ์ž์œจ์  ๋ฐ˜์ฆ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๊ตฌํ˜„:
    • FALSIFICATION AGENT๊ฐ€ ์‹คํ—˜ ๊ฒฐ๊ณผ๋กœ๋ถ€ํ„ฐ ๋น„ํŒ์  ์š”์†Œ ์‹๋ณ„
    • ์ ˆ์ œ ์‹คํ—˜(ablation study)์œผ๋กœ ๊ฐ€์„ค ๊ฒ€์ฆ ๋ฐ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ์ƒ์„ฑ
    • ๊ธฐ์กด ์‹œ์Šคํ…œ์—์„œ ๋ถ€์žฌํ–ˆ๋˜ ํ•ต์‹ฌ ์š”์†Œ ์ถ”๊ฐ€
  3. ์‹คํ–‰์„ฑ ๊ฐ•ํ™” ๋ฐฉ์•ˆ:
    • DSL์„ ํ†ตํ•ด ์ถ”์ƒ์  ์•„์ด๋””์–ด๋ฅผ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ํ˜•์‹์œผ๋กœ ๋ณ€ํ™˜
    • ๋‹ค์ค‘ ์ƒ˜ํ”Œ๋ง(multi-sampling) + ๊ฒ€์ฆ ๋ฒค์น˜๋งˆํฌ ๊ธฐ๋ฐ˜ ์žฌ์ˆœ์œ„ ์ง€์ •์œผ๋กœ ์ฐฝ์˜์„ฑ ํ–ฅ์ƒ
  4. ๋‹ค์ค‘ ๋„๋ฉ”์ธ ๊ฒ€์ฆ:
    • ๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋ง, ์ž์ฒด ์ง€๋„ ์ •๋ ฌ(self-instruct alignment), ์–ธ์–ด ๋ชจ๋ธ๋ง ๋“ฑ 3๊ฐœ ๊ณผ์ œ์—์„œ ๊ฒ€์ฆ
    • ์˜๋ฏธ ์žˆ๋Š” ๊ณผํ•™์  ๋ฐœ๊ฒฌ ์ž๋™ ์ƒ์„ฑ ํ™•์ธ

How

Figure 3

BABY-AIGS ์‹œ์Šคํ…œ ์„ค๊ณ„ ๊ฐœ์š”: ๋ฐ˜์ฆ ์ „ ๋‹จ๊ณ„(์ขŒ์ธก)์™€ ๋ฐ˜์ฆ ๋‹จ๊ณ„(์šฐ์ธก) ๊ตฌ์„ฑ

์‹œ์Šคํ…œ ๊ตฌ์กฐ:

DSL (Domain-Specific Language):

๋‹ค์ค‘ ์ƒ˜ํ”Œ๋ง ์ „๋žต:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ํฌํผ์˜ ๋ฐ˜์ฆ์ฃผ์˜๋ฅผ AI ๊ณผํ•™ ์‹œ์Šคํ…œ์˜ ํ•ต์‹ฌ ์›๋ฆฌ๋กœ ๋˜์‚ด๋ ค๋‚ธ ์ค‘์š”ํ•œ ์ž‘์—…์œผ๋กœ, ๊ธฐ์กด AIGS ์—ฐ๊ตฌ์˜ ๊ทผ๋ณธ์  ๊ฒฐํ•จ์„ ์ง€์ ํ•˜๊ณ  ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ–ˆ๋‹ค. ์ž์œจ์  ๋ฐ˜์ฆ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๋„์ž…์€ conceptually ์šฐ์ˆ˜ํ•˜๋‚˜, ์‹ค์ œ ๊ตฌํ˜„์˜ ๋ณต์žก์„ฑ๊ณผ ์„ฑ๋Šฅ ํ•œ๊ณ„๋กœ ์ธํ•ด "baby-step"์ด๋ผ๋Š” ๊ฒธ์†ํ•œ ์ž๊ธฐํ‰๊ฐ€๊ฐ€ ํƒ€๋‹นํ•˜๋‹ค. ํ–ฅํ›„ ๋ฐ˜์ฆ ๋Šฅ๋ ฅ์˜ ์ผ๋ฐ˜ํ™”์™€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๋”ฐ๋ผ AIGS ๋ถ„์•ผ์˜ ์ค‘์š”ํ•œ ์ด์ •ํ‘œ๊ฐ€ ๋  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AI ๊ธฐ๋ฐ˜ ์ž๋™ ๋ฐ˜์ฆ ๋ฐ ์ฆ๊ฑฐ ์ถ”๋ก  ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•˜์—ฌ ์˜๋ฃŒ ์—ฐ๊ตฌ์ž๋™ํ™”์—์„œ ๊ทผ๊ฐ„์ด ๋˜๋Š” ์ž๋™ํ™” ์„ค๊ณ„ ์›๋ฆฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ์‹œ์Šคํ…œ์˜ ๊ณต์ •์„ฑ๊ณผ ํŽธํ–ฅ ์™„ํ™”๋ฅผ ์œ„ํ•œ ์ธ๊ณผ์  ์ ‘๊ทผ ๋ฐฉ์‹์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AIGS ๋…ผ๋ฌธ์€ ai ์‹คํ—˜ ์ž๋™ํ™”์™€ ๊ณผํ•™์  ๋ฐ˜์ฆ ์ค‘์‹ฌ ์ ‘๊ทผ์œผ๋กœ, The AI Scientist์˜ ์˜คํ”ˆ์—”๋””๋“œ ๋ฐœ๊ฒฌ ํ”„๋กœ์„ธ์Šค ์ž๋™ํ™”์™€ ๋Œ€์•ˆ์  ํ•ด๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ๋ฐ˜์ฆ ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•ด ์‹ค์ฆ์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์ ์—์„œ ๋ฐ˜์ฆ ์ค‘์‹ฌ์˜ AIGS์™€ ๋ฌธ์ œ์˜์‹์ด ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž๋™ํ™”๋œ ์‹คํ—˜ ๋ฐ ๊ฐ€์„ค ๊ฒ€์ฆ ์‹œ์Šคํ…œ๊ณผ ๋น„๊ตํ•˜์—ฌ ๋‘ ์ ‘๊ทผ๋ฒ•์˜ ์ฐจ์ด์ ๊ณผ ๋ณด์™„์ ์„ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Piflow ๋…ผ๋ฌธ์€ ์ •๋ณด ์ด๋ก ์  ๋ถˆํ™•์‹ค์„ฑ ๊ฐ์†Œ์™€ ๊ณผํ•™ ์›๋ฆฌ ๊ธฐ๋ฐ˜ ์ตœ์ ํ™”๋กœ ๊ณผํ•™์  ๋ฐœ๊ฒฌ์„ ์ถ”์ง„ํ•˜๋ฉฐ, AIGS์˜ ๋ฐ˜์ฆ ์ค‘์‹ฌ ๊ณผํ•™ ์ž๋™ํ™” ์ ‘๊ทผ๊ณผ ๋Œ€์กฐ์ ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
089๋ฒˆ ๋…ผ๋ฌธ์€ AI ๊ธฐ๋ฐ˜ ์ž๋™ ๊ฐ€์„ค ๊ฒ€์ฆ๊ณผ ๋ฐ˜์ฆ์—์„œ agentic sequential falsification์— ์ค‘์ ์„ ๋‘” ๋Œ€์•ˆ ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AIGS๋Š” AI ๊ธฐ๋ฐ˜ ์ž๋™ ๋ฐ˜์ฆ์„ ํ†ตํ•ด ๊ณผํ•™์„ ์ƒ์„ฑํ•˜๋Š” ์‹œ์Šคํ…œ์œผ๋กœ, POPPER์™€ ๋™์ผํ•œ ๋ฐ˜์ฆ ์›์น™์„ ๊ณผํ•™ ๋ฐœ๊ฒฌ์— ์ ์šฉํ•˜๋Š” ๋Œ€์•ˆ์  ์ ‘๊ทผ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ฐ๋… ์—†์ด ์‹คํ—˜ ๋ฐ์ดํ„ฐ์—์„œ ์ผ๋ฐ˜ ๋ฒ•์น™์„ ๋ฐœ๊ฒฌํ•˜๋Š” ์œ ์‚ฌํ•œ ๊ฐœ๋… ๊ธฐ๋ฐ˜ AI ์‹œ์Šคํ…œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ๊ณผํ•™์  ๋ฐœ๊ฒฌ ๋ฐ ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ๋‹ค๋ฅธ ๋„๋ฉ”์ธ์—์„œ ๋‹ค๋ฃฌ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AIGS ๋…ผ๋ฌธ์€ ์ง€์ ์žฌ์‚ฐ๊ถŒ ๋ณดํ˜ธ๊ฐ€ ์•„๋‹Œ ์ž๋™ํ™”๋œ ๊ณผํ•™์  ๊ฒ€์ฆ์„ ๋‹ค๋ฃจ๋ฉฐ, ์ƒ์„ฑ ๋ชจ๋ธ์˜ ํ™œ์šฉ ๋ฐฉ์‹์— ์ƒ์ดํ•œ ์‹œ๊ฐ์„ ์ œ๊ณตํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Automated Hypothesis Validation with Agentic Sequential Fals ๋…ผ๋ฌธ์€ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์ˆœ์ฐจ์  ๋ฐ˜์ฆ ์ ˆ์ฐจ๋ฅผ ํ†ตํ•ด AIGS ์‹œ์Šคํ…œ์˜ ๊ฐ€์„ค ๊ฒ€์ฆ ๋ชจ๋“ˆ ํ™•์žฅ ๋ฐ ์‹ค์šฉํ™”๋ฅผ ๋•๋Š”๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
AI ๊ธฐ๋ฐ˜ ์ž๋™ ๊ฒ€์‚ฌ ๋ฐ ๋ฐ˜์ฆ์„ ํ†ตํ•œ ๊ณผํ•™ ์‹คํ—˜ ์ž๋™ํ™” ์‚ฌ๋ก€๋กœ Agent Laboratory ์‘์šฉ์˜ ์‹ค์ œ ์˜ˆ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •