Automated Hypothesis Validation with Agentic Sequential Falsifications

์ €์ž: Kexin Huang, Ying Jin, Ryan Li, Michael Y. Li, Emmanuel Candรจs | ๋‚ ์งœ: 2025 | DOI: 10.48550/arXiv.2502.09858 📄 PDF


Essence

Figure 1

POPPER ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š”: ์‹คํ—˜ ์„ค๊ณ„ ์—์ด์ „ํŠธ๊ฐ€ ๋ฐ˜๋ฐ• ์‹คํ—˜์„ ์ œ์•ˆํ•˜๊ณ , ์‹คํ–‰ ์—์ด์ „ํŠธ๊ฐ€ p-๊ฐ’์„ ์ƒ์„ฑํ•˜๋ฉฐ, ์ˆœ์ฐจ์  ๊ฒ€์ • ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๋ˆ„์  ์ฆ๊ฑฐ๋ฅผ ์ง‘๊ณ„

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์ด ์ƒ์„ฑํ•˜๋Š” ์ž์œ ํ˜•์‹ ๊ฐ€์„ค์„ ์ž๋™์œผ๋กœ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ์นผ ํฌํผ์˜ ๋ฐ˜๋ฐ• ์›์น™(falsification principle)์„ ํ™œ์šฉํ•œ POPPER ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์—„๊ฒฉํ•œ ์ œ1์ข… ์˜ค๋ฅ˜ ์ œ์–ด(Type-I error control)์™€ ์ˆœ์ฐจ์  e-๊ฐ’ ์ง‘๊ณ„๋ฅผ ํ†ตํ•ด ํ†ต๊ณ„์ ์œผ๋กœ ํƒ€๋‹นํ•œ ๊ฐ€์„ค ๊ฒ€์ฆ์„ ๋Œ€๊ทœ๋ชจ๋กœ ์ˆ˜ํ–‰ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

POPPER์™€ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€์˜ ์„ฑ๋Šฅ ๋น„๊ต: ์ƒ๋ฌผ ์ •๋ณดํ•™ ๋ฐ•์‚ฌ ์ˆ˜์ค€ ์ „๋ฌธ๊ฐ€์™€ ์œ ์‚ฌํ•œ ๊ฒ€์ฆ ๋Šฅ๋ ฅ

  1. ํ†ต๊ณ„์  ์—„๊ฒฉ์„ฑ: ์ œ1์ข… ์˜ค๋ฅ˜์œจ์„ ์‚ฌ์ „์„ค์ • ์œ ์˜์ˆ˜์ค€ ฮฑ์—์„œ ์—„๊ฒฉํžˆ ์ œ์–ดํ•˜๋ฉด์„œ ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ๋†’์€ ๊ฒ€์ •๋ ฅ(power) ๋‹ฌ์„ฑ
  2. ์‹œ๊ฐ„ ํšจ์œจ์„ฑ: ๋ณต์žกํ•œ ์ƒ๋ฌผ ๊ฐ€์„ค ๊ฒ€์ฆ์—์„œ ์ธ๊ฐ„ ๊ณผํ•™์ž ๋Œ€๋น„ 10๋ฐฐ ๋‹จ์ถ• (๊ฒ€์ฆ ์„ฑ๋Šฅ์€ ๋™๋“ฑ ์ˆ˜์ค€)
  3. ํ™•์žฅ์„ฑ: ์ƒ๋ฌผํ•™, ๊ฒฝ์ œํ•™, ์‚ฌํšŒํ•™ ๋“ฑ 6๊ฐœ ๋„๋ฉ”์ธ์—์„œ ์„ฑ๊ณต์  ์ ์šฉ ์ž…์ฆ
  4. ๋‹ค์–‘์„ฑ: ๋ฐ์ดํ„ฐ ๋ถ„์„, ์‹œ๋ฎฌ๋ ˆ์ด์…˜, ์‹ค์ œ ์‹คํ—˜ ๋“ฑ ์ด์งˆ์  ์‹คํ—˜ ๋ฐฉ์‹ ํ†ตํ•ฉ ์ง€์›

How

Figure 3

POPPER์˜ ํŠน์„ฑ: (1) ์ƒ๋ฌผํ•™์ ์œผ๋กœ ํƒ€๋‹นํ•œ ๋ฐ˜๋ฐ• ์‹คํ—˜ ์„ค๊ณ„ (2) ์ˆœ์ฐจ์  ์˜ค๋ฅ˜ ์ œ์–ด ์„ฑ๋Šฅ

์ฃผ์š” ๋ฐฉ๋ฒ•๋ก 

Originality

Limitation & Further Study

Evaluation

์ดํ‰: POPPER๋Š” LLM ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ๊ฒ€์ฆ์˜ ์ž๋™ํ™”์™€ ํ†ต๊ณ„์  ์—„๊ฒฉ์„ฑ์„ ๋™์‹œ์— ๋‹ฌ์„ฑํ•œ ์ค‘์š”ํ•œ ๊ธฐ์—ฌ ๋…ผ๋ฌธ์ด๋‹ค. ์นผ ํฌํผ์˜ ๊ณ ์ „์  ์ฒ ํ•™์„ ํ˜„๋Œ€์ ์œผ๋กœ ๊ตฌํ˜„ํ•˜๊ณ , ์ˆœ์ฐจ์  ๊ฒ€์ • ์ด๋ก ์„ LLM ์—์ด์ „ํŠธ ์‹œ๋Œ€์— ๋งž๊ฒŒ ์ ์‘์‹œํ‚จ ์ ์ด ํŠนํžˆ ๊ฐ€์น˜ ์žˆ๋‹ค. ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ๋Œ€๋น„ 10๋ฐฐ ์‹œ๊ฐ„ ๋‹จ์ถ•๊ณผ ๋™๋“ฑํ•œ ์„ฑ๋Šฅ์€ ์‹ค๋ฌด์  ์ž„ํŒฉํŠธ๊ฐ€ ํฌ๋ฉฐ, ๋ฉ€ํ‹ฐ๋„๋ฉ”์ธ ๊ฒ€์ฆ์œผ๋กœ ํ™•์žฅ์„ฑ์„ ์ž…์ฆํ–ˆ๋‹ค. ๋‹ค๋งŒ LLM ์˜์กด์„ฑ, ๋„๋ฉ”์ธ ํŠน์ˆ˜์„ฑ, ๋ถ€ ๊ฐ€์„ค ๋ฐœ๊ฒฌ์˜ ์™„์ „์„ฑ ๋“ฑ์—์„œ ํ–ฅํ›„ ๊ฐœ์„  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Can language models falsify ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ๊ฐ€์„ค ๊ฒ€์ฆ์˜ ๊ธฐ๋ณธ ๊ฐœ๋… ๋ฐ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ POPPER์˜ ์ด๋ก ์  ํ† ๋Œ€๋กœ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Automated Hypothesis Validation with Agentic Sequential Falsifications ๋…ผ๋ฌธ์€ LLM์ด ์ง์ ‘ ๊ณผํ•™์  ๋ฐฉ์ •์‹/๊ฐ€์„ค ๊ฒ€์ฆ์— ํ™œ์šฉ๋˜๋Š” POPPER ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ด, LLM-SRBench์˜ ํ‰๊ฐ€ ์›๋ฆฌ๋ฅผ ํ™•๋ฆฝํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์ž๋™ ๊ฐ€์„ค ๊ฒ€์ฆ ๋ฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ•๋ก ์ด ๊ณ ๋‚œ๋„ ๊ณผํ•™ ์˜์—ญ(๋…ธํ™” ์—ฐ๊ตฌ ๋“ฑ) ์ธ๊ณต์ง€๋Šฅ ๋™๋ฃŒ ์ž๋™ํ™”์˜ ์„ค๊ณ„ ํ† ๋Œ€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜์˜ ๊ฐ€์„ค ๊ฒ€์ฆ๊ณผ ์ž๋™ํ™” ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์•ˆํ•˜์—ฌ, ๋Œ€๊ทœ๋ชจ ์‹ค์ฆ ์—ฐ๊ตฌ ์žฌํ˜„์„ฑ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋Š” ๋ณธ ๋…ผ๋ฌธ์— ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AIGS๋Š” AI ๊ธฐ๋ฐ˜ ์ž๋™ ๋ฐ˜์ฆ์„ ํ†ตํ•ด ๊ณผํ•™์„ ์ƒ์„ฑํ•˜๋Š” ์‹œ์Šคํ…œ์œผ๋กœ, POPPER์™€ ๋™์ผํ•œ ๋ฐ˜์ฆ ์›์น™์„ ๊ณผํ•™ ๋ฐœ๊ฒฌ์— ์ ์šฉํ•˜๋Š” ๋Œ€์•ˆ์  ์ ‘๊ทผ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์„ ํ™œ์šฉํ•œ ๊ณผํ•™์  ๋ฐœ๊ฒฌ๊ณผ ๊ทœ์น™ ํ•™์Šต์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘˜ ๋‹ค ์ž๋™ํ™”๋œ ๊ฐ€์„ค ๊ฒ€์ฆ ์‹œ์Šคํ…œ์„ ๋ชฉํ‘œ๋กœ ํ•˜์ง€๋งŒ, 330์€ LLM ๋‚ด๋ถ€ ๋…ผ๋ฆฌ ์ถ”์ • ๊ธฐ๋ฐ˜์ด๊ณ  123์€ agentic sequential falsification ์ ‘๊ทผ์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ์„ค๋ช…์˜ ๊ฐœ์ธํ™” ๋˜๋Š” ์ ์‘ํ˜• ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜์„ ์œ„ํ•œ ์œ ์‚ฌํ•œ ๋ฐฉ๋ฒ•๋ก ์„ ์ ์šฉํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Automated Hypothesis Validation with Agentic Sequential Fals ๋…ผ๋ฌธ์€ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์ˆœ์ฐจ์  ๋ฐ˜์ฆ ์ ˆ์ฐจ๋ฅผ ํ†ตํ•ด AIGS ์‹œ์Šคํ…œ์˜ ๊ฐ€์„ค ๊ฒ€์ฆ ๋ชจ๋“ˆ ํ™•์žฅ ๋ฐ ์‹ค์šฉํ™”๋ฅผ ๋•๋Š”๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณผํ•™ ๊ฐ€์„ค ์ž๋™ ๊ฒ€์ฆ์„ ์œ„ํ•œ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, Acceleron์˜ ์•„์ด๋””์–ด ๊ฒ€์ฆ ๋ชจ๋“ˆ์„ ํ›„์† ์ž‘์—… ๋˜๋Š” ์‘์šฉ ์‚ฌ๋ก€๋กœ ์ฐธ๊ณ ํ•  ๋งŒํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM-SRBench ๋…ผ๋ฌธ์€ POPPER๊ฐ€ ์ œ์•ˆํ•œ LLM ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ๊ฒ€์ฆ์„ ์‹ค์งˆ์ ์ธ ๋ฐฉ์ •์‹ ๋ฐœ๊ฒฌ ๋ฐ ์ˆ˜๋ฆฌ์  ๊ฐ€์„ค ํ‰๊ฐ€๋กœ ํ™•์žฅ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
123์€ HypoAgents์™€ ์œ ์‚ฌํ•˜๊ฒŒ ๊ณผํ•™์  ๊ฐ€์„ค์˜ ์ž๋™ ๊ฒ€์ฆ์„ ์œ„ํ•œ ์‹œํ€€์Šค ๊ธฐ๋ฐ˜ ๋ฐ˜์ฆ ์—์ด์ „ํŠธ๋กœ, 149์˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‹ค์ฆ์  ์‹คํ—˜ ๋ฐฉํ–ฅ์œผ๋กœ ํ™•์žฅํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Advances and Challenges in Foundation Agents ๋…ผ๋ฌธ์€ POPPER์™€ ์œ ์‚ฌํ•œ ๊ณผํ•™์  ์ถ”๋ก , ์ž๋™ํ™”, ์—„๋ฐ€์„ฑ ๋ฌธ์ œ๋ฅผ ์ข…ํ•ฉ์ ์œผ๋กœ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
POPPER์˜ ์ž๋™ ๊ฐ€์„ค ๊ฒ€์ฆ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” LLM ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ๋ฐœ๊ฒฌ๊ณผ ๊ทœ์น™ ํ•™์Šต ์„œ๋ฒ ์ด๊ฐ€ ๋‹ค๋ฃจ๋Š” ๊ท€์ถ”๋ฒ• ๊ธฐ๋ฐ˜ ๊ฐ€์„ค ์ƒ์„ฑ-๊ฒ€์ฆ ์‚ฌ์ดํด์˜ ๊ตฌ์ฒด์  ๊ตฌํ˜„์ด๋‹ค.
๋ฐ˜๋ก /๋น„ํŒ
๊ฐ€์„ค ์ƒ์„ฑ ๋ฐ ๊ฒ€์ฆ ์ž๋™ํ™”์— ๋Œ€ํ•œ ์‹ ๋ขฐ์„ฑยทํƒ€๋‹น์„ฑ ๋ฌธ์ œ์™€ ์‹ค์ œ ๊ตฌํ˜„ ๊ณผ์ •์—์„œ POPPER์˜ ํ•œ๊ณ„๋ฅผ ๊ฒฝํ—˜์ ์œผ๋กœ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •