Essence
Figure 1. Feynman ๋ฌธ์ ์ LLM-SRBench ๋ฐ์ดํฐ์
(LSR-Transform, LSR-Synth)์์ ๋จ์ LLM ์ํ๋ง(Llama-3.1-8B)์ ์ค์ฐจ ๋ถ์. Feynman ๋ฌธ์ ์์ ์์น ์ค์ฐจ ๊ณก์ ์ ๊ธ๊ฒฉํ ํ๊ฐ๊ณผ ๋ฎ์ ๊ธฐํธ ์ค์ฐจ๋ ์ค์ ๋ฐ๊ฒฌ๋ณด๋ค ์๊ธฐ๋ฅผ ์์ฌํจ.
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ ๊ณผํ ๋ฐฉ์ ์ ๋ฐ๊ฒฌ์ ์ง์ ํ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด ์๊ธฐ๋ฅผ ๋ฐฉ์งํ๋ ์ข
ํฉ์ ๋ฒค์น๋งํฌ LLM-SRBench๋ฅผ ์ ์ํ๋ค. 4๊ฐ ๊ณผํ ๋ถ์ผ์์ 239๊ฐ ๋์ ๋ฌธ์ ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ์ต๊ณ ์ฑ๋ฅ ๋ชจ๋ธ๋ 31.5% ๊ธฐํธ ์ ํ๋์ ๋ถ๊ณผํจ์ ๋ณด์ฌ์ค๋ค.
Evaluation
์ดํ: LLM-SRBench๋ ๊ณผํ ๋ฐฉ์ ์ ๋ฐ๊ฒฌ ๋ถ์ผ์์ ์ค์ง์ ํ์์ ์ํ๋ ๋์ ์ ์ด๊ณ ์๊ฒฉํ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ฉฐ, ์๊ธฐ ๋ฐฉ์ง ์ค๊ณ์ ๋ค์ค ๋๋ฉ์ธ ์ปค๋ฒ๋ฆฌ์ง๊ฐ ์ฅ์ ์ด๋, ํฉ์ฑ ๋ฌธ์ ์์ฑ์ ์๋ํ ๋ฐ ๊ธฐ์กด SR ๋ฐฉ๋ฒ๊ณผ์ ๋น๊ต ํ๋๊ฐ ํ์ ๊ฐ์ ๊ณผ์ ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Neural ODE์ ์ฐ์๊น์ด ์ ๊ฒฝ๋ง ๊ฐ๋
์ LLM ๊ธฐ๋ฐ ๊ณผํ๋ฐฉ์ ์ ์ถ๋ก ๋ฐ PDE ์๋ฒ ์์ฑ์ ์ด๋ก ์ ์ถ๋ฐ์ ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ์ ์์ ๋ฐ๊ฒฌ์ ์ํ LLM ๋ฒค์น๋งํฌ๋ก, ์๊ธฐ์ฑ์ฐฐ ํ๋กฌํํธ ํ์ฉ์ ๊ธฐ์ ์ ๊ธฐ๋ฐ์ ์ ์ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Automated Hypothesis Validation with Agentic Sequential Falsifications ๋
ผ๋ฌธ์ LLM์ด ์ง์ ๊ณผํ์ ๋ฐฉ์ ์/๊ฐ์ค ๊ฒ์ฆ์ ํ์ฉ๋๋ POPPER ํ๋ ์์ํฌ๋ฅผ ์ ์ํด, LLM-SRBench์ ํ๊ฐ ์๋ฆฌ๋ฅผ ํ๋ฆฝํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋์นญ์ฑ๊ณผ ๊ธฐํธ ํ๊ท ๊ธฐ๋ฐ์ ์ฌ๋ณผ๋ฆญ PDE ๋ฐ๊ฒฌ ๊ธฐ๋ฒ์ ๋ํ ์ด๋ก ์ ๋ฐ ๋ฐฉ๋ฒ๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
232๋ฒ ๋
ผ๋ฌธ์์ ์ ์ํ CodePDE๋ 504์ LLM ๊ธฐ๋ฐ ๊ณผํ ๋ฐฉ์ ์ ๋ฐ๊ฒฌ ๋ฒค์น๋งํฌ ๊ตฌ์ถ์ ์ด๋ก ์ ยท๊ธฐ์ ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ์ ๋ฐ๊ฒฌ์ ์ํ ๊ฐ์ค ์์ฑ ํ๋ก์ธ์ค์ LLM ์ฌ๊ณ ๋ฐฉ์์ ๋ํ ๊ธฐ์ด ์ด๋ก ์ ์ ๊ณตํ์ฌ ๋ฒค์น๋งํฌ์ ์ค๊ณ ์ทจ์ง๋ฅผ ์ดํดํ๋ ๋ฐ ๋์์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
504๋ ๊ณผํ ๋ฐฉ์ ์ ์๋ ๋ฐ๊ฒฌ ๋ฒค์น๋งํฌ/๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ๋ฉฐ, 3372์ LLM+Lean ๊ธฐ๋ฐ ์ํ ์ ๋ฆฌ ๋ฐ๊ฒฌ์ ์ค์ง์ ํ๊ฐ ์งํ์ ๋น๊ต๊ตฐ์ ๋ง๋ จํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ์ ์ฌ๋ณผ๋ฆญ ํ๊ท ๋ฐ ์์ฑ์ AI๊ฐ ๊ณผํ ๋ฐ๊ฒฌ์ ์ด๋ค ํ์ ์ ๊ฐ์ ธ์ฌ ์ ์๋์ง ํญ๋๊ฒ ๋ค๋ฃน๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM-SRBench๋ ๊ณผํ ๋ฐฉ์ ์ ๋ฐ๊ฒฌ์ ๋ฒค์น๋งํฌ, MUSTARD๋ ํ์ ์ํ ์ฆ๋ช
๋ฐ์ดํฐ ์๋์์ฑ์ผ๋ก ์ํ์ reasoning ํ๊ฐ ๊ด์ ์ด ๋ค๋ฅด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Text2World๋ LLM์ ๊ธฐํธ์ ์ธ๊ณ ๋ชจ๋ธ ๊ตฌ์ฑ๋ ฅ์ ์ง์คํ๊ณ , LLM-SRBench๋ ๊ณผํ ๋ฐฉ์ ์ ๋ฐ๊ฒฌ์ ํ๊ฐ๋ก ๋ symbolic reasoning ๋ฒค์น๋งํฌ๊ฐ ๋์กฐ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ์ฐ๊ตฌ ๋ชจ๋ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋๋ ๊ธฐ๊ณํ์ต์ ํ์ฉํ์ฌ ๋ฌผ๋ฆฌ์ ์์คํ
์ ๋ฏธ๋ถ๋ฐฉ์ ์์ด๋ ๋์ญํ ๋ฒ์น์ ๋ฐ๊ฒฌํ๋ ์ ์ฌํ ์ฐ๊ตฌ ๋ชฉ์ ์ ๊ฐ์ง๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ๊ณผํ ๋ฐฉ์ ์ ๋ฐ๊ฒฌ์ ์ํ ๋ฒค์น๋งํฌ๋ก, ํํ ๋๋ฉ์ธ ์ธ์ ๊ณผํ์ ์ถ๋ก ์ฑ๋ฅ ๋น๊ต ์ฐ๊ตฌ๋ก์ ์ฝ์ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํธ๋ฏธ๋ถ๋ฐฉ์ ์ ํ์ด๋ฅผ ์ํ AI ๊ธฐ๋ฐ ์์น ์๋ฒ์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
504๋ LLM ๊ธฐ๋ฐ์ ๊ณผํ ๋ฐฉ์ ์ ๋ฐ๊ฒฌ์ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ๋ก, ๋ฐ์ดํฐ ํฌ์์ฑ ๊ทน๋ณต ์ ๋ต๊ณผ ์ฌํ ์ค๋ช
๋ฐฉ๋ฒ๋ก ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฉ์ก ๋ด ๋ถ์ ํน์ฑ ์์ธก์ ์ํ ๋์์ ์ ๊ฒฝ๋ง ์ ๊ทผ๋ฒ์ด๋ค.
ํ์ ์ฐ๊ตฌ
504๋ ๊ณผํ ๋ถ์ผ ๋ชจ๋ธ์ด ์์ ํ์ ๋ฐ ๋ฐ๊ฒฌ ๊ณผ์ ๋ฅผ ์ผ๋ง๋ ์ ์ํํ๋์ง๋ฅผ ํ๊ฐํ๋ฉฐ, ์ํ์ reasoning ๋ฒค์น๋งํฌ๋ก 808์ ์ญํ ์ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
2209 ๋
ผ๋ฌธ์ 504 SRBench์ ๊ตฌ์ฒด์ ๋ฐฉ๋ฒ๋ก ์ ํ๋ก๊ทธ๋จ ํ๋กฌํํธ ์ค์ฌ ๋ฐ๊ฒฌ์ผ๋ก ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
LLM-SRBench๋ SciCode์ ๋ง์ฐฌ๊ฐ์ง๋ก ๊ณผํ ์ฐ๊ตฌ ์ค๋ฌด ๋ฅ๋ ฅ์ ํ๊ฐํ๋, ๋ฐฉ์ ์ ๋ฐ๊ฒฌ ๋ฑ ์๋ฆฌ์ ๊ณผ์ ์ ํนํ๋ ์ ์์ ์ํธ๋ณด์์ ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
๋ ๋ค LLM์ ํ์ฉํ ๊ณผํ ๋ฐฉ์ ์, PDE ๋ฑ์ ๋ฐ๊ฒฌ ์ ํ์ฑ ํฅ์์ ๋ค๋ฃจ๊ณ , 289๋ ๋ฐ์ดํฐ ๊ตฌ์กฐ์ ์์ฑ ์ด๋ ฅ์ ์ด์ค ์ถ๋ก ์ผ๋ก 504์ ๋ฒค์น๋งํฌ์ ํ๊ณ์ ๊ธฐ์ ์ ํ์ฅ์ ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
232๊ณผ 504 ๋ชจ๋ LLM์ ํตํ PDE/๋ฐฉ์ ์ ๋ฐ๊ฒฌ์ ๋ํด ๋ค๋ฃจ๋ฉฐ, 504๋ ๋ณด๋ค ํฌ๊ด์ ๋ฒค์น๋งํฌ์ ํ๊ฐ๋ฅผ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
LLM-SRBench ๋
ผ๋ฌธ์ POPPER๊ฐ ์ ์ํ LLM ๊ธฐ๋ฐ ๊ฐ์ค ๊ฒ์ฆ์ ์ค์ง์ ์ธ ๋ฐฉ์ ์ ๋ฐ๊ฒฌ ๋ฐ ์๋ฆฌ์ ๊ฐ์ค ํ๊ฐ๋ก ํ์ฅ ์ ์ฉํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
504๋ฒ ๋
ผ๋ฌธ์ ๋ฐฉ์ ์ ๋ฐ๊ฒฌ ๋ฒค์น๋งํฌ๋ก์จ, 502๋ฒ์ ์ฑ๋ฅ๊ณผ ๋ฐฉ๋ฒ๋ก ์ด ์ค์ ๋ก ์ด๋ป๊ฒ ํ๊ฐ๋๋์ง ํ์ธํ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
MUSTARD ํ๋ ์์ํฌ๋ LLM ๊ธฐ๋ฐ์์ ์ํ ์ ๋ฆฌ์ ์ฆ๋ช
๋ฐ์ดํฐ ์์ฑ์ ์ง์คํด LLM์ ๊ณผํ์ ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ์ ์ค์ง์ ์ฌ๋ก๋ก ์ฐ๊ฒฐ๋๋ค.
์์ฉ ์ฌ๋ก
Sparks ๋
ผ๋ฌธ์์๋ ๊ณผํ์ ๋ฐ๊ฒฌ ๊ณผ์ ์์ LLM์ด ๋ฐฉ์ ์ ์ถ๋ก ๊ณผ ๊ฒ์ฆ ์์
์ ์ค์ ๋ก ์ํํ๋ ์ฌ๋ก๋ฅผ ๋ค๋ฃน๋๋ค.
์์ฉ ์ฌ๋ก
๊ณผํ์ ๋ฐฉ์ ์ ์๋ ๋ฐ๊ฒฌ์ ์ํ LLM ๊ธฐ๋ฐ ํ์ดํ๋ผ์ธ์ด Agent Laboratory์ ์ฐ๊ตฌ ์ํ, ๊ฒํ ๊ธฐ๋ฅ๊ณผ ํ์ค ์ ์ฉ์์ ๋ง๋ ์ ์์ต๋๋ค.