Essence
๊ทธ๋ฆผ 1: ResearchGym์ ์์ด๋์ด ์ ์์ ์คํ ์ํ์ ๊ฒฐํฉํ์ฌ LLM ์์ด์ ํธ๋ฅผ ๊ฐ๊ด์ ์ ์๋ก ํ๊ฐ
๋ณธ ๋
ผ๋ฌธ์ ์ค์ AI ์ฐ๊ตฌ ๋
ผ๋ฌธ์ ์ ์ฅ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋-ํฌ-์๋ ์ฐ๊ตฌ ๋ฃจํ๋ฅผ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ ResearchGym์ ์ ์ํ๋ค. GPT-5 ๊ธฐ๋ฐ ์์ด์ ํธ๊ฐ ์ธ์์ ์ธ ์ฑ๋ฅ์ ๋ณด์ด๊ธฐ๋ ํ์ง๋ง ์ ๋ขฐ์ฑ์ด ๋งค์ฐ ๋ฎ๋ค๋ "๋ฅ๋ ฅ-์ ๋ขฐ์ฑ ๊ฒฉ์ฐจ(capability-reliability gap)"๋ฅผ ์ค์ฆ์ ์ผ๋ก ์
์ฆํ๋ค.
How
๊ทธ๋ฆผ 3: ๋ฒค์น๋งํฌ ๊ตฌ์ฑ ๊ณผ์ : LLM ๊ธฐ๋ฐ ์ ๋ณด ์ถ์ถ โ ํด๋ฆฌ์คํฑ ํํฐ๋ง โ ์ธ๊ฐ QA
ํ์คํฌ ์ค๊ณ:
- ํ์คํฌ ์ธ์คํด์ค I = (R, T, g): ์์ ์ ์ฅ์, ์์
์ค๋ช
, ํ๊ฐ์
- ์์ฐ ์ ์ฝ B (์๊ฐ, API ๋น์ฉ) ์ ํ์ ํฌํจ
- ๊ฐ ํ์คํฌ๋ ๋ค์ค ๋ถ์์
+ ํ๋์ ๊ธฐ๋ณธ ๋ถ์์
(primary task)
๋ฒค์น๋งํฌ ๊ตฌ์ฑ ํ์ดํ๋ผ์ธ:
- 1๋จ๊ณ: LLM ๊ธฐ๋ฐ ์ ๋ณด ์ถ์ถ ๋ฐ ํด๋ฆฌ์คํฑ ํํฐ๋ง
- GROBID ๊ธฐ๋ฐ doc2json์ผ๋ก PDFโJSON ๋ณํ
- GPT-5๋ก ๊ตฌ์กฐํ๋ ์นด๋(C) ์์ฑ
- ํ๊ฐ ๋ชฉํ ๊ฐ๊ด์ฑ, ์ฝ๋ ๊ฐ์ฉ์ฑ, GPU ๋ฉ๋ชจ๋ฆฌ ํํฐ๋ง
- 1,387๊ฐ โ 90๊ฐ ๋
ผ๋ฌธ์ผ๋ก ์ถ์
- 2๋จ๊ณ: ์ธ๊ฐ ์ ๋ณ ๋ฐ ํ์คํฌ ํจํค์ง
- ์คํ ๊ฐ๋ฅ์ฑ ํ๊ฐ (๊ฐ๊ด์ ํ๊ฐ ์ฌ๋ถ, ์๊ณ ๋ฆฌ์ฆ ์ฐฝ์์ฑ ์ฌ์ง, ์๊ฐ ์ ์ฝ)
- ๋ค์์ฑ ํ๋ณด (5๊ฐ ๋๋ฉ์ธ)
- ๊ฐ๋ฐ ์ธํธ 3๊ฐ ์์
์ผ๋ก ์์ด์ ํธ ์ค์บํด๋ฉ ์กฐ์
์ค์ผ ์ธ์ ์ค๊ณ:
- 2025๋
์ดํ ๋ฐํ ๋
ผ๋ฌธ ์ ์ (์ฃผ์ LLM์ ํ์ต ๋ฐ์ดํฐ ์ปท์คํ ์ดํ)
- 90๊ฐ ์ค ์์์
๊ฒ์ฆ
ํ๊ฐ ๋ฉ์ปค๋์ฆ:
- ๋ชฉํ: ์๋ณธ ๋
ผ๋ฌธ์ ํ๊ฐ ์คํฌ๋ฆฝํธ ์ฌ์ฉ (LLM ํ์ฌ ๋ฐฐ์ )
- ํ๊ฐ์ g๋ ์์ด์ ํธ ์ํฌ์คํ์ด์ค ล ์ํ ์
๋ ฅ
- ๊ฐ๊ด์ ์ ์ ๋ฒกํฐ vฬ ๋ฐํ
์์ด์ ํธ ์ํคํ
์ฒ:
- ์ ๊ณต ๋๊ตฌ: Python, Bash, ํ์ผ ์ฝ๊ธฐ/์ฐ๊ธฐ, PDF ๋ฆฌ๋, ์ธ์ฉ ์ํ, ์น ๊ฒ์
- ๋ง์ธ๋ ๋ชจ๋: ์ฌ๊ณ (Think), ์ด์ ์์ฑ(Draft), ํผ๋๋ฐฑ ๋ฃจํ
- ํธ๋ฆฌ ์์น ๋ฅ๋ ฅ ์ง์
- ๋๊ธฐ ์์
๊ด๋ฆฌ (๋ณ๋ ฌ ์คํ ์กฐ์จ)
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ AI ์์ด์ ํธ์ ์ค์ ์ฐ๊ตฌ ์ํ ๋ฅ๋ ฅ ํ๊ฐ๋ฅผ ์ํ ์ฒซ ๋ฒ์งธ ์ฒด๊ณ์ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํจ์ผ๋ก์จ ํ๊ณ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ํนํ ๊ฐ๊ด์ ์คํ ๊ธฐ๋ฐ ํ๊ฐ, ์ค์ผ ์ธ์ ์ค๊ณ, ์ ๊ทผ์ฑ ์๋ ์ธํ๋ผ ์ ๊ณต์ ์ฐ์ํ๋, ์ ํ๋ ์์
๊ท๋ชจ์ ํ์์ ์คํจ ๋ถ์ ์์ค์ ํฅํ ๋ณด์์ด ํ์ํ๋ค. ์ต์ LLM์ด ๊ฐ๋ SOTA ์ฑ๋ฅ์ ๋๋ฌํ์ง๋ง ๋์ฒด๋ก ์ ๋ขฐํ ์ ์๋ค๋ ๋ฐ๊ฒฌ์ ์์ด์ ํธ ๊ฐ๋ฐ ์ปค๋ฎค๋ํฐ์ ์ค๋ํ ๊ฒฝ์ข
์ ์ธ๋ฆฐ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Exp-bench๋ AI ์ฐ๊ตฌ ์คํ ์๋ํ ์ธก๋ฉด์์ ResearchGym๊ณผ ๊ฐ์ ๋ชฉํ๋ฅผ ๊ฐ์ง ๊ธฐ์ด ์ฐ๊ตฌ๋ก ์ฐ๊ฒฐ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
MLGym์ ๋ค์ํ ์์ด์ ํธ ํ์ตยทํ๊ฐ ๋ฒค์น๋งํฌ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ์ฌ, ResearchGym์ ์ค์ ์ฐ๊ตฌ ํ๊ฒฝ ์ ์ฉ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
672๋ ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ ์์ด์ ํธ๊ฐ ์ค์ ๊ณผํ์ ์คํ(์ฌ๊ธฐ์๋ ์ฐ๊ตฌ ํ์ฅ ๋ฌธ์ )์ ์ด๋ป๊ฒ ์ ์ฉ๋๋์ง ๋ฒค์น๋งํนํ๋ฏ๋ก, 3253 ์ฐ๊ตฌ์ ์ ์ฉ๋ฒ์ ํ์ฅ์ ํต์ฐฐ์ ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
GPT ๊ธฐ๋ฐ ๋จธ์ ๋ฌ๋ ํ์ดํ๋ผ์ธ ์๋ํ์ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ค์ ๋ฐ์ดํฐ์
์ ํ์ฉํ LLM ๊ธฐ๋ฐ ๋ฐ์ดํฐ ๊ณผํ ์์ด์ ํธ์ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Towards LLM Agents for Earth Observation ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ์ค์ ๊ณผํ ์ฐ๊ตฌ ์์ฉ(์ง๊ตฌ๊ด์ธก)์ ์ค์ ์ ๋์ด, ResearchGym์ ์๋ํฌ์๋ AI ๋
ผ๋ฌธ ์ฐ๊ตฌ์ ๋ถ์ผ๋ณ ์ ์ฉ์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
ResearchGym(672)๋ ์ค์ ํ๊ฒฝ์์์ LLM ๊ธฐ๋ฐ ์ฅ๊ธฐ ์์ฌ๊ฒฐ์ ์ํ ๋ฒค์น๋งํฌ๋ก์, WebAgent-R1(871)๊ณผ ํ๊ฐ ๋ฐฉ์ ๋ฐ ์ ์ฉ ๋ฌธ์ ๊ตฐ ์ธก๋ฉด์์ ๋์ฒด์ ๋งฅ๋ฝ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
672(ResearchGym)๋ LLM ๊ธฐ๋ฐ ๊ณผํ ์คํ ์์ด์ ํธ์ ์ค์ ์ ๋ฒค์น๋งํฌ ํ๊ฒฝ์ ์ ์ํ์ฌ, 496์ ์๋๋๊ตฌ ์์ฑ๊ณผ์ ์ ์ฑ๋ฅํ๊ฐ ๊ด์ ์์ ๋น๊ต๊ฐ ํ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ์์ด์ ํธ์ ๋ณต์กํ ์ ๋ณด ์ฒ๋ฆฌ ๋ฐ ํ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๊ด๋ จ ๋ฒค์น๋งํฌ ๋
ผ๋ฌธ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๊ธฐ๋ฐ ๊ณผํ ์ฐ๊ตฌ ์๋ํ์ ์งํ ์ํฉ๊ณผ ๊ณผ์ ๋ฅผ ๋ค๋ฃจ๋ ์ ์ฌํ ์๋ฒ ์ด ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์ฐ๊ตฌ ๋ณด๊ณ ์ ํ์ง ํ๊ฐ ๋ฐฉ๋ฒ์ ์ ์ํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์ด์ ํธ ํ๊ฐ๋ฅผ ์ํ ๋์์ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
ResearchGym์ ์ค์ธ๊ณ AI ์ฐ๊ตฌ ๋
ผ๋ฌธ ์ ์ฅ์๊น์ง ํ์ฅํ์ฌ, MLGym์ ๋ฒค์น๋งํฌ ์ ๊ทผ์ ์ค์ ์ฐ๊ตฌํ๊ฒฝ ํ๊ฐ๋ก ํ ๋จ๊ณ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
Systematic Framework of Application Methods ๋
ผ๋ฌธ์ LLM ์ ์ฉ์ ์ ๋ขฐ์ฑ ๋ฌธ์ ์ ๋ฐฉ๋ฒ๋ก ์ ํผ๋ ํด์๋ฅผ ์ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํด, capability-reliability gap์ ์กฐ์ง์ ๋ถ์์ ๋ณด์ํ๋ค.
ํ์ ์ฐ๊ตฌ
672๋ฒ ๋
ผ๋ฌธ(ResearchGym)์ ์ค์ ํ๊ฒฝ์์ GNN ๋ฐ LLM ๊ธฐ๋ฐ ๋ชจ๋ธ์ ํ๊ฐํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํด, 3095์ฒ๋ผ ์๋ก์ด GNN ๊ตฌ์กฐ ์คํ์ ํ๊ฐ ์ฌ๋ก๋ฅผ ๋น๊ตํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
Towards end-to-end automation of AI research ๋
ผ๋ฌธ์ ์ค์ ์ฐ๊ตฌ ์๋ํ ์ ์ฒด์ ๊ด์ ์์ AI ์์ด์ ํธ ํ๊ฐ ๊ธฐ์ค ํ์ฅ์ ๋
ผ์ํ์ฌ ResearchGym์ ๋ชฉ์ ๊ณผ ์ฐ์ฅ์ฑ์ ๊ฐ์ง๋ค.
์์ฉ ์ฌ๋ก
ResearchGym์ ์ค์ AI ์ฐ๊ตฌ ๋
ผ๋ฌธ ์ํฌํ๋ก์ฐ์์ capability-reliability gap์ ์ค์ฆ์ ์ผ๋ก ๋๋ฌ๋ด์ด, LLM ํ์ฉ ํ๋ ์์ํฌ ์ ์ฉ์ ์ค์ ๋ฌธ์ ๋ฅผ ๋ณด์ฌ์ค๋ค.
๋ฐ๋ก /๋นํ
Towards a Science of AI Agent Reliability ๋
ผ๋ฌธ์ ์์ด์ ํธ ์ฑ๋ฅ์ ์ ๋ขฐ์ฑ ๋ฌธ์ ๋ฅผ ์ด๋ก ์ ์ผ๋ก ๋ค๋ฃจ๋ฉฐ, ResearchGym์์ ์ ๊ธฐํ '๋ฅ๋ ฅ-์ ๋ขฐ์ฑ ๊ฒฉ์ฐจ' ๊ฒฝํ์ ์ฆ๊ฑฐ์ ๊ท ํ ์๊ฒ ๋ณผ ์ ์๋ค.