YC-Bench: Benchmarking AI Agents for Long-Term Planning and Consistent Execution
์ ์: Muyu He, Adit Jain, Anand Kumar, Vincent Tu, Soumyadeep Bakshi, Sachin Patro, Nazneen Rajani | ๋ ์ง: 2026 | DOI: 10.48550/ARXIV.2604.01212 📄 PDF
Essence
Figure 1 Overview of YC-Bench. The agent interacts with the environment through CLI commands (blue) and receives structu
YC-Bench๋ LLM ์์ด์ ํธ์ ์ฅ๊ธฐ ๊ณํ๊ณผ ์ผ๊ด๋ ์คํ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ๋ฒค์น๋งํฌ๋ก, 1๋
๋์ ์๋ฐฑ ํด์ ๊ฑฐ์ณ ์๋ฎฌ๋ ์ด์
๋ ์คํํธ์
์ ์ด์ํ๋๋ก ํ๋ POMDP ๊ธฐ๋ฐ ํ๊ฒฝ์ ์ ๊ณตํ๋ค. ๋ถ์ถฉ์คํ ํด๋ผ์ด์ธํธ์ ์ฆ๊ฐํ๋ ๊ธ์ฌ ๋น์ฉ ๋ฑ ์ ๋์ ๋์ ํ๊ฒฝ์์ ์ง์ ๊ด๋ฆฌ, ๊ณ์ฝ ์ ํ, ํ๊ธ ํ๋ฆ ๊ด๋ฆฌ์ ๋ณตํฉ์ ์์ฌ๊ฒฐ์ ์ ์๊ตฌํ๋ค.
Motivation
- Known: ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ค(VendingBench, AgentBench, TheAgentCompany ๋ฑ)์ LLM ์์ด์ ํธ์ ๊ณํ ๋ฅ๋ ฅ์ ํ๊ฐํ์ง๋ง, ์๋ฐฑ ํด์ ๊ฑธ์น ์ง์์ ์ธ ์ ๋ต์ ์ผ๊ด์ฑ(strategic coherence) ์ ์ง์ ์ง์ฐ๋ ํผ๋๋ฐฑ์์์ ํ์ต, ์ด๊ธฐ ์ค์์ ๋ณตํฉ ํจ๊ณผ ์ ์์ ์ข
ํฉ์ ์ผ๋ก ํ
์คํธํ๋ ๋ฒค์น๋งํฌ๋ ๋ถ์กฑํ๋ค.
- Gap: ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ ์ฆ๊ฐ์ ์ธ ํ๊ฒฝ ๋ฐ์์ด๋ ๋
๋ฆฝ์ ์ธ ๋ฌธ์ ๋ค์ ์ด์ ์ ๋ง์ท์ผ๋, ์ค์ ๋น์ฆ๋์ค ์ด์์ ํ์ํ ๋ถํ์ค์ฑ ํ์์์ ๊ณ์ฐ๋ ์ํ ์ ํ, ๋จ๊ธฐ์ ์ผ๋ก๋ ์ต์ ์ด ์๋์ง๋ง ์ฅ๊ธฐ ๋ณด์์ ๋ชฉํ๋ก ํ๋ ์์ฌ๊ฒฐ์ , ๊ทธ๋ฆฌ๊ณ ์ ๋์ ์ด์ง๋ง ์จ๊ฒจ์ง ํด๋ผ์ด์ธํธ๋ฅผ ๊ณผ๊ฑฐ ๊ฒฝํ์ผ๋ก ํ์ตํด ์๋ณํ๋ ๋ฅ๋ ฅ์ ์ถฉ๋ถํ ํ๊ฐํ์ง ๋ชปํ๋ค.
- Why: LLM ์์ด์ ํธ์ ์ค์ ์์ฉ์ด ์ ์ ๋ณต์กํ ์ฅ๊ธฐ ์์
์ผ๋ก ํ๋๋๊ณ ์์ผ๋ฉฐ, ์ด๋ค์ด ์๋ฐฑ ๋๋ ์์ฒ ์ํธ์์ฉ์ ๊ฑธ์ณ ๋ชฉํ ๋ฌ์ฑ์ ์ ์งํ๊ณ , ์ง์ฐ๋ ํผ๋๋ฐฑ์ผ๋ก๋ถํฐ ํ์ตํ๊ณ , ์ด๊ธฐ ์ค์๊ฐ ๋์ ๋๋ ์ํฉ์ ๋์ํ ์ ์๋์ง๋ฅผ ํ๊ฐํ๋ ๊ฒ์ด ๋ชจ๋ธ ์ฑ๋ฅ ์ดํด์ ๊ฐ์ ์ ํ์์ ์ด๋ค.
- Approach: YC-Bench๋ deterministicํ์ง๋ง ๋ฏธ๋ฆฌ ์๋ ค์ง์ง ์์ ์ ์ด ๋ฐ ๊ด์ฐฐ ๋์ ์ ๊ฐ๋ POMDP ํ๊ฒฝ์ผ๋ก ์ค๊ณ๋์๋ค. ์์ด์ ํธ๋ CLI ์ธํฐํ์ด์ค๋ฅผ ํตํด marketplace์์ ๊ณ์ฝ์ ์ ํํ๊ณ , ์ง์์ ํ ๋นํ๋ฉฐ, ์๊ฐ ๊ธ์ฌ์ ๋ํ ํ๊ธ ํ๋ฆ์ ๊ด๋ฆฌํ๋ค. ์ฝ 1/3์ ํด๋ผ์ด์ธํธ๋ ์ ๋ขฐํ ์ ์์ผ๋ฉฐ ์ด๋ค์ ์์
์ ์๋์ ์ผ๋ก ์คํจํ๋๋ก ์ค๊ณ๋์ด, ์์ด์ ํธ๋ ์์ ์ ์ฑ๊ณต/์คํจ ์ด๋ ฅ์ ๋ถ์ํด ์ด๋ค์ ์๋ณํด์ผ ํ๋ค. 20ํด์ context window๋ ์์ด์ ํธ๊ฐ persistent scratchpad๋ฅผ ์ฌ์ฉํ๋๋ก ๊ฐ์ ํ์ฌ, ์ ๋์ ํด๋ผ์ด์ธํธ ์ ๋ณด๋ฅผ ๊ธฐ๋กํ์ง ์์ผ๋ฉด context ์ ๋จ ํ ๋์ผํ ์ค์๋ฅผ ๋ฐ๋ณตํ๊ฒ ๋๋ค.
Achievement
Figure 2 Out of the 12 models that we benchmark on YC-Bench, 5 models are profitable and only 3 turn a substantial profi
12๊ฐ ๋ชจ๋ธ ๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ: GPT-5.4, Claude Opus 4.6, GLM-5, Gemini, Grok ๋ฑ ์ต์ frontier ๋ชจ๋ธ๊ณผ open-source ๋ชจ๋ธ ํ๊ฐ. Claude Opus 4.6์ด ํ๊ท $1.27M์ผ๋ก ๊ฐ์ฅ ๋์ ์ต์ข
์๊ธ์ ๋ฌ์ฑํ๊ณ , GLM-5๋ 11๋ฐฐ ๋ฎ์ inference cost๋ก $1.21M ๋ฌ์ฑ. ์คํจ ๋ถ์: 12๊ฐ ์ค 3๊ฐ๋ง ์ด๊ธฐ ์๋ณธ $200K๋ฅผ ์ด๊ณผํ์ฌ ์ผ๊ด์ฑ ์๊ฒ ์ฑ๊ณต. ์ฃผ์ ์์ธก ์ธ์: Scratchpad ์ฌ์ฉ์ด ์ฑ๊ณต์ ๊ฐ์ฅ ๊ฐ๋ ฅํ ์์ธก ์ธ์. ์คํจ ๋ชจ๋ ๋ถ์: ์ ๋์ ํด๋ผ์ด์ธํธ ์๋ณ ์คํจ๊ฐ ํ์ฐ์ 47% ์ฐจ์ง, over-parallelization ๋ฑ distinct failure mode ๋ฐ๊ฒฌ.
How
Figure 3 We observe that better models are able to build client trust over time by strategically selecting clients. What
- POMDP ๊ธฐ๋ฐ environment design์ผ๋ก deterministicํ์ง๋ง ์์ธก ๋ถ๊ฐ๋ฅํ ๋์ ๊ตฌํ
- CLI ๋ช
๋ น์ด(market browse, task accept, task inspect, sim resume, scratchpad write)๋ฅผ ํตํ ๊ตฌ์กฐํ๋ ์์ด์ ํธ-ํ๊ฒฝ ์ํธ์์ฉ
- 4๊ฐ ๋๋ฉ์ธ์ ๋ค์ํ ์์
๊ณผ 8๊ฐ ์ง์์ ๋ค์ํ ๊ธฐ์ ํ๋กํ๋ก ๋ณต์ก์ฑ ๊ตฌ์ฑ
- ์ ๋ขฐ๋ ์์คํ
, prestige ๊ฒ์ดํ
, ์ ์์ ๊ธ์ฌ ์ฑ์ฅ์ผ๋ก compounding ๋์ ์์ฑ
- 20ํด context window ๊ฐ์ ๋ก persistent scratchpad ๋ฉ๋ชจ๋ฆฌ ํ์์ฑ ๊ตฌํ
- ์ต์ข
์๊ธ์ ๋จ์ผ ์ค์นผ๋ผ ์ฑ๊ณผ ์งํ๋ก ์ฌ์ฉ
Originality
- ์ ๋์ ์ด์ง๋ง ์จ๊ฒจ์ง ํด๋ผ์ด์ธํธ ํจ๋ฌ๋ค์: VendingBench์ ๋ฌ๋ฆฌ adversarial ์ํ๊ฐ ์ฌ์ ์ ์๋ ค์ง์ง ์์, ์์ด์ ํธ๊ฐ ๊ณผ๊ฑฐ ๊ฒฝํ์ผ๋ก๋ถํฐ ํ์ตํด์ผ ํจ
- Multi-domain task allocation: ๋จ์ ๊ฐ๊ฒฉ ์ฑ
์ ์ด ์๋ ๋ณต์กํ ์ธ๋ ฅ ํ ๋น๊ณผ ๊ธฐ์ ๋งค์นญ ๋ฌธ์ ๋์
- ์ ๋ณด ๋น๋์นญ์ฑ: ์ง์์ ์จ๊ฒจ์ง ๊ธฐ์ ๋ฅ ๋ก ๋ถ์์ ์ ๋ณด ๊ฒ์ ๊ตฌํ
- Compounding financial dynamics: prestige decay, ๋ฐ๋ณต ํด๋ผ์ด์ธํธ ์ ๋ขฐ ์ถ์ , ๊ธ์ฌ ์ฑ์ฅ์ผ๋ก ๋์ ํจ๊ณผ ๋ชจ๋ธ๋ง
- Multi-episode learning framework: ์ฌ์์ ๊ฐ ์ ์ ํ์ต ๋ฅ๋ ฅ ํ๊ฐ
- Open-source ๋ฐ configurable ์ค๊ณ: ์ฌํ์ฑ๊ณผ ํ์ฅ์ฑ ๋ณด์ฅ
Limitation & Further Study
- Simulation generalization: Simulated startup ํ๊ฒฝ์ด ์ค์ ๋น์ฆ๋์ค ๋ณต์ก์ฑ์ ๋ชจ๋ ์ธก๋ฉด์ ํฌํจํ์ง ์์ผ๋ฉฐ, ์์ด์ ํธ์ ์ค์ ์์ฉ์ ๋ํ ์ ์ด ๊ฐ๋ฅ์ฑ ๋ฏธ๊ฒ์ฆ. ์ ํ๋ ๋ชจ๋ธ ์ปค๋ฒ๋ฆฌ์ง: ๋ฒค์น๋งํฌ๊ฐ 2026๋
๋ชจ๋ธ๋ค(GPT-5.4, Claude Opus 4.6 ๋ฑ)์ ์ด์ ์ด ๋ง์ถฐ์ ธ ์์ด ์๊ฐ์ด ์ง๋๋ฉด์ ๋น ๋ฅด๊ฒ ๊ตฌ์ํ๋ ๊ฐ๋ฅ์ฑ. Context window ์ค์ : 20ํด context window ์ ํ์ด ์์์ ์ด๋ฉฐ, ๋ค๋ฅธ window ํฌ๊ธฐ์์์ ์ฑ๋ฅ ๋ณํ์ ๋ํ ablation ๋ถ์ฌ. Scratchpad ์์กด์ฑ: ๋ฉ๋ชจ๋ฆฌ persistence๊ฐ scratchpad์๋ง ์ ํ๋์ด, ๋ ์ ๊ตํ ๋ฉ๋ชจ๋ฆฌ ์ํคํ
์ฒ(external database, vector retrieval ๋ฑ)์ ํ์ฉ ์ฌ๋ถ ๋ฏธ๋ช
์. ๋จ์ผ ์ฑ๊ณผ ์งํ: ์ต์ข
์๊ธ๋ง์ ์งํ๋ก ์ฌ์ฉํ์ฌ ์ค๊ฐ ์์ฌ๊ฒฐ์ ์ ์ง, ๋ฆฌ์คํฌ ๊ด๋ฆฌ ๋ฑ์ ์ธ๋ถํ๋ ๋ถ์ ๋ถ๊ฐ๋ฅ. ํ์ ์ฐ๊ตฌ: ๋ ๋์ ๋ชจ๋ธ ์ปค๋ฒ๋ฆฌ์ง, ๋ค์ํ context window ํฌ๊ธฐ์ ๋ํ ablation study, ๊ณ ๊ธ ๋ฉ๋ชจ๋ฆฌ ๋ฉ์ปค๋์ฆ์ ๋ช
์์ ์ง์, ๋ค์ค ์ฑ๊ณผ ์งํ ๊ฐ๋ฐ์ด ํ์ํจ.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: YC-Bench๋ LLM ์์ด์ ํธ์ ์ฅ๊ธฐ ๊ณํ๊ณผ ์ผ๊ด๋ ์คํ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์ ์ค๊ณ๋ ๋ฒค์น๋งํฌ๋ก, ๊ธฐ์กด ๋ฒค์น๋งํฌ์ ํ๊ณ๋ฅผ ๋ช
ํํ ์ธ์ํ๊ณ ์ด๋ฅผ ๊ทน๋ณตํ๋ ํ์ ์ ์ธ ํ๊ฒฝ์ ์ ์ํ๋ค. 12๊ฐ frontier ๋ชจ๋ธ์ ๊ด๋ฒ์ํ ํ๊ฐ, ์ฒด๊ณ์ ์ธ ์คํจ ๋ชจ๋ ๋ถ์, open-source ์ ๊ณต์ผ๋ก ์ปค๋ฎค๋ํฐ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ๋ค๋ง simulation generalization, context window ์ค์ ์ ์ ๋น์ฑ, ๋ ์ ๊ตํ ๋ฉ๋ชจ๋ฆฌ ๋ฉ์ปค๋์ฆ ์ง์ ๋ฑ ๋ณด์์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ์ฌํ ์๋ฎฌ๋ ์ด์
์ ๊ตฌ์กฐ์ ํ๊ฐ๋ฐฉ์์ ์๋ฒ ์ดํ์ฌ, YC-Bench์ ์ค๊ณ์ ํ๊ฐ์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
HIAGENT๋ ์๋ธ๊ณจ ์ค์ฌ์ ๊ณ์ธต์ ์์
๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ ์ ๊ทผ์ ํตํด ์ฅ๊ธฐ ํ๋๋๊ณผ ์์ด์ ํธ ์ผ๊ด์ฑ ์ฐ๊ตฌ์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฅ๊ธฐ๊ฐยท๋๊ท๋ชจ ๊ณํ ๋ฐ ์ฌํ์ ์ํธ์์ฉ์ ์์ด์ ํธ ๋ฒค์น๋งํฌ๋ก ์ ์ํ์ฌ, ์ํ๊ธฐ-๋น์ฆ๋์ค ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ๊ณผ ๋ชฉ์ ์ด ํก์ฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
3398์ ์ฅ๊ธฐ ๊ณผํ์ ๊ณํ๊ณผ ์์ด์ ํธ ํ๊ฐ์ ์ง์คํ ๋ฒค์น๋งํฌ๋ก, ์ํฌํ๋ก์ฐ ํ์ฅ์ฑ์ ๊ฐ์ด ๊ณ ๋ฏผํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฅ๊ธฐ์ ์ผ๊ด์ฑ ํ๊ฐ๋ฅผ ์ํ ์์ด์ ํธ ๋ฒค์น๋งํฌ๋ผ๋ ๋์ผ ๋ฌธ์ ์ ๋ํด ์๋ก ๋ค๋ฅธ ํ๊ฒฝ๊ณผ ๋ฐฉ์์ ์ ๊ณตํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์