YC-Bench: Benchmarking AI Agents for Long-Term Planning and Consistent Execution

Essence

Figure 1 Overview of YC-Bench. The agent interacts with the environment through CLI commands (blue) and receives structu

YC-Bench는 LLM 에이전트의 장기 계획과 일관된 실행 능력을 평가하기 위한 벤치마크로, 1년 동안 수백 턴을 거쳐 시뮬레이션된 스타트업을 운영하도록 하는 POMDP 기반 환경을 제공한다. 불충실한 클라이언트와 증가하는 급여 비용 등 적대적 동적 환경에서 직원 관리, 계약 선택, 현금 흐름 관리의 복합적 의사결정을 요구한다.

Motivation

Known: 기존 벤치마크들(VendingBench, AgentBench, TheAgentCompany 등)은 LLM 에이전트의 계획 능력을 평가하지만, 수백 턴에 걸친 지속적인 전략적 일관성(strategic coherence) 유지와 지연된 피드백에서의 학습, 초기 실수의 복합 효과 적응을 종합적으로 테스트하는 벤치마크는 부족했다.
Gap: 기존 벤치마크는 즉각적인 환경 반응이나 독립적인 문제들에 초점을 맞췄으나, 실제 비즈니스 운영에 필요한 불확실성 하에서의 계산된 위험 선택, 단기적으로는 최적이 아니지만 장기 보상을 목표로 하는 의사결정, 그리고 적대적이지만 숨겨진 클라이언트를 과거 경험으로 학습해 식별하는 능력을 충분히 평가하지 못했다.
Why: LLM 에이전트의 실제 응용이 점점 복잡한 장기 작업으로 확대되고 있으며, 이들이 수백 또는 수천 상호작용에 걸쳐 목표 달성을 유지하고, 지연된 피드백으로부터 학습하고, 초기 실수가 누적되는 상황에 대응할 수 있는지를 평가하는 것이 모델 성능 이해와 개선에 필수적이다.
Approach: YC-Bench는 deterministic하지만 미리 알려지지 않은 전이 및 관찰 동적을 갖는 POMDP 환경으로 설계되었다. 에이전트는 CLI 인터페이스를 통해 marketplace에서 계약을 선택하고, 직원을 할당하며, 월간 급여에 대한 현금 흐름을 관리한다. 약 1/3의 클라이언트는 신뢰할 수 없으며 이들의 작업은 의도적으로 실패하도록 설계되어, 에이전트는 자신의 성공/실패 이력을 분석해 이들을 식별해야 한다. 20턴의 context window는 에이전트가 persistent scratchpad를 사용하도록 강제하여, 적대적 클라이언트 정보를 기록하지 않으면 context 절단 후 동일한 실수를 반복하게 된다.

Achievement

Figure 2 Out of the 12 models that we benchmark on YC-Bench, 5 models are profitable and only 3 turn a substantial profi

12개 모델 벤치마크 결과: GPT-5.4, Claude Opus 4.6, GLM-5, Gemini, Grok 등 최신 frontier 모델과 open-source 모델 평가. Claude Opus 4.6이 평균 $1.27M으로 가장 높은 최종 자금을 달성했고, GLM-5는 11배 낮은 inference cost로 $1.21M 달성. 실패 분석: 12개 중 3개만 초기 자본 $200K를 초과하여 일관성 있게 성공. 주요 예측 인자: Scratchpad 사용이 성공의 가장 강력한 예측 인자. 실패 모드 분석: 적대적 클라이언트 식별 실패가 파산의 47% 차지, over-parallelization 등 distinct failure mode 발견.

How

Figure 3 We observe that better models are able to build client trust over time by strategically selecting clients. What

POMDP 기반 environment design으로 deterministic하지만 예측 불가능한 동적 구현
CLI 명령어(market browse, task accept, task inspect, sim resume, scratchpad write)를 통한 구조화된 에이전트-환경 상호작용
4개 도메인의 다양한 작업과 8개 직원의 다양한 기술 프로필로 복잡성 구성
신뢰도 시스템, prestige 게이팅, 적응적 급여 성장으로 compounding 동적 생성
20턴 context window 강제로 persistent scratchpad 메모리 필요성 구현
최종 자금을 단일 스칼라 성과 지표로 사용

Originality

적대적이지만 숨겨진 클라이언트 패러다임: VendingBench와 달리 adversarial 상태가 사전에 알려지지 않아, 에이전트가 과거 경험으로부터 학습해야 함
Multi-domain task allocation: 단순 가격 책정이 아닌 복잡한 인력 할당과 기술 매칭 문제 도입
정보 비대칭성: 직원의 숨겨진 기술률로 불완전 정보 게임 구현
Compounding financial dynamics: prestige decay, 반복 클라이언트 신뢰 축적, 급여 성장으로 누적 효과 모델링
Multi-episode learning framework: 재시작 간 적응 학습 능력 평가
Open-source 및 configurable 설계: 재현성과 확장성 보장

Limitation & Further Study

Simulation generalization: Simulated startup 환경이 실제 비즈니스 복잡성의 모든 측면을 포함하지 않으며, 에이전트의 실제 응용에 대한 전이 가능성 미검증. 제한된 모델 커버리지: 벤치마크가 2026년 모델들(GPT-5.4, Claude Opus 4.6 등)에 초점이 맞춰져 있어 시간이 지나면서 빠르게 구식화될 가능성. Context window 설정: 20턴 context window 선택이 임의적이며, 다른 window 크기에서의 성능 변화에 대한 ablation 부재. Scratchpad 의존성: 메모리 persistence가 scratchpad에만 제한되어, 더 정교한 메모리 아키텍처(external database, vector retrieval 등)의 활용 여부 미명시. 단일 성과 지표: 최종 자금만을 지표로 사용하여 중간 의사결정의 질, 리스크 관리 등을 세분화된 분석 불가능. 후속 연구: 더 넓은 모델 커버리지, 다양한 context window 크기에 대한 ablation study, 고급 메모리 메커니즘의 명시적 지원, 다중 성과 지표 개발이 필요함.

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

총평: YC-Bench는 LLM 에이전트의 장기 계획과 일관된 실행 능력을 평가하기 위한 잘 설계된 벤치마크로, 기존 벤치마크의 한계를 명확히 인식하고 이를 극복하는 혁신적인 환경을 제시한다. 12개 frontier 모델의 광범위한 평가, 체계적인 실패 모드 분석, open-source 제공으로 커뮤니티에 중요한 기여를 한다. 다만 simulation generalization, context window 설정의 정당성, 더 정교한 메모리 메커니즘 지원 등 보완이 필요하다.