Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Motivation

Known: LLM 기반 에이전트는 ReAct, Reflexion, Voyager 같은 방법들을 통해 기본적인 반성과 내부 추론 능력을 보여주고 있으나, 이들은 주로 프롬프트 수준의 휴리스틱에 의존하며 장기 학습을 위한 체계적 아키텍처가 부족하다. 강화학습과 AutoML은 특정 부분 작업 최적화에만 집중되어 있다.
Gap: 현재의 LLM 에이전트는 정적 사전학습과 경직된 워크플로우에 의존하며 지속적 적응 메커니즘이 부족하다. 실세계 복잡한 다단계 작업에서 인간 수준의 학습 능력을 달성하지 못하고 있으며, 기존 방법들은 동적 환경에서 내부 전략의 체계적 적응이 불가능하다.
Why: 인간 전문성은 반복적인 상호작용, 반성, 내부 모델 업데이트의 순환에서 비롯되는데, 현재 AI 시스템들이 이러한 과정을 모델링하지 못하고 있다. 또한 실제 경쟁 환경(Kaggle)에서 인간 전문가 수준의 성능을 달성한 완전 자율 시스템이 없었으며, 이는 일반화 능력 있는 AI를 위한 중요한 이정표가 된다.
Approach: Kolb의 경험 학습 사이클(구체적 경험, 반성적 관찰, 추상적 개념화, 능동적 실험)과 Vygotsky의 ZPD를 계산적으로 구현하여, 외재적 함수(환경 상호작용)와 내재적 함수(내부 반성 및 추상화)를 분리하는 모듈식 아키텍처를 설계했다. LLM 호출을 통해 반사-행동 루프를 반복하며, 구조화된 환경에서 개방형 작업으로 진행되는 2단계 스캐폴딩 학습 구조를 적용했다.

Achievement

Figure 4. Comparison of Agent K’s Elo-MMR score with that of human participants. The

Agent K의 주요 성과: 1. Kaggle 81개 작업에서 완전 자율 데이터 과학 파이프라인 구현 및 Elo-MMR 1694 달성 (Kaggle 상위 2% Masters 중앙값 초과), 2. 상금 경쟁에서 4금 4은 메달 수준 성능, 다양한 타입 경쟁에서 5금 8은 12동 메달 수준 성능 달성, 3. 표 형식, 컴퓨터 비전, 자연어 처리 등 다양한 영역에서 일관된 인간 경쟁 수준 성능 증명, 4. 기존 자동화 방법(AutoML 등)과 달리 전체 데이터 과학 파이프라인을 자율적으로 관리하면서도 공식 최종 리더보드에서 인간 참가자와 직접 비교.

How

Figure 7. Two-stage scaffolded learning environment in Agent K. In the Workspace Scaf-

Kolb 사이클을 계산적으로 모델링하여 외재적 함수(코드 실행, 행동 선택, 피드백 수집)와 내재적 함수(반성, 추상화, 가설 수립, 전략 적응)를 동적으로 교대로 수행
구체적 경험→반성적 관찰→추상적 개념화→능동적 실험의 4단계 순환 구조 구현
2단계 스캐폴딩: 초기에는 구조화된 지원 환경에서 학습 후 개방형 일반화로 진환
상태 변환을 통한 자율 적응(기울기 기반 모델 파라미터 업데이트 대신)
LLM의 개방형 입출력 특성을 활용하여 비구조화된 동적 환경에 대응

Evaluation

Novelty: 4/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5

총평: 본 논문은 인지 과학 이론을 기반으로 LLM 에이전트의 구조화된 학습 프레임워크를 제시하고, 실제 경쟁 환경에서 인간 수준의 성능을 달성함으로써 일반화 능력 있는 AI 개발에 의미 있는 진전을 보였다. Kolb의 경험 학습 이론과 Vygotsky의 ZPD를 계산적으로 구현한 시도는 독창적이며, Kaggle에서의 광범위한 실증적 검증은 방법론의 실용성을 입증한다. 다만 특정 도메인 최적화, 계산 비용 상세화, 타 영역 일반화 가능성에 대한 추가 연구가 필요하다.