OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists

Essence

본 논문은 기존 AI Scientist 시스템들의 고립적이고 독립적인 문제 해결 접근방식의 한계를 지적하고, 인간 과학 인프라의 사회적·협력적 메커니즘을 명시적으로 인코딩하는 OmniScientist 프레임워크를 제시한다. 데이터 기반, 문헌 검토, 연구 아이디어 도출, 실험 자동화, 과학 저술, 논문 검토의 전 주기에 걸쳐 end-to-end 자동화를 구현하면서도, 구조화된 지식 시스템, 협력 프로토콜(OSP), 평가 플랫폼(ScienceArena)을 통해 인간-AI 과학자의 공진화 생태계를 실현한다.

Motivation

Known: 기존 AI Scientist 시스템(AlphaEvolve, OpenAI Deep Research, Virtual Lab, Future House 등)은 과학적 발견을 고립된 검색 또는 최적화 문제로 공식화하여, 과학이 본질적으로 사회적이고 협력적인 활동임을 간과하고 있다. 인용 네트워크, 피어 리뷰, 협력 프로토콜 등 인간 과학 인프라의 구조적 메커니즘이 과학 발전의 핵심이다.
Gap: 기존 AI 과학자 시스템들은 과학적 업무 자동화에 초점을 맞추면서도, 과학 연구의 사회적·협력적 본질과 인간 과학 인프라의 복잡한 메커니즘(기여도 추적, 피어 리뷰, 구조화된 지식 네트워크 등)을 모델링하지 못해 진정한 연구 생태계를 구축하지 못하고 인간 과학 커뮤니티와 깊은 상호작용이 불가능하다.
Why: AI 과학자가 단순 업무 실행 도구에서 진정한 과학자로 진화하려면, 인간 과학 시스템의 동적이고 자기교정적인 특성을 상속받아야 한다. 이를 위해 인용 네트워크, 피어 리뷰, 협력 메커니즘 등 인간 과학 인프라의 근본적인 메커니즘을 AI 워크플로우에 명시적으로 통합하는 것이 필수적이다.
Approach: OmniScientist는 LLM 기반 멀티 에이전트 아키텍처를 기반으로, 백만 개 이상의 full-text 논문과 메타데이터로 구성된 robust한 데이터 기반을 구축하고, 이를 바탕으로 iterative한 문헌 검토, 과학 지식 네트워크 내에서의 연구 아이디어 도출, multi-agent loop를 통한 실험 자동화, 학술 규범을 따르는 과학 저술, 피어 리뷰 메커니즘을 순차적으로 구현한다. 추가로 Omni Scientific Protocol(OSP)을 통해 인간 연구자와 AI 에이전트의 seamless한 협력을 가능하게 하고, 기여도 추적 시스템으로 과학적 무결성을 보장하며, ScienceArena를 통해 blind pairwise user voting과 Elo ranking 기반의 평가 메커니즘을 제공한다.

Achievement

Figure 1: Overview of Our OmniScientist System

Data Foundation 구축: 100만 개 이상의 full-text 논문 및 메타데이터를 통합하여 citation network와 conceptual correlation을 포함한 동적 과학 네트워크 구성
End-to-end 자동화: 문헌 검토(multi-agent 기반 iterative 탐색), 연구 아이디어 도출(science of science 원리 활용), 실험 자동화(closed-loop feedback mechanism), 과학 저술(관련 연구 합성 및 figure 생성), 논문 검토(prior work 비교 기반 평가) 전주기의 자동화 달성
협력 인프라: OSP를 통해 인간 연구자의 seamless한 참여, 전략적 제안, 과정 개선을 가능하게 함
기여도 추적 시스템: 모든 아이디어, 데이터셋, 실험 결과의 출처를 granular하게 기록하여 특정 에이전트 또는 인간 참여자에게 credit 귀속
평가 플랫폼: ScienceArena에서 blind pairwise user voting과 Elo ranking 기반의 real-time ranking 시스템 구현
Case Study: STDE의 variance reduction(closed-loop experiment) 및 HLE challenge(human-AI collaboration) 사례를 통해 시스템의 실질적 효과 입증
평가 검증: citation이 문헌 검토 품질에 미치는 영향, novelty와 feasibility의 균형 있는 아이디어 도출, paper review에서 판별력과 간결성의 조화 등 핵심 설계 원리의 유효성 확인

How

Figure 2: The Multi-Agent Refinement Pipeline (left) and the Refined Data Structure (right).

문헌 검토: semantic guidance 기반의 iterative exploration을 통해 multi-agent 아키텍처로 연구 전경 파악 구현
연구 아이디어 도출: science of science 원리를 활용하여 citation network 내에서 개념을 탐색하고 refine하여 contextually grounded하고 methodologically rigorous한 가설 생성
실험 자동화: iterative multi-agent loop를 통해 실험 전략 생성, 평가, refinement를 수행하며 rigorous feedback mechanism으로 self-optimization 실현
과학 저술: 관련 연구 합성, figure 생성, 학술 규범에 따른 텍스트 refinement를 통합하여 publication-ready manuscript 생성
논문 검토: prior work와의 in-depth comparison을 통해 objective하고 actionable한 피드백 제공
OSP 프로토콜: 중앙화된 hub로 다중 참여자 engagement를 조율하고 external users를 internal participants로 전환하며 data provenance에서 contribution provenance로 발전
기여도 추적: granular한 provenance 기록 시스템으로 모든 요소의 출처와 기여자 명시
ScienceArena: blind pairwise user voting과 Elo-based real-time ranking으로 객관적이고 지속적인 평가 수행

Originality

인간 과학 인프라의 명시적 인코딩: 기존 AI Scientist 시스템들이 간과한 인용 네트워크, 피어 리뷰, 협력 메커니즘, 기여도 추적 등 인간 과학 시스템의 근본적 메커니즘을 AI 워크플로우에 최초로 명시적으로 통합
협력 과학 프로토콜(OSP) 제안: 인간 연구자와 AI 에이전트의 seamless한 협력을 가능하게 하는 standardized collaboration backbone으로서 기존 접근과 차별화
기여도 추적 시스템: 과학적 무결성을 보장하는 granular한 provenance 기록 메커니즘으로 credit attribution의 투명성과 공정성 확보
평가 생태계(ScienceArena) 구축: blind pairwise user voting과 Elo ranking 기반의 open evaluation platform으로 과학 커뮤니티의 직접적인 참여와 합의 형성 메커니즘 도입
공진화 생태계 비전: AI 과학자를 task executor에서 human-AI collaboration이 가능한 genuine scientist로 전환하는 통합적 프레임워크 제시

Limitation & Further Study

데이터 기반의 한계: 백만 개 수준의 논문 데이터는 전체 과학 문헌의 극히 일부이며, coverage gap으로 인해 emerging field나 non-English 문헌에 대한 제한된 접근성
LLM 능력의 의존성: 모든 주요 모듈이 LLM의 성능에 크게 의존하므로, LLM의 hallucination, 편향성, 과학 지식의 시간 경과에 따른 outdating 문제로 인한 오류 가능성
Case study의 제한성: STDE variance reduction과 HLE challenge 두 가지 사례만 제시되어 다양한 과학 분야에 대한 general generalizability 확인 부족
협력 메커니즘의 실제 효과성: OSP가 실제 인간-AI 협력에서 얼마나 효과적인지에 대한 large-scale empirical validation 부족
평가 메트릭의 신뢰성: ScienceArena의 blind pairwise user voting이 과학적 엄밀성을 충분히 반영하는지, evaluator의 편향성이 배제되는지에 대한 상세한 검증 부재
확장성과 비용: 대규모 데이터 기반 구축, 멀티 에이전트 운영, human evaluator 모집 등으로 인한 높은 computational cost와 operation cost
후속 연구: 더 다양한 과학 분야에서의 case study, fine-grained human-AI collaboration evaluation, contribution tracking system의 공정성 검증, ScienceArena 평가의 장기적 신뢰성 분석 필요

Evaluation

Novelty: 5/5 Technical Soundness: 4/5 Significance: 5/5 Clarity: 4/5 Overall: 4/5

총평: OmniScientist는 기존 AI Scientist 시스템의 고립성을 극복하고, 인간 과학 인프라의 사회적·협력적 메커니즘을 명시적으로 인코딩함으로써 AI 과학자의 진화에 대한 근본적인 시각 변화를 제시한다. End-to-end 자동화, 협력 프로토콜, 평가 생태계의 통합적 구현은 높은 야심적 목표이며, 이를 통해 인간-AI 공진화 생태계 구축의 가능성을 보여준다. 다만 제한된 사례 검증, LLM 의존성 문제, 실제 인간-AI 협력의 large-scale validation 부족 등이 개선 과제이다.

같이 보면 좋은 논문

기반 연구

Towards AI for science: developing a conceptual basis for transforming research support services in university libraries

Towards AI for science는 인간-과학 인프라와 AI의 통합적 협력 구조에 대한 개념적 논의를 제공하여 OmniScientist 로드맵의 이론적 기반이 됩니다.

다른 접근

Exploring collaboration mechanisms for llm agents: A social psychology view

Exploring collaboration mechanisms for llm agents 논문은 사회 시뮬레이션에서 LLM 기반 에이전트 협업 구조를 다루어 OmniScientist의 인간-에이전트 상호작용 설계와 비교가 가능합니다.

다른 접근

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 논문은 end-to-end 과학 자동화라는 유사 목표를 갖고 OmniScientist와 다른 프레임워크를 제안합니다.

다른 접근

Evaluating Sakana's AI Scientist for Autonomous Research: Wishful Thinking or an Emerging Reality Towards 'Artificial Research Intelligence'(ARI)? arXiv preprint arXiv:2502.14297, 2025.

Sakana의 AI Scientist 평가 논문은 자동화 연구시스템의 성능 검증 통찰을 제공하여, 인간-인공지능 협업형 프레임워크와 차별점을 비교할 수 있습니다.

다른 접근

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

OmniScientist 논문은 인간-AI 사회적 상호작용 및 장기간 시뮬레이션에서 에이전트 일관성과 학습을 모델링하여 Vending-Bench의 장기 에이전트 일관성 분석과 관련 깊다.

다른 접근

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

3389는 인간-에이전트 공진화적 평가 생태계를 논의하는 차세대 벤치마킹 접근으로, 090의 벤치마크와 대비된다.

후속 연구

Dynamic multi-agent orchestration and retrieval for multi-source question-answer systems using large language models

3389(OmniScientist)는 인간-에이전트 협력형 생태계 및 동적 검색-생성 에이전트 설계를 다루어, 295의 다중 에이전트 조정 구현을 확장합니다.

후속 연구

Cognitio emergens: Agency, dimensions, and dynamics in human-ai knowledge co-creation

인간-AI 지식 창출의 장기적, 생태계 관점에서 협력/공진화 모델을 자동화 연구 플랫품과 연결하여 구체화한다.

후속 연구

Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents

과학 탐구 분야에서 LLM 기반 AI Scientist 시스템 전반을 체계적으로 검토하고, OmniScientist 프레임워크와 유사한 사례를 정리합니다.

응용 사례

Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents

Vending-Bench 논문은 장기 과제 수행의 일관성 평가를 위한 프레임워크를 제시해, AI/인간 협업 기반 연구 시스템의 실행효과를 측정하는데 활용됩니다.

OmniScientist: Toward a Co-evolving Ecosystem of Human and AI Scientists

Essence

Motivation

Achievement

How

Originality

Limitation & Further Study

Evaluation

같이 보면 좋은 논문

🎧 Audio Overview