Building machines that learn and think with people

Motivation

Known: 현재 AI 시스템, 특히 대규모 언어 모델(LLM)은 자연언어 인터페이스를 통해 인간과 상호작용하며 일부 인지 작업에서 인간 수준의 성능을 보임
Gap: 기존 스케일링 기반 접근법(웹 규모 데이터와 인간 피드백을 통한 학습)은 인간의 행동을 모방하지만, 명시적 추론, 타자 이해, 세계 모델링 등 진정한 사고 파트너십에 필요한 인지 능력을 강건하게 시뮬레이션하지 못함
Why: 기술 발전에도 불구하고 프로그래밍 어시스턴트의 신뢰성 부족, 실구현 로봇의 계획 능력 한계, 의료 진단의 안전성 문제 등은 단순한 행동 모방 이상의 인간 중심 설계가 필요함을 보여줌
Approach: 계산인지과학(computational cognitive science)의 베이지안 접근법을 활용하여, 인간과 세계에 대한 명시적 구조화된 모델을 구축하고 추론하는 AI 시스템 설계 방안 제시

협력적 사고의 모드 체계화: 협력적 계획(collaborative planning), 협력적 학습(collaborative learning), 협력적 숙의(collaborative deliberation), 협력적 의미 파악(collaborative sense-making), 협력적 창작(collaborative creation)의 5가지 주요 모드를 정의하고, 각 모드별 핵심 과제(예: 신뢰할 수 있는 목표 추론, 개인화된 학습 속도, 검증 가능한 추론)를 명확히 제시
다영역 실제 사례 분석: 프로그래밍 어시스턴트, 구체화된 보조 로봇(embodied assistive robots), 창작 지원(storytelling), 의료 진단 등 4개 도메인에서 현재 기술의 한계와 사고 파트너십의 요구사항을 구체적으로 분석
설계 원칙(desiderata) 제안: 효과적인 인간-호환 사고 파트너십을 위한 3가지 필수 요건 제시:
- 인간을 이해할 수 있는 능력(understand us)
- 인간이 이해 가능한 설명성(we can understand)
- 공통의 기반이 되는 세계 이해(understanding of world)

WatChat이 사용자의 오류가 있는 정신 모델을 추론하는 사례

베이지안 프레임워크 채택: 확률 생성 모델(probabilistic generative models)을 통해 인간과 세계에 대한 명시적 모델을 구축하고, 관찰된 행동과 진술로부터 숨겨진 신념, 의도, 목표를 추론
구조화된 표현 결합: 기초 모델(foundation models)과 확률 프로그래밍(probabilistic programming), 목표 지향 탐색(goal-directed search), 에이전트 추론(agent reasoning)을 통합하여 단순한 분포 학습(distributional learning)을 넘어선 체계적 추론 능력 구현
자원 합리성 원칙 적용: 제한된 작업 메모리 등 인간의 인지적 제약을 이해하고, 이를 모델에 반영하여 인간-호환적 설계 달성
불확실성 명시화: 시스템이 자신의 불확실성을 표현하고, 인간의 신념과 목표에 대한 불확실성을 추론하며, 이를 협력 과정에 반영
반복적 학습과 적응: 상호작용을 통해 인간의 정신 모델을 지속적으로 업데이트하고, 개인의 지식과 선호도에 맞춰 맞춤형 지원 제공

이론의 실제 구현 격차: 제시된 베이지안 모델링 접근법의 구체적인 구현 사례와 성과에 대한 실증적 증거가 논문 범위 내에서 제한적임. 특히 복잡한 현실 도메인에서의 확장성에 대한 검증 부족
계산 복잡성 미해결: 인간과 세계의 명시적 모델을 구축하고 유지하는 계산 비용이 대규모 데이터 학습보다 효율적인지에 대한 분석 부족
인간의 다양성 고려 미흡: 서로 다른 배경, 전문성, 인지 스타일을 가진 사용자 집단에 대한 분화된 접근이 체계화되지 않음
후속 연구 방향:
- 각 협력 모드별 구체적인 알고리즘 및 아키텍처 개발
- 도메인별로 설계된 사고 파트너의 사용자 연구를 통한 효과성 검증
- 인간-AI 협력 시스템의 장기 영향 평가
- 윤리적 가치 정렬과 신뢰 메커니즘의 구현 방안
- 하이브리드 인간-AI 팀의 성능 최적화 연구