Augmented Language Models: a Survey

저자: G. Mialon, Roberto Dessì, M. Lomeli, Christoforos Nalmpantis, Ramakanth Pasunuru | 날짜: 2023 | DOI: arXiv:2302.07842 📄 PDF

Essence

본 논문은 언어 모델(Language Models, LMs)을 추론 능력과 도구 사용 능력으로 확대하는 증강 언어 모델(Augmented Language Models, ALMs)에 대한 포괄적인 조사 논문이다. ALMs는 복잡한 작업을 단순한 부작업으로 분해하거나 외부 모듈(코드 인터프리터, 검색 엔진 등)을 활용하여 기존 LMs의 해석 가능성, 일관성, 확장성 문제를 해결할 수 있다.

Motivation

Known:
- 대규모 언어 모델(LLMs)은 NLP에서 극적인 진전을 이루었으나, 환각(hallucination), 산술 오류, 추론 체인의 일관성 문제 등 심각한 한계를 지님
- 기존 LMs는 단일 매개변수 모델과 제한된 문맥(n개의 이전 토큰)에만 의존하여 학습됨
Gap:
- LMs의 성능 향상을 위해 추론과 도구 사용을 별도로 다루는 연구가 다수 존재하지만, 이들을 체계적으로 통합하는 프레임워크와 분류체계가 부재함
- 서로 다른 의도로 사용되는 기술 용어들이 정의되지 않아 커뮤니티 간 소통의 어려움 존재
Why:
- 추론과 도구의 결합은 휴리스틱 없이도 복잡한 작업을 해결할 수 있으며, 더 나은 일반화 성능을 제공
- 추론은 LM이 문제를 부작업으로 분해하도록 유도하고, 도구는 각 단계를 올바르게 수행하도록 보조 (상호보완적)
Approach:
- 추론(Reasoning), 도구 및 행동(Using Tools and Act), 학습 방법(Learning)의 세 축으로 ALM 관련 연구를 분류
- 각 범주에서 최신 연구 동향과 기술을 체계적으로 검토하고 한계를 분석

Achievement

추론 능력 강화:
- 프롬팅을 통한 추론 유도(Chain-of-Thought, 재귀적 프롬팅)
- 작업 메모리(Working Memory)와 반복적 프롬팅 활용
- 명시적 학습을 통한 추론 능력 개선
도구 활용 확대:
- 다른 모델 호출, 정보 검색(문서 검색, 검색 엔진, 웹 네비게이션)
- 코드 인터프리터와 기호 모듈을 통한 계산
- 가상/물리 세계에 대한 행동(로봇 조작 등)
학습 방법론 다양화:
- 지도 학습(Supervision), 강화 학습(Reinforcement Learning)을 통한 ALM 학습
- 휴리스틱 기반 접근과 학습 기반 접근의 비교

How

추론 방법:
- Few-shot Chain-of-Thought: 중간 단계 예시를 통한 유도
- Zero-shot Chain-of-Thought: "Let's think step by step" 같은 트리거 프롬프트
- 재귀적/반복적 분해: 복잡한 문제를 체계적으로 부분 문제로 분해
- 명시적 학습: 훈련 데이터를 통해 추론 능력을 직접 학습
도구 통합 메커니즘:
- 규칙 또는 특수 토큰을 통한 도구 호출
- 도구 출력을 LM의 문맥에 포함시켜 다음 토큰 예측에 활용
- 정보 검색 도구(Retrieval-Augmented Generation, RAG)
- 코드 실행 환경을 통한 수학 계산 및 논리 연산
학습 전략:
- 감독 신호(라벨된 추론 체인)를 통한 지도 학습
- 강화 학습을 통한 자율적 도구 사용 학습
- 휴리스틱과 학습의 결합

Originality

포괄적 분류체계: 추론과 도구 사용을 동일한 프레임워크에서 다루는 최초의 체계적 분류 (기존 연구는 이들을 분리하여 다룸)
명확한 정의: "추론", "도구", "행동"에 대한 기술적 정의를 제공하여 커뮤니티 간 개념의 혼동 해소
ALM 개념의 도입: 순수 언어 모델링 패러다임을 벗어나 매개변수 외부의 모듈을 활용하는 새로운 모델 범주를 제시
통합적 관점: 추론과 도구가 모두 LM의 문맥을 확장하여 토큰 예측을 개선한다는 통일된 설명 제공
실무적 관점: 추론이 현재 기술 수준에서 "진정한 추론"인지 불명확하다는 점을 인정하면서도 실용적 정의를 제시

Limitation & Further Study

이론적 한계:
- ALMs가 실제로 "추론"하는지 아니면 단순히 더 큰 문맥을 생성하여 토큰 예측 확률을 증가시키는지 명확하지 않음 (Huang and Chang, 2022의 논의 필요)
- 복잡한 추론 문제에서 LMs가 계속 실패하는 이유에 대한 깊이 있는 분석 부족
실무적 한계:
- 도구 호출의 정확성: LM이 올바른 도구와 시점을 선택하는 데 실패할 수 있음
- 문맥 크기 제약: ALMs도 여전히 유한한 문맥 크기로 제한되어 있음
- 확장성 문제: 지속적 학습(continual learning)에서 ALMs의 효율성 불명확
후속 연구 방향:
- ALMs의 해석 가능성 향상: 도구 호출과 추론 경로의 투명성 확보
- 강화 학습을 통한 자율적 도구 사용 학습의 더 효율적 방법론 개발
- 물리적 세계에서의 행동 학습: 로봇 조작 등 실제 환경에서의 ALM 적용
- 멀티-스텝 추론에서의 오류 전파 문제 해결

Evaluation

Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4.5/5 Overall: 4.4/5

총평: 본 논문은 빠르게 발전하는 ALM 분야를 체계적으로 정리한 우수한 서베이로, 추론과 도구 사용을 통합적으로 다루고 명확한 분류체계를 제시하여 커뮤니티에 실질적 기여를 한다. 다만 일부 핵심 개념의 철학적 기초가 여전히 명확하지 않다는 한계가 있다.

같이 보면 좋은 논문

기반 연구

SciBERT: A Pretrained Language Model for Scientific Text

증강 언어모델의 서베이에서 SciBERT와 같이 도메인 특화 사전훈련 LLM의 원리 및 확장사례를 설명합니다.

기반 연구

REALM: Retrieval-Augmented Language Model Pre-Training

Augmented Language Models 논문은 REALM과 같이 외부 검색 기능을 결합한 RAG형 LLM의 다양한 사례와 이론을 제공합니다.

기반 연구

TLDR: Extreme Summarization of Scientific Documents

증강 언어모델 서베이는 논문 요약 및 학술문서 처리에 LLM 도구 결합의 이론적/기술적 토대를 제공합니다.

기반 연구

ReAct: Synergizing Reasoning and Acting in Language Models

ReAct 프레임워크는 reasoning-acting 동시 제어와 외부 도구 연동으로, 증강 LLM 능력의 실질적 구현 기반을 제공한다.

기반 연구

A survey of reasoning with foundation models

LLM의 기반 아키텍처와 능력을 설명하는 기초 서베이 연구이다.

기반 연구

What ChatGPT and generative AI mean for science

Augmented Language Models: a Survey 논문은 ChatGPT 및 생성형 AI가 과학 연구 환경에서 어떻게 기능이 확장되는지, 작동 원리를 전체적으로 설명합니다.

기반 연구

Toolformer: Language Models Can Teach Themselves to Use Tools

Toolformer 논문은 LLM 스스로 외부 도구 사용법을 획득하는 증강 LLM 개념의 기술적 바탕을 제공합니다.

기반 연구

Pre: A peer review based large language model evaluator

Augmented Language Models: a Survey 논문은 LLM을 기반으로 다양한 평가·보정 방법의 이론적 배경을 정리합니다.

기반 연구

Systematic Framework of Application Methods for Large Language Models in Language Sciences

대규모 언어모델 활용 방법론의 현황과 분류를 심도 있게 다뤄 본 논문의 체계적 프레임워크에 이론적 기반을 제공합니다.

다른 접근

Gemini: a family of highly capable multimodal models

Gemini와 같은 멀티모달 LLM의 개념적 진화는 증강모델 서베이의 논의 틀 안에서 중요한 비교 사례입니다.

다른 접근

GPT-4 Technical Report

Augmented Language Models 논문은 LLM을 외부 도구와 결합한 확장된 활용 방식으로 GPT-4의 기저적 개념에 대안적 시각을 제시합니다.

다른 접근

Evaluation of openai o1: Opportunities and challenges of agi

대규모 언어 모델의 추론 능력과 AGI 가능성에 대한 유사한 평가 연구이다.

다른 접근

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Augmented Language Models 리뷰는 에이전트 지능 구조가 아니라, 도구 사용과 추론 확장에 집중한 증강 LLM 전체 조사를 제공한다.

다른 접근

What are the best AI tools for research? Nature's guide

AI 시스템의 능력 확장과 통합을 위한 방법론적 접근법을 종합적으로 조사한다.

후속 연구

LLM With Tools: A Survey

LLM With Tools 논문은 외부 툴 결합 LLM의 진화 및 다양한 사례를 서베이하여 증강 언어모델 논의의 최신 확장 방향을 제공합니다.

후속 연구

A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models

RAG 시스템을 특정 응용 분야에 확장 적용한 연구이다.

후속 연구

SciCode: A Research Coding Benchmark Curated by Scientists

Augmented Language Models 논문은 외부 도구 및 환경과 결합된 LLM 응용을 폭넓게 정리하여 SciCode의 벤치마크 활용 방향을 제시합니다.

후속 연구

AAAR-1.0: Assessing AI's Potential to Assist Research

Augmented Language Models: a Survey는 AAAR-1.0 벤치마크가 평가하는 다양한 AI 보조 연구 작업과 증강 모델의 이론적 기반을 제공합니다.

응용 사례

Toolformer: Language Models Can Teach Themselves to Use Tools

Augmented Language Models: a Survey는 Toolformer와 같은 도구 활용 기반 LLM의 선행 사례와 이론적 배경을 체계적으로 분석합니다.

응용 사례

HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction

HLM-Cite 논문은 증강 언어 모델의 실제 과학 논문 인용 예측 문제에 적용된 실증적 활용 사례입니다.

← 목록으로 돌아가기