Large language models meet NLP: A survey

Motivation

Known:
- ChatGPT, GPT-series, PaLM, LLaMA 등 LLM이 놀라운 제로샷(zero-shot) 성능과 명령 따르기(instruction following), 연쇄 사고(chain-of-thought) 추론, 문맥 학습(in-context learning) 등 새로운 능력을 보임
- LLM이 추가 학습 데이터 없이도 기존 감독 학습 모델을 능가하는 경우 존재
Gap:
- LLM이 NLP 분야에 어떻게 적용되고 있는지에 대한 체계적이고 종합적인 조사 부재
- 기존 NLP 작업이 LLM으로 실제 해결되었는지 여부와 향후 발전 방향이 불명확
Why:
- LLM 기반 NLP 연구의 지수적 증가로 인해 현황을 정리하고 방향을 제시할 필요성 대두
Approach:
- 파라미터 동결 패러다임(parameter-frozen paradigm)과 파라미터 튜닝 패러다임(parameter-tuning paradigm)의 통합 분류법 제시
- NLP 이해(understanding) 및 생성(generation) 작업별 LLM 적용 현황 분석

Achievement

파라미터 동결(a) 및 파라미터 튜닝(b) 패러다임의 분류체계

첫 번째 종합 서베이 제공: LLM과 NLP의 관계를 다루는 첫 체계적 종합 조사로, 3가지 핵심 질문에 대한 답변 제시
새로운 분류 체계 제안:
- 파라미터 동결 패러다임: 제로샷 학습, 퓨샷 학습 (튜닝 불필요)
- 파라미터 튜닝 패러다임: 전체 파라미터 튜닝, 파라미터 효율적 튜닝 (LoRA, Prefix-tuning, QLoRA 등)
패러다임별 특성 분석:
새로운 연구 방향 제시: LLM for NLP의 미래 경향과 관련 도전 과제 논의
큐레이션된 자료 제공: 오픈소스 구현, 관련 코퍼스, 연구 논문 목록을 포함한 첫 LLM for NLP 자료집 구축

How

파라미터 동결 패러다임:

제로샷 학습: LLM의 명령 따르기 능력으로 지시문(instruction prompt) 기반 문제 해결
- 수식: P = Prompt(I), 여기서 I는 입력, P는 프롬프트 출력
- 감정 분석, 다국어 이해, 재무 속성 추론 등에 적용
퓨샷 학습: 문맥 학습(in-context learning) 능력으로 몇 가지 예제 기반 문제 해결
- 수식: P = Prompt(E, I), 여기서 E는 데모 예제
- 측면 기반 감정 분석, 감정 인식, 다중 LLM 협상 프레임워크 등에 활용

파라미터 튜닝 패러다임:

전체 파라미터 튜닝: 학습 데이터셋 D에서 모든 모델 파라미터 조정
- 수식: Ṁ = Fine-tune(M|D)
- 통합 감정 지시문, 작업별 지시문 설계
파라미터 효율적 튜닝(PET): 일부 파라미터 또는 추가 튜닝 가능 파라미터만 조정
- 수식: Ŵ = Fine-tune(W|D, M)
- LoRA, Adapter, Prefix-tuning, QLoRA 등 기법 활용
- 자원 제한 하에서 전체 튜닝 성능에 근접 달성

NLP 작업별 적용:

감정 분석(Sentiment Analysis): 텍스트의 감정 톤 파악 (긍정/부정 의견, 비판)
정보 추출(Information Extraction): 일반 텍스트에서 구조화된 정보 추출 (관계 추출, 개체명 인식, 사건 추출)
대화 이해(Dialogue Understanding): 멀티턴 대화 분석
표 이해(Table Understanding): 표 형식 데이터 처리

Originality

첫 번째 종합 서베이: LLM과 NLP의 관계를 다루는 최초의 체계적 조사 논문
통합 분류 체계: 파라미터 동결/튜닝이라는 명확한 이분법적 구조로 LLM 적응 방식을 체계화하여 상이한 접근법의 트레이드오프를 명확히 제시
정량적 비교 분석: 표 1에서 네 가지 패러다임의 학습 비용, 메모리, 지연시간, 정확도, 일반화 성능을 직접 비교
포괄적 범위: 이해(understanding) 및 생성(generation) 양대 NLP 작업 범주에 걸쳐 체계적으로 분석
실용적 자료 집합: 오픈소스 구현, 코퍼스, 논문 목록을 포함한 GitHub 자료집 제공으로 재현성과 접근성 향상

Limitation & Further Study

제한점:
- 완전한 논문 본문 미제시로 인한 정보 부족 (감정 분석, 정보 추출 섹션만 부분 제공)
- 각 NLP 작업별로 LLM의 성능 한계와 실패 사례에 대한 심화 분석 부족
- 계산 효율성과 에너지 비용에 대한 논의 제한적
후속 연구 방향:
- 도메인 특화 LLM의 개발 및 평가 (금융, 의료, 법률 등)
- 저자원 언어(low-resource language)에 대한 LLM 적응 방법론
- LLM의 환각(hallucination), 편향(bias), 해석 가능성(interpretability) 문제 해결
- 파라미터 효율적 튜닝과 모델 압축 기법의 융합
- 비영어권 NLP 작업에 대한 광범위한 실험

같이 보면 좋은 논문

기반 연구

A survey of reasoning with foundation models

LLM 기반 파운데이션 모델의 추론 기법 서베이를 통해 NLP 및 멀티태스킹 LLM 발전 흐름을 체계적으로 정리한 논문이다.

기반 연구

Gemma 2: Improving open language models at a practical size

Large language models meet NLP 서베이는 NLP 작업에서 LLM의 응용 및 향상 방법을 광범위하게 조사하므로 Gemma 2의 개선 방향의 맥락을 제공한다.

기반 연구

Comparing knowledge sources for open-domain scientific claim verification

과학적 사실 검증에서 다양한 NLP 기법이 어떻게 사용되는지 서베이하는 논문으로, 지식 소스와 IR 기법 비교평가의 이론적 배경이 된다.

기반 연구

A comprehensive survey on long context language modeling

대규모 언어모델의 전반적인 발전을 다루며 장문맥 모델의 기초를 제공하는 서베이이다.

기반 연구

Introspective growth: Automatically advancing llm expertise in technology judgment

Large language models meet NLP 논문은 LLM의 다양한 NLP 활용과 그 한계를 종합적으로 정리하여, 기술적 전문성 및 평가 프레임워크 진단의 이론적 토대가 된다.

기반 연구

Transferable enantioselectivity models from sparse data

475는 LLM 기반 자연어처리 기술이 화학 및 촉매 예측 문제에 어떻게 적용되는지 서베이하므로, 3269의 머신러닝 기반 예측 접근과 연관지어 참고할 만합니다.

다른 접근

A survey of large language models

A survey of large language models 논문은 LLM의 전반적 발전사를 다루며, NLP 특화 적용과 상호보완적으로 활용 가능하다.

다른 접근

Automl in the age of large language models: Current challenges, future opportunities and risks

AutoML과 대규모 언어 모델의 통합에 관한 관련 연구이다.

다른 접근

Foundation models for materials discovery – current state and future directions

Large language models meet NLP: A survey 논문은 재료과학이 아닌 다양한 도메인에서 파운데이션/LLM 모델 적용 사례와 한계를 논의해, 비교 토론에 도움 됩니다.

다른 접근

Generative AI and the Foundation Model Era: A Comprehensive Review

LLM과 자연어 처리 응용에 대한 서베이로, 생성형 AI와 파운데이션 모델 통합 발전사를 비교 고찰할 때 함께 참고하면 시너지가 크다.

후속 연구

A survey of large language models

475도 LLM에 관한 종합 서베이로, 026의 발전사 요약을 좀 더 NLP 내 역할과 성능 측면에서 확장 탐구한다.

후속 연구

Towards Scientific Discovery with Generative AI: Progress, Opportunities, and Challenges

Towards Scientific Discovery with Generative AI 서베이는 LLM의 과학적 응용에 초점을 맞추어 본 논문 논의의 진보된 사례를 다룹니다.

후속 연구

LLM4SR: A Survey on Large Language Models for Scientific Research

LLM4SR 논문은 LLM이 과학적 연구에서 어떻게 활용되고 평가되는지 세부적으로 다루어, NLP 중심 서베이의 내용을 과학적 문맥에 확장한다.

응용 사례

Evaluation of openai o1: Opportunities and challenges of agi

OpenAI O1의 AGI급 성능을 다양한 NLP·과학 작업에 적용 평가한 논문으로, LLM이 NLP 작업에서 어디까지 성과를 내는지 실질적으로 보여준다.

Large language models meet NLP: A survey

Essence

Motivation

Achievement

How

Originality

Limitation & Further Study

Evaluation

같이 보면 좋은 논문

🎧 Audio Overview