InterFeedback: Unveiling interactive intelligence of large multimodal models via human feedback

Essence

그림 1: 대화형 피드백 시나리오 예시. 모델이 잘못된 응답을 생성할 때 인간 사용자가 관련 피드백을 제공하여 답변을 상호작용적으로 개선함

대형 다중모달 모델(LMM)이 인간의 피드백을 통해 자신의 응답을 개선할 수 있는 상호작용 능력을 평가하는 최초의 벤치마크를 제시한다. 기존 벤치마크들이 정적 평가에 집중한 반면, 본 연구는 대화형 인간-AI 상호작용 시나리오에서의 모델 성능을 측정한다.

Known: 최신 LMM들(GPT-4o, Qwen2-VL, LLaVA 등)은 단일 라운드 다중모달 과제 해결에서 탁월한 성능을 보임
Gap: 기존 벤치마크들은 LMM의 정적 문제해결 능력만 평가하며, 인간 피드백을 통한 점진적 개선 능력은 거의 평가되지 않음
Why: 일반적인 AI 어시스턴트 개발에는 두 가지 핵심 능력이 필요: (1) 우수한 문제해결 능력 (2) 피드백을 통한 자기 개선 능력. 현재 이 두 번째 능력은 충분히 검토되지 않았음
Approach: 프로프라이터리 모델(GPT-4o)을 인간 역할로 사용하여 자동화된 피드백을 생성하고, 테스트 데이터를 정확히 선별하는 InterFeedback 프레임워크 제안

그림 2: InterFeedback-Bench의 테스트 데이터 구성 프로세스. 각 LMM별로 피드백 수신자가 실패한 사례(음성 집합)와 피드백 제공자가 성공한 사례(양성 집합)의 교집합을 선별

InterFeedback 프레임워크: 모든 LMM과 데이터셋에 적용 가능한 확장성 있는 상호작용 평가 프레임워크 개발. POMDP(부분 관찰 가능 마르코프 결정 과정) 형식으로 상호작용 문제해결 과정을 수식화
InterFeedback-Bench 벤치마크: MMMU-Pro(1,730개)와 MathVerse(3,940개) 데이터셋을 이용하여 10개의 오픈소스 LMM 평가, 그리고 GPT-4o, OpenAI-o1, Claude-Sonnet-4 등 4개 프로프라이터리 모델의 인간 평가 수행
InterFeedback-Human 데이터셋: 프로프라이터리 모델의 상호작용 성능을 수동으로 테스트하기 위해 120개 사례로 구성된 새로운 수집 데이터셋 제시
주요 발견:
- OpenAI-o1을 포함한 최신 모델도 피드백 기반 응답 개선에서 평균 50% 미만의 성능을 보임
- 대부분의 LMM이 피드백 해석 및 통합에 최적화되지 않은 성능 발휘
- 고품질 피드백의 중요성: 낮은 품질의 피드백은 단순 이진 정확성 신호보다도 더 성능을 저하시킴
- 모델이 진정한 추론보다는 추측에 의존하는 경우 발견

그림 3: 모델의 자기개선 능력을 평가하기 위한 제안된 InterFeedback 프레임워크 개요

POMDP 형식화: 자연어 질문 q와 이미지 v를 입력으로 받아, 모델이 관찰(O)에서 상태(S)를 인식하고 행동(A)을 생성. 보상 함수 R은 예측 답변과 정답의 정확도 매칭(0 또는 1)을 반환
데이터 선별 프로세스:
- 피드백 수신자(Mr) LMM이 실패한 과제들의 음성 집합(Un) 구성
- 피드백 제공자(Mp) LMM이 성공한 과제들의 양성 집합(Up) 구성
- 교집합(Utest = Un ∩ Up) 선별을 통해 신뢰할 수 있는 피드백만 사용
InterFeedback 프레임워크:
- 피드백 수신자(Mr): 평가 대상 LMM으로 다중 라운드 상호작용 수행
- 피드백 제공자(Mp): 프로프라이터리 모델(GPT-4o, Claude)이 인간 피드백 시뮬레이션
- 반복 라운드를 통해 모델이 피드백을 통합하고 개선된 답변 생성

최초 시도: LMM의 인간 피드백을 통한 상호작용 개선 능력을 체계적으로 평가하는 첫 벤치마크 제시
신뢰성 있는 피드백 생성: 기존 사용자 시뮬레이션 연구와 달리, 교집합 선별을 통해 피드백 제공자의 신뢰성 보장 (음성/양성 집합 교차 검증)
POMDP 형식화: 다중 라운드 상호작용 문제해결을 엄격한 수학적 틀로 표현
다층적 평가: 자동화된 벤치마크와 인간 평가를 결합하여 종합적 검증
광범위한 모델 커버리지: 오픈소스(10개) 및 프로프라이터리 모델(4개) 모두 평가

제한사항:
- 피드백 제공자(Mp)의 정확성 자체가 제한되므로, 완벽한 피드백을 보장하지 못함 (MMMU-Pro에서 GPT-4o도 64.7% 정확도)
- 교집합 선별 방식으로 인해 각 모델별 테스트 데이터셋이 상이하여 직접 비교의 공정성 문제 가능
- 피드백 형식이 자연언어로 제한되어, 시각적 피드백이나 다른 상호작용 양식은 미포함
- 인간 평가(InterFeedback-Human)의 샘플 수가 120개로 상대적으로 제한적
후속 연구 방향:
- LMM의 피드백 이해 및 통합 능력을 향상시키는 새로운 학습 방법(fine-tuning, instruction tuning) 개발
- 다양한 피드백 유형(정정, 설명, 시각적 힌트)의 효과 분석
- 더 큰 규모의 인간 평가 데이터셋 구축으로 벤치마크 확장
- 모델의 진정한 추론 능력 vs. 추측 행동을 구분하는 진단 방법 개발