InterFeedback: Unveiling interactive intelligence of large multimodal models via human feedback

์ €์ž: Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou | ๋‚ ์งœ: 2025 | DOI: N/A 📄 PDF


Essence

Figure 1

๊ทธ๋ฆผ 1: ๋Œ€ํ™”ํ˜• ํ”ผ๋“œ๋ฐฑ ์‹œ๋‚˜๋ฆฌ์˜ค ์˜ˆ์‹œ. ๋ชจ๋ธ์ด ์ž˜๋ชป๋œ ์‘๋‹ต์„ ์ƒ์„ฑํ•  ๋•Œ ์ธ๊ฐ„ ์‚ฌ์šฉ์ž๊ฐ€ ๊ด€๋ จ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•˜์—ฌ ๋‹ต๋ณ€์„ ์ƒํ˜ธ์ž‘์šฉ์ ์œผ๋กœ ๊ฐœ์„ ํ•จ

๋Œ€ํ˜• ๋‹ค์ค‘๋ชจ๋‹ฌ ๋ชจ๋ธ(LMM)์ด ์ธ๊ฐ„์˜ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ด ์ž์‹ ์˜ ์‘๋‹ต์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒํ˜ธ์ž‘์šฉ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ตœ์ดˆ์˜ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ๋“ค์ด ์ •์  ํ‰๊ฐ€์— ์ง‘์ค‘ํ•œ ๋ฐ˜๋ฉด, ๋ณธ ์—ฐ๊ตฌ๋Š” ๋Œ€ํ™”ํ˜• ์ธ๊ฐ„-AI ์ƒํ˜ธ์ž‘์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ์˜ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

๊ทธ๋ฆผ 2: InterFeedback-Bench์˜ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ ํ”„๋กœ์„ธ์Šค. ๊ฐ LMM๋ณ„๋กœ ํ”ผ๋“œ๋ฐฑ ์ˆ˜์‹ ์ž๊ฐ€ ์‹คํŒจํ•œ ์‚ฌ๋ก€(์Œ์„ฑ ์ง‘ํ•ฉ)์™€ ํ”ผ๋“œ๋ฐฑ ์ œ๊ณต์ž๊ฐ€ ์„ฑ๊ณตํ•œ ์‚ฌ๋ก€(์–‘์„ฑ ์ง‘ํ•ฉ)์˜ ๊ต์ง‘ํ•ฉ์„ ์„ ๋ณ„

  1. InterFeedback ํ”„๋ ˆ์ž„์›Œํฌ: ๋ชจ๋“  LMM๊ณผ ๋ฐ์ดํ„ฐ์…‹์— ์ ์šฉ ๊ฐ€๋Šฅํ•œ ํ™•์žฅ์„ฑ ์žˆ๋Š” ์ƒํ˜ธ์ž‘์šฉ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ๋ฐœ. POMDP(๋ถ€๋ถ„ ๊ด€์ฐฐ ๊ฐ€๋Šฅ ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •) ํ˜•์‹์œผ๋กœ ์ƒํ˜ธ์ž‘์šฉ ๋ฌธ์ œํ•ด๊ฒฐ ๊ณผ์ •์„ ์ˆ˜์‹ํ™”
  2. InterFeedback-Bench ๋ฒค์น˜๋งˆํฌ: MMMU-Pro(1,730๊ฐœ)์™€ MathVerse(3,940๊ฐœ) ๋ฐ์ดํ„ฐ์…‹์„ ์ด์šฉํ•˜์—ฌ 10๊ฐœ์˜ ์˜คํ”ˆ์†Œ์Šค LMM ํ‰๊ฐ€, ๊ทธ๋ฆฌ๊ณ  GPT-4o, OpenAI-o1, Claude-Sonnet-4 ๋“ฑ 4๊ฐœ ํ”„๋กœํ”„๋ผ์ดํ„ฐ๋ฆฌ ๋ชจ๋ธ์˜ ์ธ๊ฐ„ ํ‰๊ฐ€ ์ˆ˜ํ–‰
  3. InterFeedback-Human ๋ฐ์ดํ„ฐ์…‹: ํ”„๋กœํ”„๋ผ์ดํ„ฐ๋ฆฌ ๋ชจ๋ธ์˜ ์ƒํ˜ธ์ž‘์šฉ ์„ฑ๋Šฅ์„ ์ˆ˜๋™์œผ๋กœ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•ด 120๊ฐœ ์‚ฌ๋ก€๋กœ ๊ตฌ์„ฑ๋œ ์ƒˆ๋กœ์šด ์ˆ˜์ง‘ ๋ฐ์ดํ„ฐ์…‹ ์ œ์‹œ
  4. ์ฃผ์š” ๋ฐœ๊ฒฌ:
    • OpenAI-o1์„ ํฌํ•จํ•œ ์ตœ์‹  ๋ชจ๋ธ๋„ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ์‘๋‹ต ๊ฐœ์„ ์—์„œ ํ‰๊ท  50% ๋ฏธ๋งŒ์˜ ์„ฑ๋Šฅ์„ ๋ณด์ž„
    • ๋Œ€๋ถ€๋ถ„์˜ LMM์ด ํ”ผ๋“œ๋ฐฑ ํ•ด์„ ๋ฐ ํ†ตํ•ฉ์— ์ตœ์ ํ™”๋˜์ง€ ์•Š์€ ์„ฑ๋Šฅ ๋ฐœํœ˜
    • ๊ณ ํ’ˆ์งˆ ํ”ผ๋“œ๋ฐฑ์˜ ์ค‘์š”์„ฑ: ๋‚ฎ์€ ํ’ˆ์งˆ์˜ ํ”ผ๋“œ๋ฐฑ์€ ๋‹จ์ˆœ ์ด์ง„ ์ •ํ™•์„ฑ ์‹ ํ˜ธ๋ณด๋‹ค๋„ ๋” ์„ฑ๋Šฅ์„ ์ €ํ•˜์‹œํ‚ด
    • ๋ชจ๋ธ์ด ์ง„์ •ํ•œ ์ถ”๋ก ๋ณด๋‹ค๋Š” ์ถ”์ธก์— ์˜์กดํ•˜๋Š” ๊ฒฝ์šฐ ๋ฐœ๊ฒฌ

How

Figure 3

๊ทธ๋ฆผ 3: ๋ชจ๋ธ์˜ ์ž๊ธฐ๊ฐœ์„  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ œ์•ˆ๋œ InterFeedback ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š”

์ž๋™ํ™”๋œ ์ƒํ˜ธ์ž‘์šฉ ๋ฒค์น˜๋งˆํ‚น (Automated Interactive Benchmarking)

์ธ๊ฐ„ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ (Human-based Evaluation)

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LMM์˜ ์ƒํ˜ธ์ž‘์šฉ ์ง€๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ค‘์š”ํ•˜๋ฉด์„œ๋„ ๋ฏธ๊ฐœ์ฒ™๋œ ์˜์—ญ์— ์ตœ์ดˆ๋กœ ์ ‘๊ทผํ•˜๋ฉฐ, ์ž๋™ํ™”๋œ ๋ฒค์น˜๋งˆํฌ์™€ ์ธ๊ฐ„ ํ‰๊ฐ€๋ฅผ ๊ฒฐํ•ฉํ•œ ํฌ๊ด„์  ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•œ๋‹ค. ๋‹ค๋งŒ, ํ˜„์žฌ ๋ชจ๋“  ๋ชจ๋ธ์˜ ๋‚ฎ์€ ์„ฑ๋Šฅ๊ณผ ํ”ผ๋“œ๋ฐฑ ์ œ๊ณต์ž์˜ ์™„๋ฒฝ์„ฑ ๋ฏธ๋‹ฌ ๋ฌธ์ œ๋Š” ๋ฒค์น˜๋งˆํฌ์˜ ์‹ค์šฉ์„ฑ์„ ๋‹ค์†Œ ์ œํ•œํ•˜๋ฉฐ, ํ›„์† ์—ฐ๊ตฌ์—์„œ ๋ชจ๋ธ ๊ฐœ์„  ๋ฐฉ๋ฒ•๋ก ์ด ํ•จ๊ป˜ ์ œ์‹œ๋˜์–ด์•ผ ํ•  ๊ฒƒ์œผ๋กœ ํŒ๋‹จ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋ชจ๋ธ์˜ ์ž์ฒด feedback ๊ธฐ๋ฐ˜ ๋ฐ˜๋ณต ๊ฐœ์„  ์—ฐ๊ตฌ๋กœ, ์ƒํ˜ธ์ž‘์šฉ ์† ์ž๊ธฐ๊ฐœ์„  ๊ฐ€๋Šฅ์„ฑ ๋ฐ ํ•œ๊ณ„๋ฅผ ์ด๋ก ์ ์œผ๋กœ ๋’ท๋ฐ›์นจํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ธ๊ฐ„-๋ชจ๋ธ ์ƒํ˜ธ์ž‘์šฉ ๊ธฐ๋ฐ˜ ํ”ผ๋“œ๋ฐฑ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ๋…ผ์˜๊ฐ€ LLM ๊ธฐ๋ฐ˜ ์ž๋™ ๋™๋ฃŒํ‰๊ฐ€ ์‹œ์Šคํ…œ์˜ ํ‰๊ฐ€ ๋ฐฉํ–ฅ์— ์ด๋ก ์ ์œผ๋กœ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLMs as Research Tools ๋…ผ๋ฌธ์€ ์—ฐ๊ตฌ์ž์™€ LMM ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ/ํ”ผ๋“œ๋ฐฑ ์„ค๊ณ„์— ๊ด€์‹ฌ์ด ์žˆ์œผ๋ฉฐ, InterFeedback์˜ ๋Œ€ํ™”ํ˜• ์ƒํ˜ธ์ž‘์šฉ ํ‰๊ฐ€์— ์ด๋ก ์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ ํ‰๊ฐ€ ๋ฐ ๋น„๊ต๋ฅผ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ช…์‹œ์  ํ”ผ๋“œ๋ฐฑ ์—†์ด LLM ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋‹ค๋ฅธ ์•”๋ฌต์  ํ•™์Šต ๋ฐฉ๋ฒ•์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์‹ ๊ฒฝ๋ง ๋ชจ๋ธ์˜ ํ•ด์„๊ฐ€๋Šฅ์„ฑ ๋ฐ ์„ค๋ช… ๊ฐ€๋Šฅํ•œ AI๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฐ˜๋ณต์  ์ž๊ธฐ ์„ฑ์ฐฐ์„ ํ™œ์šฉํ•œ ์‚ฌ์‹ค ๊ฒ€์ฆ ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์ธ๊ฐ„ ์„ฑ๊ฒฉ ๋ชจ๋ธ๋ง ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Bayes-Entropy Collaborative Driven Agents ๋…ผ๋ฌธ์€ ์ธ๊ฐ„-์—์ด์ „ํŠธ ํ˜‘์—…์—์„œ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๋ฒ ์ด์ง€์•ˆ ํ˜์‹ ์„ ์‹คํ˜„ํ•˜์—ฌ, InterFeedback์˜ LMM ์ƒํ˜ธ์ž‘์šฉ ๋Šฅ๋ ฅ ํ‰๊ฐ€์— ์ •๋Ÿ‰์  ๊ด€์ ์„ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Reinforcement Learning for Dynamic Microfluidic Control ๋…ผ๋ฌธ์€ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ๊ณผ ์ƒํ˜ธ์ž‘์šฉ ๊ธฐ๋ฐ˜ LLM ์—์ด์ „ํŠธ ์„ฑ๋Šฅ ํ–ฅ์ƒ ์‚ฌ๋ก€๋กœ, InterFeedback์˜ ๋ฒค์น˜๋งˆํฌ ํ‰๊ฐ€ ๊ด€์ ์—์„œ ์˜๋ฏธ ์žˆ๋Š” ํ™•์žฅ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM๊ฐ„ ์ƒํ˜ธ ํ”ผ๋“œ๋ฐฑ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ์ƒํ˜ธ์ž‘์šฉ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์™€ AI ๊ธฐ๋ฐ˜ ํ‰๊ฐ€์ง€ํ‘œ์˜ ์ƒํ˜ธ ๋ณด์™„ ๊ด€๊ณ„๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI ๊ธฐ๋ฐ˜ ๋„๊ตฌ์™€ ์ž‘์—… ํ˜„์žฅ์˜ ์ž๋™ํ™”๋กœ ์ธํ•œ ์ƒํ˜ธ์ž‘์šฉ์  ์ง€๋Šฅ ๋ฐ ์‹ค๋ฌด ๋ณ€ํ™” ๋ถ„์„์„ ์‹ฌ์ธต ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
The Llama 3 Herd of Models ๋…ผ๋ฌธ์€ ์‹ค์ œ ๋Œ€๊ทœ๋ชจ LMM ๋น„๊ต ์‹คํ—˜์„ ํ†ตํ•ด ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ-์ค‘์‹ฌ ์ƒํ˜ธ์ž‘์šฉ์˜ ์‹ค์ œ์  ํšจ์šฉ์„ ๊ฒ€์ฆํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •