Multi-llm collaborative caption generation in scientific documents

์ €์ž: Jaeyoung Kim, Jongho Lee, Hong-Jun Choi, Ting-Yao Hsu, Chieh-Yang Huang, Sungchul Kim, Ryan A. Rossi, Tong Yu, C. Lee Giles, Ting-Hao Huang, Sungchul Choi | ๋‚ ์งœ: 2025 | DOI: N/A 📄 PDF


Essence

๊ณผํ•™ ๋…ผ๋ฌธ์˜ ๋„ํ˜•(figure) ์บก์…˜ ์ƒ์„ฑ์€ ์‹œ๊ฐ ์ •๋ณด์™€ ํ…์ŠคํŠธ ๋ฌธ๋งฅ์„ ๋ชจ๋‘ ํ™œ์šฉํ•ด์•ผ ํ•˜๋Š” ๋ณตํ•ฉ ์ž‘์—…์ธ๋ฐ, ๋ณธ ๋…ผ๋ฌธ์€ ์—ฌ๋Ÿฌ LLM์˜ ํ˜‘์—…์„ ํ†ตํ•ด ๊ณ ํ’ˆ์งˆ ์บก์…˜์„ ์ž๋™ ์ƒ์„ฑํ•˜๋Š” ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ MLBCAP๋ฅผ ์ œ์•ˆํ•œ๋‹ค.

Motivation

Achievement

Figure 1: Overview of the collaborative framework integrating multiple LLMs for caption generation in scientific documents. Initially, two MLLMs generate figure descriptions. Next, three fine-tuned models and GPT-4o generate candidate captions. Finally, GPT-4o selects and refines the best caption from the candidates.
  1. ์ €ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ํ•„ํ„ฐ๋ง: ๋ฏธ์„ธ์กฐ์ •๋œ LLaVA ๋ชจ๋ธ์„ ํ†ตํ•ด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ ์บก์…˜(์ ์ˆ˜ 5-6)๋งŒ ์„ ๋ณ„. Kendall's tau ๊ณ„์ˆ˜ 0.5502๋กœ GPT-4o์™€์˜ ์ผ์น˜๋„ ํ™•์ธ.
  2. ์ธ๊ฐ„ ํ‰๊ฐ€ ์šฐ์ˆ˜์„ฑ: ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€(Ph.D. ํ•™์ƒ)์˜ ํ‰๊ฐ€์—์„œ MLBCAP๊ฐ€ ์ €์ž๊ฐ€ ์ž‘์„ฑํ•œ ์›๋ณธ ์บก์…˜๋ณด๋‹ค ์„ ํ˜ธ๋จ์„ ์ž…์ฆ. 35,935๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ์ „์ฒ˜๋ฆฌ๋œ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•.
  3. ์žฅ๋‹จํ˜• ์บก์…˜ ์ƒ์„ฑ: ํ•™์ˆ ์ง€์˜ ํŽ˜์ด์ง€ ์ œ์•ฝ์„ ๊ณ ๋ คํ•˜์—ฌ ์žฅ๋ฌธ(50๋‹จ์–ด) ๋ฐ ๋‹จ๋ฌธ(30๋‹จ์–ด) ๋ฒ„์ „์˜ ์บก์…˜์„ ๋™์‹œ์— ์ƒ์„ฑ ๊ฐ€๋Šฅ.

How

Figure 2: Human evaluation results showing preferences for generated captions

4.1 ํ’ˆ์งˆ ํ‰๊ฐ€ ๋ชจ๋“ˆ

4.2 ๋‹ค์–‘ํ•œ ์บก์…˜ ์ƒ์„ฑ ๋ชจ๋“ˆ

4.3 ํŒ๋‹จ ๋ฐ ์ •์ œ ๋ชจ๋“ˆ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๊ณผํ•™ ๋„ํ˜• ์บก์…˜ ์ƒ์„ฑ์˜ ํ˜„์‹ค์  ๊ณผ์ œ(์ €ํ’ˆ์งˆ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ํ†ตํ•ฉ)๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๋Š” ์‹ค์šฉ์  ํ”„๋ ˆ์ž„์›Œํฌ์ด๋ฉฐ, ์ธ๊ฐ„ ํ‰๊ฐ€๋ฅผ ํ†ตํ•œ ์šฐ์ˆ˜์„ฑ ์ž…์ฆ์ด ๊ฐ•์ ์ด๋‚˜, ๊ฒฝ์ œ์„ฑ ์žˆ๋Š” ๋ชจ๋ธ ๊ฒฝ๋Ÿ‰ํ™” ๋ฐ ํ‰๊ฐ€์˜ ํ†ต๊ณ„์  ์—„๋ฐ€์„ฑ ๊ฐ•ํ™”๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SciCap์€ ๊ณผํ•™์  ๋„ํ˜• ์บก์…˜ ์ƒ์„ฑ์šฉ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋ชจ๋ธ๋กœ, MLBCAP ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๋ฐœ์ „์‹œํ‚จ ๋ฐฉ๋ฒ•๋ก ์˜ ๊ธฐ๋ฐ˜ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ๋…ผ๋ฌธ์˜ ๊ทธ๋ฆผ์—์„œ ๋„ํ˜•-์บก์…˜ ์ž๋™ ์ƒ์„ฑ ์‹œ์Šคํ…œ๊ณผ ๊ด€๋ จ๋œ ์‹ค์ œ ๋ฐ์ดํ„ฐ ๋ฐ ๋ชจ๋ธ ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ์ œ์‹œํ•˜์—ฌ, ๋ฉ€ํ‹ฐ LLM ํ˜‘์—… ๊ธฐ๋ฐ˜์˜ caption ์ƒ์„ฑ ์ „๋žต ์„ค๊ณ„์— ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Multi-llm collaborative caption generation ๋…ผ๋ฌธ์€ ๋‹ค๊ตญ์–ด ๋ฐ ๋‹ค์ค‘ LLM ๊ธฐ๋ฐ˜ ํ‘œ ์บก์…˜ ์ƒ์„ฑ ๊ณผ์ œ๋ฅผ ๋‹ค๋ค„, AUTOCAP์˜ cross-lingual CoT ์ถ”๋ก  ์ž๋™ํ™”์— ์ด๋ก ์  ํƒ€๋‹น์„ฑ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ๋„ํ๋จผํŠธ์—์„œ ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์บก์…˜ ์ƒ์„ฑ ๊ธฐ๋ฒ•์ด ํฌ์Šคํ„ฐ ์ž๋™ํ™” ๋‚ด ์‹œ๊ฐ-์–ธ์–ด ํ”ผ๋“œ๋ฐฑ ๊ตฌ์กฐ์— ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
564๋Š” ๋‹ค์ˆ˜์˜ LLM์ด ํ˜‘์—…ํ•˜์—ฌ ๊ณผํ•™ ๋„ํ‘œ ์บก์…˜ ์ƒ์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์ ‘๊ทผ์œผ๋กœ, 709์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ปจํ…์ŠคํŠธ์™€ ๋น„๊ต์  ์ฝ์„ ๊ฐ€์น˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Multi-llm collaborative caption generation in scientific documents ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋‹ค์–‘ํ•œ ์ฆ๊ฑฐ ๊ฐ•์กฐ ๋ฐฉ์‹์ด ๊ณผํ•™ ๋„ํ‘œ ๋ฐ ํ‘œ ์ƒ์„ฑ์˜ ํ’ˆ์งˆ์— ์–ด๋–ค ์˜ํ–ฅ์„ ์ฃผ๋Š”์ง€ ์‹ค์ฆ์ ์œผ๋กœ ์—ฐ๊ตฌํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ˜‘๋ ฅ์  ๋ฉ€ํ‹ฐ-LLM ์บก์…˜ ์ƒ์„ฑ ๋ฐ ๊ฒ€์ฆ์—์„œ ์ˆœ์ˆ˜ ์ค€์ง€๋„ํ•™์Šต ๊ธฐ๋ฐ˜ ํฌ์ฆˆ ์ถ”์ • ๊ณผ์ œ์™€ ์ƒ์ดํ•œ ์ž๋™ ๋ ˆ์ด๋ธ” ํ’ˆ์งˆ ๊ฐœ์„  ๋ฐฉ๋ฒ•์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํŠนํ—ˆ ๋„๋ฉด์—์„œ์˜ ์บก์…˜ ์ƒ์„ฑ ๊ณผ์ œ๋ฅผ ํ†ตํ•ด, ๋„๋ฉด-ํ…์ŠคํŠธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์บก์…˜ ์ƒ์„ฑ ๋ฐฉ์‹์˜ ์ฐจ์ด๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Multi-llm collaborative caption generation์€ ๊ณผํ•™ ๋ฌธ์„œ์˜ ๊ทธ๋ฆผ ์บก์…˜ ์ƒ์„ฑ์— ๋‹ค์–‘ํ•œ ํ˜‘์—…์  LLM ์ „๋žต์„ ์‹คํ—˜ํ•˜์—ฌ EPM ์ ‘๊ทผ๊ณผ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
564๋ฒˆ ๋…ผ๋ฌธ์€ ๋‹ค์ค‘ LLM ํ˜‘๋ ฅ ๊ธฐ๋ฐ˜ ๊ณผํ•™๋ฌธ์„œ ์บก์…˜ ์ƒ์„ฑ์— ์ฃผ๋ชฉํ•ด, 401๋ฒˆ์˜ ๊ทธ๋ž˜ํ”„ ์š”์•ฝ ์ ‘๊ทผ๊ณผ ์˜๋ฏธ ์ถ”์ถœ ํŒจ๋Ÿฌ๋‹ค์ž„์—์„œ ๋Œ€์ฒด์  ๊ด€์ ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Multi-LLM ํ˜‘์—…์„ ํ†ตํ•œ ๊ณผํ•™ ์บก์…˜ ์ƒ์„ฑ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ, ์‹ค์ œ ๋…ผ๋ฌธ ์ €์ž์˜ AI ์บก์…˜ ํ™œ์šฉ ๋ฐฉ์‹ ํƒ๊ตฌ์™€ ์ƒํ˜ธ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋ฌธ์„œ์—์„œ ์‹œ๊ฐ ์ •๋ณด์™€ ํ…์ŠคํŠธ ์ •๋ณด๋ฅผ ๊ฒฐํ•ฉํ•ด ์บก์…˜์„ ์ƒ์„ฑํ•˜๋Š” ๋‹ค์ค‘ ๋ชจ๋ธ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ์‹œ๊ฐ-์–ธ์–ด ํ†ตํ•ฉ ์ ‘๊ทผ๋ฒ•์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘ ๋…ผ๋ฌธ ๋ชจ๋‘ ๊ณผํ•™ ๋ฌธ์„œ์—์„œ ์‹œ๊ฐ์  ์š”์†Œ์˜ ์ž๋™ ์บก์…˜ ์ƒ์„ฑ์„ ๋‹ค๋ฃจ์ง€๋งŒ, 564๋Š” ๋ฉ€ํ‹ฐLLM ํ˜‘๋ ฅ์„ ๊ฐ•์กฐํ•˜๋Š” ๋ฐ˜๋ฉด 773์€ ํฌ๋ฆฌ์—์ดํ„ฐ ์—์ด์ „ํŠธ ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ๋ชจ๋ฐฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Multi-llm collaborative caption generation ๋…ผ๋ฌธ๋„ ๊ณผํ•™ ๋ฌธ์„œ ๋‚ด ์‹œ๊ฐ ์ฝ˜ํ…์ธ ์— ๋Œ€ํ•ด LLM ๊ธฐ๋ฐ˜ ์บก์…˜ ์ƒ์„ฑ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋ฏ€๋กœ, ํฌ์Šคํ„ฐ ์ƒ์„ฑ ์ž๋™ํ™”์™€ ๋ฐ€์ ‘ํ•œ ์—ฐ๊ด€์ด ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Two heads are better than one ๋…ผ๋ฌธ์€ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ˜‘์—…์ด ์ฐฝ์˜์  ๊ฒฐ๊ณผ๋ฅผ ๋†’์ž„์„ ๋ณด์—ฌ, MLBCAP์˜ multi-LLM ํ˜‘์—… ๋…ผ๋ฆฌ์— ๋Œ€ํ•œ ์‹ค์ฆ์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
564๋Š” ๋‹ค์ค‘ LLM ํ˜‘์—…์„ ํ†ตํ•œ ๊ณผํ•™ ์ด๋ฏธ์ง€ ์บก์…˜ ์ƒ์„ฑ ์—ฐ๊ตฌ๋กœ, 515์˜ ์ธ๊ฐ„ ์ค‘์‹ฌ ์ด๋ฏธ์ง€ ์„œ์ˆ  ์ง€์›์„ AI ์ค‘์‹ฌ ๋ถ„์‚ฐํ˜• ์ ‘๋ชฉ์œผ๋กœ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
โ€˜Multi-llm collaborative caption generationโ€™ ๋…ผ๋ฌธ์€ ๋‹ค์ˆ˜์˜ LLM ํ˜‘๋ ฅ ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ์บก์…˜ ํ’ˆ์งˆ ํ–ฅ์ƒ๋ฒ•์„ ์‹ค์ฆ์ ์œผ๋กœ ๋ณด์—ฌ์ค˜ ํ’ˆ์งˆ ํ‰๊ฐ€ ๊ด€์ ์—์„œ ์‹œ๋„ˆ์ง€๊ฐ€ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Multi-llm collaborative caption generation ๋…ผ๋ฌธ์€ ๋‹ค์ค‘ LLM์„ ์ด์šฉํ•œ ํ˜‘๋ ฅ์  ์บก์…˜ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ, 605์™€ ๊ฐ™์ด ๋„ํ˜• ์บก์…˜ ์ž๋™ํ™” ๋„๋ฉ”์ธ์˜ ํ˜„์‹ค์  ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
564๋Š” ๋…ผ๋ฌธ ๋„ํ˜• ๋‚ด ๋‹ค์ค‘ LLM ํ˜‘์—… ์บก์…˜ ์ƒ์„ฑ์„ ์ œ์‹œํ•˜์—ฌ, 338์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ ‘๊ทผ๋ฒ•์„ ํ™•์žฅํ•œ ์‹คํ—˜ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
564๋Š” ๋‹ค์ค‘ LLM ํ˜‘์—… ๊ธฐ๋ฐ˜ ์บก์…˜ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋„์ž…ํ•จ์œผ๋กœ์จ, 157์˜ ์ด์งˆ์  ๊ณ„ํš ๋ชจ๋ธ์„ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ™˜๊ฒฝ ํ•˜์—์„œ ์‹คํ˜„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ™•์žฅํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Scidqa๋Š” ๊ณผํ•™ ๋…ผ๋ฌธ ๋‚ด ์‹ฌ์ธต์  ํ…์ŠคํŠธโ€“๊ทธ๋ฆผ ๋งฅ๋ฝ ๋ถ„์„์„ ํ†ตํ•ด ์บก์…˜ ์ƒ์„ฑ ๋ชจ๋ธ ํ‰๊ฐ€ ๊ด€์ ์—์„œ MLBCAP์˜ ํ™•์žฅ ์‘์šฉ์‚ฌ๋ก€๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
์บก์…˜ ์ž‘์„ฑ ์‹œ ์‹ค์ œ AI ์ƒ์„ฑ ํ…์ŠคํŠธ ํ™œ์šฉ ์‚ฌ๋ก€ ๋ฐ ๊ทธ ํ•œ๊ณ„๋ฅผ ๋ถ„์„ํ•˜์—ฌ, MLBCAP ๋ฐฉ์‹์˜ ์‹คํšจ์„ฑ๊ณผ ํ˜„์žฅ ๋„์ž… ์‹œ์‚ฌ์  ํ™•์ธ์— ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •