PaperBanana: Automating Academic Illustration for AI Scientists

์ €์ž: Dawei Zhu, Rui Meng, Yale Song, Xiyu Wei, Sujian Li, Tomas Pfister, Jinsung Yoon | ๋‚ ์งœ: 2026-01-30 | DOI: 10.48550/arXiv.2601.23265 📄 PDF


Essence

Figure 1: PaperBanana๊ฐ€ ์ƒ์„ฑํ•œ ๋ฐฉ๋ฒ•๋ก  ๋‹ค์ด์–ด๊ทธ๋žจ๊ณผ ํ†ต๊ณ„ ํ”Œ๋กฏ ์˜ˆ์‹œ

๊ทธ๋ฆผ 1: PaperBanana๊ฐ€ ์ƒ์„ฑํ•œ ๋ฐฉ๋ฒ•๋ก  ๋‹ค์ด์–ด๊ทธ๋žจ๊ณผ ํ†ต๊ณ„ ํ”Œ๋กฏ์˜ ์˜ˆ์‹œ๋กœ, ํ•™์ˆ  ์ผ๋Ÿฌ์ŠคํŠธ๋ ˆ์ด์…˜ ์ƒ์„ฑ ์ž๋™ํ™”์˜ ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ์คŒ

๋ณธ ๋…ผ๋ฌธ์€ ์ž์œจ AI ๊ณผํ•™์ž(Autonomous AI Scientists)์˜ ์‹œ๊ฐํ™” ๋ณ‘๋ชฉ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ PaperBanana๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ด๋Š” VLM(Vision Language Model)๊ณผ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ํ•™์ˆ  ์ถœํŒ ๊ธฐ์ค€์„ ์ถฉ์กฑํ•˜๋Š” ๋‹ค์ด์–ด๊ทธ๋žจ๊ณผ ํ”Œ๋กฏ์„ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•œ๋‹ค.

Motivation

Achievement

Figure 2: PaperBanana ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ์š”

๊ทธ๋ฆผ 2: ์„ ํ˜• ๊ณ„ํš ๋‹จ๊ณ„์™€ ๋ฐ˜๋ณต ์ •์ œ ๋ฃจํ”„๋กœ ๊ตฌ์„ฑ๋œ PaperBanana์˜ ์ „์ฒด ์•„ํ‚คํ…์ฒ˜

  1. ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: NeurIPS 2025 ๋…ผ๋ฌธ์—์„œ ์ˆ˜์ง‘ํ•œ 292๊ฐœ์˜ ๋ฐฉ๋ฒ•๋ก  ๋‹ค์ด์–ด๊ทธ๋žจ ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค์™€ 292๊ฐœ์˜ ์ฐธ์กฐ ์‚ฌ๋ก€๋กœ ๊ตฌ์„ฑ๋œ PaperBananaBench๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ, ํ•™์ˆ  ์ผ๋Ÿฌ์ŠคํŠธ๋ ˆ์ด์…˜ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ์ฒด๊ณ„์  ๊ธฐ์ค€์„ ์ œ๊ณตํ•œ๋‹ค.
  2. ์„ฑ๋Šฅ ์šฐ์ˆ˜์„ฑ: ์ถฉ์‹ค์„ฑ(+2.8%), ๊ฐ„๊ฒฐ์„ฑ(+37.2%), ๊ฐ€๋…์„ฑ(+12.9%), ๋ฏธํ•™์„ฑ(+6.6%)์˜ ๋ชจ๋“  ์ฐจ์›์—์„œ ๊ธฐ์กด ๊ธฐ๋ฒ•์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ์ข…ํ•ฉ ์ ์ˆ˜์—์„œ +17.0%์˜ ๊ฐœ์„ ์„ ๋‹ฌ์„ฑํ•œ๋‹ค.
  3. ๋‹ค์ค‘ ์ž‘์—… ํ™•์žฅ์„ฑ: ๋ฐฉ๋ฒ•๋ก  ๋‹ค์ด์–ด๊ทธ๋žจ๋ฟ ์•„๋‹ˆ๋ผ ํ†ต๊ณ„ ํ”Œ๋กฏ ์ƒ์„ฑ์œผ๋กœ๋„ ์„ฑ๊ณต์ ์œผ๋กœ ํ™•์žฅ๋˜๋ฉฐ, Python Matplotlib ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐฉ์‹์œผ๋กœ ์ˆ˜์น˜ ์ •ํ™•๋„๋ฅผ ๋ณด์žฅํ•œ๋‹ค.

How

Figure 3: PaperBananaBench ํ†ต๊ณ„

๊ทธ๋ฆผ 3: PaperBananaBench ํ…Œ์ŠคํŠธ ์…‹์˜ ํ†ต๊ณ„ (์ด 292๊ฐœ ์ƒ˜ํ”Œ, ํ‰๊ท  ์›๋ณธ ๋ฌธ๋งฅ ๊ธธ์ด 3,020.1 ๋‹จ์–ด, ๊ทธ๋ฆผ ์บก์…˜ 70.4 ๋‹จ์–ด)

๋‹ค์„ฏ ์—์ด์ „ํŠธ ํ˜‘์—… ๋ฉ”์ปค๋‹ˆ์ฆ˜

ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก 

Originality

Limitation & Further Study

Evaluation

์ดํ‰: PaperBanana๋Š” ์ž์œจ AI ๊ณผํ•™์ž์˜ ์ค‘์š”ํ•œ ์•ฝ์ ์ธ ์‹œ๊ฐํ™” ์ž๋™ํ™”๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๋Š” ์‹ค์šฉ์ ์ด๊ณ  ์ž˜ ์„ค๊ณ„๋œ ์†”๋ฃจ์…˜์œผ๋กœ, ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์™€ ํ•จ๊ป˜ ํ•™์ˆ  ์ปค๋ฎค๋‹ˆํ‹ฐ์— ์˜๋ฏธ ์žˆ๋Š” ๊ธฐ์—ฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ๋‹ค๋งŒ ๊ฐœ๋ณ„ ๊ธฐ๋ฒ•์˜ ์ฐฝ์˜์„ฑ๊ณผ ๋ชจ๋ธ ์˜์กด์„ฑ์— ๋Œ€ํ•œ ๋ณด์™„์ด ์žˆ์œผ๋ฉด ๋”์šฑ ๊ฐ•๋ ฅํ•œ ๋…ผ๋ฌธ์ด ๋  ์ˆ˜ ์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
PaperBanana๋Š” ๋…ผ๋ฌธ์—์„œ ์‹œ๊ฐ ์ž๋ฃŒ๋ฅผ ์ž๋™ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ๋ฉฐ, SciTalk์˜ ๋™์˜์ƒ ์ „ํ™˜ ์›Œํฌํ”Œ๋กœ์šฐ์˜ ์ดˆ๊ธฐ ๋‹จ๊ณ„์— ํ•ด๋‹นํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ˆ˜ํ•™ ๋ฐ ๊ณผํ•™ ๋ถ„์•ผ์—์„œ AI ๊ธฐ๋ฐ˜ ๊ณต์‹ ์ฆ๋ช… ๋ฐ ์‹œ๊ฐํ™” ์ž๋™ํ™”์˜ ๊ธฐ๋ฐ˜์„ ๋‹ค๋ฃจ๋Š” ๋…ผ๋ฌธ์œผ๋กœ PaperBanana์˜ ๊ธฐ์ˆ ์  ํ† ๋Œ€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘˜ ๋‹ค ๊ณผํ•™ ๋…ผ๋ฌธ์šฉ ๊ทธ๋ž˜ํ”ฝ ์ž๋™ ์ƒ์„ฑ์— ์ดˆ์ ์„ ๋‘์ง€๋งŒ, 129๋Š” ํ…์ŠคํŠธ-TikZ-์ด๋ฏธ์ง€ ํŒŒ์ดํ”„๋ผ์ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
337์€ ํ…์ŠคํŠธ์—์„œ ๊ณผํ•™์  ๊ทธ๋ฆผ์„ ์ƒ์„ฑํ•˜๋Š” ๋‹ค๋ฅธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ด, PaperBanana์™€ ๋ฐฉ๋ฒ•๋ก ์—์„œ ์ฐจ๋ณ„์ ์„ ๋ณด์ž…๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Paper2poster ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ์—์„œ ํฌ์Šคํ„ฐ๋กœ ์ž๋™ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ƒ์„ฑ AI๋ฅผ ๋‹ค๋ค„, PaperBanana์˜ ํ•™์ˆ  ์‹œ๊ฐํ™” ์ž๋™ํ™”์™€ ์œ ์‚ฌํ•œ ๋ชฉํ‘œ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
601์€ ๊ณผํ•™ ๋…ผ๋ฌธ์„ ์œ„ํ•œ ๊ทธ๋ž˜ํ”ฝ ์ž๋™ํ™” ๋„๊ตฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ, TikZero์™€ ๋‹ฌ๋ฆฌ ์ž๋™ํ™” ๊ด€์ ์—์„œ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
553์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ ํ˜‘์—… ํ”„๋ ˆ์ž„์›Œํฌ๋Š” PaperBanana๊ฐ€ ์ œ์‹œํ•œ ํ•™์ˆ  ์‹œ๊ฐํ™” ์ž๋™ํ™” ํ™˜๊ฒฝ ๊ตฌ์ถ•์— ์‹ค์งˆ์  ์ž…๋ ฅ(๋ฐ์ดํ„ฐ ๋ผ๋ฒจ๋ง ๋“ฑ) ๊ด€์ ์—์„œ ๋ณด์™„์ฒด๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
PaperBanana๋Š” AI๋กœ ํ•™์ˆ  ์‚ฝํ™” ์ž‘์—…์„ ์ž๋™ํ™”ํ•˜์—ฌ, XtraGPT(889)์˜ ์ธ๊ฐ„-AI ๋…ผ๋ฌธ ์ˆ˜์ •(ํŠนํžˆ ์‹œ๊ฐ์  ์ˆ˜์ •)์— ๋Œ€ํ•œ ์‹ค์ œ์  ํ™•์žฅ ์˜ˆ์‹œ๋กœ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
PaperBanana ์—ญ์‹œ ๋…ผ๋ฌธ ๋‚ด์šฉ์„ ๋Œ€ํ™”ํ˜• ๋ฐฉ์‹์ด ์•„๋‹Œ ์‹œ๊ฐํ™” ์ž๋™ํ™”์— ์ง‘์ค‘ํ•˜์ง€๋งŒ, ๋ฉ€ํ‹ฐ๋ฏธ๋””์–ดํ™” ํ•˜๋Š” ์ค‘๊ฐ„ ๋‹จ๊ณ„๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM-native ๊ณผํ•™ ์‹œ๊ฐ ์•„ํ‹ฐํŒฉํŠธ ์„ค๊ณ„์— ๊ด€ํ•œ ์ด๋ก ์  ๋…ผ์˜๊ฐ€ PaperBanana์˜ AI ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๋‹ค์ด์–ด๊ทธ๋žจ ์ž๋™ํ™”์™€ ์ƒํ˜ธ๋ณด์™„๋ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
PaperBanana(601)์€ AI ๋…ผ๋ฌธ ์ž‘์„ฑ์„ ์œ„ํ•œ ์ž๋™ ๊ทธ๋ž˜ํ”ฝ ์ƒ์„ฑ tool๋กœ, figure ์บก์…”๋‹๊ณผ multimodal dataset์˜ ์‹ค์ œ์  ์‘์šฉ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
PaperBanana์˜ ์ž๋™ ์‹œ๊ฐํ™” ์‹œ์Šคํ…œ์€ MILO์—์„œ ์ƒ์„ฑยท์ฃผ์„๋œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ์…‹์„ ์‹ค์ œ ํ•™์ˆ  ์ถœํŒ ๋‹ค์ด์–ด๊ทธ๋žจ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์— ์ ์šฉํ•ด ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
PaperBanana๋Š” ๋…ผ๋ฌธ ์ž๋™ ์‹œ๊ฐํ™” ๋ฐ ์บก์…˜ ์ƒ์„ฑ์„ ์ค‘์‹ฌ์œผ๋กœ, ํฌ์Šคํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์˜ ์ผ๋ถ€๋ถ„์„ ์‹ค์ œ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
PaperBanana(601) ๋…ผ๋ฌธ์€ ๋‹ค์ค‘ agent ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ๊ด€๋ จ ์—ฐ๊ตฌ ์ƒ์‚ฐ ์‹œ์Šคํ…œ์˜ ์‹ค์งˆ์  ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •