Paper2poster: Towards multimodal poster automation from scientific papers

์ €์ž: Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He, Philip H. S. Torr | ๋‚ ์งœ: 2025 | DOI: N/A 📄 PDF


Essence

Figure 1

๊ณผํ•™ ๋…ผ๋ฌธ์—์„œ ํฌ์Šคํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋„์ „ ๊ณผ์ œ: (์ขŒ) PosterAgent๋ฅผ ํ†ตํ•œ ํฌ์Šคํ„ฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ•, (์šฐ) Paper2Poster ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•œ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•

๋ณธ ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋…ผ๋ฌธ์„ ๋‹จ์ผ ํŽ˜์ด์ง€ ํ•™์ˆ  ํฌ์Šคํ„ฐ๋กœ ์ž๋™ ๋ณ€ํ™˜ํ•˜๋Š” ์ฒซ ๋ฒˆ์งธ ๋ฒค์น˜๋งˆํฌ์™€ ํ‰๊ฐ€ ์ง€ํ‘œ ์ง‘ํ•ฉ์„ ์ œ์‹œํ•˜๋ฉฐ, ์‹œ๊ฐ์ -์–ธ์–ด์  ํ”ผ๋“œ๋ฐฑ ๋ฃจํ”„๋ฅผ ๊ฐ–์ถ˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํŒŒ์ดํ”„๋ผ์ธ(PosterAgent)์„ ์ œ์•ˆํ•œ๋‹ค.

Motivation

Achievement

Figure 3

Paper2Poster ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ: ์‹œ๊ฐ์  ํ’ˆ์งˆ, ํ…์ŠคํŠธ ์ผ๊ด€์„ฑ, VLM ํŒ์ •๊ด€์„ ํ†ตํ•œ ์ข…ํ•ฉ ํ‰๊ฐ€, PaperQuiz๋ฅผ ํ†ตํ•œ ๋…์ž ์ดํ•ด๋„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜

  1. ์ฒซ ๋ฒˆ์งธ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์ถ•: POSTERSUM ๋ฐ์ดํ„ฐ์…‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ 2022-2024๋…„ ICML, NeurIPS, ICLR ๋…ผ๋ฌธ 100๊ฐœ์™€ ์ €์ž๊ฐ€ ์„ค๊ณ„ํ•œ ํฌ์Šคํ„ฐ ์Œ ์ˆ˜์ง‘. ํ‰๊ท  22.6ํŽ˜์ด์ง€, 20,370.3 ํ† ํฐ์˜ ๋…ผ๋ฌธ์„ 774.1๋‹จ์–ด, 1,416.2 ํ† ํฐ์œผ๋กœ 14.4๋ฐฐ ์••์ถ•
  2. ํ˜์‹ ์  PaperQuiz ์ง€ํ‘œ: LLM์ด ์ž๋™ ์ƒ์„ฑํ•œ ๋‹ค์ง€์„ ๋‹คํ˜• ๋ฌธ์ œ๋กœ VLM ๋ฆฌ๋”(ํ•™์ƒ, ๊ต์ˆ˜ ๋“ฑ ๋‹ค์–‘ํ•œ ์ „๋ฌธ์„ฑ ์ˆ˜์ค€)๊ฐ€ ํฌ์Šคํ„ฐ๋งŒ์œผ๋กœ ๋…ผ๋ฌธ ๋‚ด์šฉ์„ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํ‰๊ฐ€โ€”์ธ๊ฐ„ ํ‰๊ฐ€์™€ ๋†’์€ ์ƒ๊ด€๊ด€๊ณ„
  3. ์„ฑ๋Šฅ ์šฐ์ˆ˜์„ฑ: Qwen-2.5 ๊ธฐ๋ฐ˜ ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ์ด GPT-4o ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์„ ๊ฑฐ์˜ ๋ชจ๋“  ์ง€ํ‘œ์—์„œ ๋›ฐ์–ด๋„˜์œผ๋ฉด์„œ 87% ์ ์€ ํ† ํฐ ์‚ฌ์šฉ(๋น„์šฉ $0.005)
  4. ํ’ˆ์งˆ ์ธ์‚ฌ์ดํŠธ:
    • GPT-4o๋Š” ์‹œ๊ฐ์ ์œผ๋กœ๋Š” ๋งค๋ ฅ์ ์ด๋‚˜ ํ…์ŠคํŠธ ๋…ธ์ด์ฆˆ ๋งŽ์Œ ๋ฐ PaperQuiz ์„ฑ๋Šฅ ๋‚ฎ์Œ
    • ์ธ๊ฐ„ ํฌ์Šคํ„ฐ์˜ ์ฃผ์š” ๊ฐ•์ ์€ ์‹œ๊ฐ์  ์˜๋ฏธ๋ก (visual semantics)์„ ํ†ตํ•œ ์†Œํ†ต
    • Reader Engagement๊ฐ€ ์‹ฌ๋ฏธ์  ๋ณ‘๋ชฉ

How

Figure 4

PosterAgent ํŒŒ์ดํ”„๋ผ์ธ: Parser(๋…ผ๋ฌธโ†’์ž์‚ฐ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ), Planner(์˜๋ฏธ์  ์ •๋ ฌ ๋ฐ ๋ ˆ์ด์•„์›ƒ ์ƒ์„ฑ), Painter-Commenter ๋ฃจํ”„(๋ Œ๋”๋ง ๋ฐ VLM ํ”ผ๋“œ๋ฐฑ)

PosterAgent 3๋‹จ๊ณ„ ๊ตฌ์กฐ:

  1. Parser (์ž์‚ฐ ์ถ”์ถœ)
    • PDF ๋…ผ๋ฌธ์„ ์„น์…˜๋ณ„ ํ…์ŠคํŠธ ์š”์•ฝ ๋ฐ ์ถ”์ถœ๋œ figure/table์˜ ์ž์‚ฐ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ ๋ณ€ํ™˜
  2. Planner (๋ ˆ์ด์•„์›ƒ ์„ค๊ณ„)
    • ๊ฐ ์„น์…˜ ์š”์•ฝ๊ณผ ์‹œ๊ฐ ์ž์‚ฐ์„ ์˜๋ฏธ๋ก ์ ์œผ๋กœ ๋งค์นญ
    • ์ด์ง„ ํŠธ๋ฆฌ(binary-tree) ๋ ˆ์ด์•„์›ƒ ์ƒ์„ฑ
    • ์ฝ˜ํ…์ธ  ๊ธธ์ด ์ถ”์ •์œผ๋กœ ํŒจ๋„ ํ• ๋‹น, ์ฝ๊ธฐ ์ˆœ์„œ ๋ฐ ๊ณต๊ฐ„ ๊ท ํ˜• ๋ณด์กด
  3. Painter-Commenter ๋ฃจํ”„ (๋ฐ˜๋ณต ๊ฐœ์„ )
    • Painter: ์„น์…˜-figure ์Œ์„ ๊ฐ„๊ฒฐํ•œ bullet point๋กœ ๋ณ€ํ™˜ ํ›„ python-pptx๋กœ ๋“œ๋ž˜ํ”„ํŠธ ๋ Œ๋”๋ง
    • Commenter: VLM์ด ํ™•๋Œ€ ์ฐธ์กฐ ํ”„๋กฌํ”„ํŠธ๋กœ ํ…์ŠคํŠธ ์˜ค๋ฒ„ํ”Œ๋กœ์šฐ, ๊ณต๊ฐ„ ์ •๋ ฌ ํ”ผ๋“œ๋ฐฑ ์ œ๊ณต
    • ํ”ผ๋“œ๋ฐฑ์„ Painter์— ๋ฐ˜์˜ํ•˜์—ฌ ์ˆ˜๋ ดํ•  ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณต

ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ:

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ํ•™์ˆ  ํฌ์Šคํ„ฐ ์ž๋™ ์ƒ์„ฑ์ด๋ผ๋Š” ๋„์ „์ ์ด๊ณ  ์‹ค์šฉ์ ์ธ ๋ฌธ์ œ์— ์ฒ˜์Œ์œผ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ์ ‘๊ทผํ•œ ์˜๋ฏธ ์žˆ๋Š” ์ž‘์—…์œผ๋กœ, ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒค์น˜๋งˆํฌ์™€ ํ˜์‹ ์ ์ธ PaperQuiz ์ง€ํ‘œ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ์‹ค์šฉ์„ฑ ๋†’์€ PosterAgent ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ๊ฐ•๋ ฅํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ๋‹ค๋งŒ ๋ฐ์ดํ„ฐ์…‹ ๊ทœ๋ชจ ํ™•๋Œ€, ๋‹ค์–‘ํ•œ ํ•™๋ฌธ ๋ถ„์•ผ ์ ์šฉ, ๊ทธ๋ฆฌ๊ณ  ์ž๋™ ํ‰๊ฐ€ ์ง€ํ‘œ์˜ ๋ณด์™„์ด ํ–ฅํ›„ ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
452(L-CiteEval)๋Š” ๋…ผ๋ฌธ ์ •๋ณด ๊ฐ€๊ณต์—์„œ ์‹œ๊ฐ์  ๋ฐ ์ธ์šฉ์ •๋ณด์˜ ์ž๋™ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, 599 ๋…ผ๋ฌธ์˜ ํฌ์Šคํ„ฐ ์ž๋™ํ™” ํŒŒ์ดํ”„๋ผ์ธ ์„ค๊ณ„์— ๊ทผ๊ฐ„์ด ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ๋„ํ๋จผํŠธ์—์„œ ๋ฉ€ํ‹ฐ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์บก์…˜ ์ƒ์„ฑ ๊ธฐ๋ฒ•์ด ํฌ์Šคํ„ฐ ์ž๋™ํ™” ๋‚ด ์‹œ๊ฐ-์–ธ์–ด ํ”ผ๋“œ๋ฐฑ ๊ตฌ์กฐ์— ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋…ผ๋ฌธ-ํฌ์Šคํ„ฐ ์ž๋™ ๋ณ€ํ™˜ ๋ฒค์น˜๋งˆํฌ ๋ฐ ํŒŒ์ดํ”„๋ผ์ธ ๊ธฐ์ˆ ์„ ๊ธฐ๋ฐ˜์œผ๋กœ, ์›น์‚ฌ์ดํŠธํ™”์˜ ์ง„ํ™” ๊ณผ์ •์„ ๋”ฐ๋ผ๊ฐ€๊ธฐ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋…ผ๋ฌธ์„ ํฌ์Šคํ„ฐ๋กœ ์ž๋™ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋ผ๋Š” ๋™์ผ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ, ๋ณ„๋„์˜ ๋ฐ์ดํ„ฐ์…‹๊ณผ ํ‰๊ฐ€๊ธฐ์ค€ ์ฒด๊ณ„๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋จธ์‹ ๋Ÿฌ๋‹ ์‹คํ—˜ ๊ฒฐ๊ณผ ์ž๋™ ์ˆ˜์ง‘ ๋ฐ ํ†ตํ•ฉ์„ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋…ผ๋ฌธ์—์„œ ์ถœ๋ฐœํ•œ ์ฝ”๋“œ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์ž๋™ํ™” ๋„๊ตฌ ๊ฐœ๋ฐœ๊ณผ ํฌ์Šคํ„ฐ ์ž๋™ ์ƒ์„ฑ ๋“ฑ ์—ฐ๊ตฌ ์ƒ์‚ฐ์„ฑ ์ž๋™ํ™” ๋ฐฉ๋ฒ•๋ก  ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Paper2poster ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ์—์„œ ํฌ์Šคํ„ฐ๋กœ ์ž๋™ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ƒ์„ฑ AI๋ฅผ ๋‹ค๋ค„, PaperBanana์˜ ํ•™์ˆ  ์‹œ๊ฐํ™” ์ž๋™ํ™”์™€ ์œ ์‚ฌํ•œ ๋ชฉํ‘œ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Deep Research Agent ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋‹ค๋ฅธ ๋ฒค์น˜๋งˆํฌ ๋˜๋Š” ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
599(Paper2poster)๋Š” ๋…ผ๋ฌธ ์ž๋™ํ™” ๊ณผ์ •์—์„œ ์‹œ๊ฐยท์–ธ์–ด ํ”ผ๋“œ๋ฐฑ ๋ฒค์น˜๋งˆํ‚น ๋ฐ ํ‰๊ฐ€์ฒด๊ณ„๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ L-CiteEval์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ‰๊ฐ€ ๊ฐœ๋…์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Paper2poster ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ-ํฌ์Šคํ„ฐ ์ž๋™ํ™”์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํฌ๋งท ๋ณ€ํ™˜์„ ์‹คํ—˜์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ, P2P ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์œ ์‚ฌ ์‘์šฉ์„ ๋ณด๊ฐ•ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํฌ์Šคํ„ฐ ์ƒ์„ฑ์—์„œ ๋‚˜์•„๊ฐ€ ๋…ผ๋ฌธ์„ ๋Œ€ํ™”ํ˜• ์›น์‚ฌ์ดํŠธ๋กœ ์ž๋™ ๋ณ€ํ™˜ํ•˜๋Š” ๊ธฐ์ˆ  ๋ฐœ์ „ ๋ฐฉํ–ฅ์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
599 ๋…ผ๋ฌธ์€ ๊ณผํ•™๋…ผ๋ฌธ์—์„œ ํ…์ŠคํŠธยท๊ทธ๋ž˜ํ”ฝ ์—ฐ๋™ ๊ธฐ๋ฐ˜ ํฌ์Šคํ„ฐ ์ž๋™ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜์—ฌ, 3046์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ถ„์ž ์ถ”๋ก ํ˜• LLM๊ณผ ์‘์šฉ์ ‘์ ์„ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋…ผ๋ฌธ์„ ํฌ์Šคํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋ฉฐ ํ…์ŠคํŠธ-์ฐจํŠธ ๊ฒฐํ•ฉ๋œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ฒฐ๊ณผ๋ฌผ์„ ์‹ค์ œ๋กœ ์ƒ์„ฑํ•˜๊ธฐ์— ์‹ค์šฉ์  ์‘์šฉ ์ธก๋ฉด์—์„œ ์—ฐ๊ณ„๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
PaperBanana๋Š” ๋…ผ๋ฌธ ์ž๋™ ์‹œ๊ฐํ™” ๋ฐ ์บก์…˜ ์ƒ์„ฑ์„ ์ค‘์‹ฌ์œผ๋กœ, ํฌ์Šคํ„ฐ ์ƒ์„ฑ ํŒŒ์ดํ”„๋ผ์ธ์˜ ์ผ๋ถ€๋ถ„์„ ์‹ค์ œ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Paper2poster ๋“ฑ AI ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์ •๋ณด ์ž๋™ํ™” ์‹œ์Šคํ…œ์„ ๋„์ž…ํ•ด ๋ถ„์ž์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ฒฐ๊ณผ ์‹œ๊ฐํ™” ๋ฐ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ์— ์‹ค์šฉ์„ฑ์„ ์ œ์‹œํ•œ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •