Multimodal deepresearcher: Generating text-chart interleaved reports from scratch with agentic framework

์ €์ž: Zhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Luoxuan Weng, Yingchaojie Feng, Haozhe Feng, Minfeng Zhu, Bo Zhang, Wei Chen | ๋‚ ์งœ: 2025 | DOI: ๋ฏธ๊ณต๊ฐœ 📄 PDF


Essence

Figure 2

Figure 2: Multimodal DeepResearcher์˜ ํ”„๋ ˆ์ž„์›Œํฌ - 4๋‹จ๊ณ„(์กฐ์‚ฌ, ์˜ˆ์‹œ ๋ณด๊ณ ์„œ ํ…์ŠคํŠธํ™”, ๊ณ„ํš, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ณด๊ณ ์„œ ์ƒ์„ฑ)๋กœ ๋ถ„ํ•ด

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์„ ํ™œ์šฉํ•˜์—ฌ ํ…์ŠคํŠธ์™€ ์ฐจํŠธ๊ฐ€ ์œ ๊ธฐ์ ์œผ๋กœ ํ†ตํ•ฉ๋œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ณด๊ณ ์„œ๋ฅผ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜๋Š” ์‹œ์Šคํ…œ์„ ์ œ์•ˆํ•œ๋‹ค. ํ•ต์‹ฌ ํ˜์‹ ์€ ์‹œ๊ฐํ™”๋ฅผ ๊ตฌ์กฐํ™”๋œ ํ…์ŠคํŠธ ํ‘œํ˜„(FDV: Formal Description of Visualization)์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ LLM์˜ ๋งฅ๋ฝ ํ•™์Šต(in-context learning)์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ ์ ์ด๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: Multimodal DeepResearcher๊ฐ€ ์ƒ์„ฑํ•œ ๋‹ค์–‘ํ•œ ์ฐจํŠธ ์˜ˆ์‹œ (๋ฉด์ ๋„, ์‚ฐํ‚ค๋„, ๋Œ€์‹œ๋ณด๋“œ, ์ˆ˜ํ‰๋ง‰๋Œ€๊ทธ๋ž˜ํ”„, ์›ํ˜•์ฐจํŠธ, ์ธํฌ๊ทธ๋ž˜ํ”ฝ)

  1. ์ƒˆ๋กœ์šด ์ž‘์—… ์ •์˜ ๋ฐ ํ‰๊ฐ€ ์ฒด๊ณ„: ํ…์ŠคํŠธ-์ฐจํŠธ ํ†ตํ•ฉ ๋ณด๊ณ ์„œ ์ƒ์„ฑ์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ์ž‘์—…์„ ์ •์˜ํ•˜๊ณ , 100๊ฐœ์˜ ๋‹ค์–‘ํ•œ ์ฃผ์ œ์™€ 10๊ฐœ์˜ ์ „๋‹ด ์ง€ํ‘œ(๋ณด๊ณ ์„œ ์ˆ˜์ค€ 5๊ฐœ, ์ฐจํŠธ ์ˆ˜์ค€ 5๊ฐœ)๋ฅผ ํฌํ•จํ•œ MultimodalReportBench ๋ฒค์น˜๋งˆํฌ๋ฅผ ๊ตฌ์ถ•ํ–ˆ๋‹ค.
  2. ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ: Claude 3.7 Sonnet์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ธฐ์กด ๋ฐฉ๋ฒ•(DataNarrative) ๋Œ€๋น„ 82% ์Šน๋ฅ ์„ ๋‹ฌ์„ฑํ•˜์˜€์œผ๋ฉฐ, ์ž๋™ ํ‰๊ฐ€์™€ ์ธ๊ฐ„ ํ‰๊ฐ€ ๋ชจ๋‘์—์„œ ์ผ๊ด€๋œ ์šฐ์›”์„ฑ์„ ์ž…์ฆํ–ˆ๋‹ค.
  3. ๋ณต์žกํ•œ ์ฐจํŠธ ์ƒ์„ฑ: ๋‹จ์ˆœํ•œ ๋ง‰๋Œ€/์„  ์ฐจํŠธ๋ฅผ ๋„˜์–ด ์‚ฐํ‚ค๋„, ๋Œ€์‹œ๋ณด๋“œ, ์ธํฌ๊ทธ๋ž˜ํ”ฝ ๋“ฑ ๋‹ค์–‘ํ•˜๊ณ  ์ •๊ตํ•œ ์‹œ๊ฐํ™”๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.

How

Figure 3

Figure 3: FDV(Formal Description of Visualization)์˜ ์ž‘๋™ ์›๋ฆฌ - ๋ ˆ์ด์•„์›ƒ, ์ฒ™๋„, ๋ฐ์ดํ„ฐ, ๋งˆํฌ์˜ 4๊ฐ€์ง€ ๊ด€์ ์œผ๋กœ ์‹œ๊ฐํ™” ์บก์ฒ˜

4๋‹จ๊ณ„ ์—์ด์ „ํ‹ฑ ํ”„๋ ˆ์ž„์›Œํฌ:

  1. ์กฐ์‚ฌ ๋‹จ๊ณ„(Researching)
    • ์ฃผ์–ด์ง„ ์ฃผ์ œ์— ๋Œ€ํ•ด ๊ด€๋ จ ํ‚ค์›Œ๋“œ ์ƒ์„ฑ
    • ๋ฐ˜๋ณต์ ์ธ ์›น ๊ฒ€์ƒ‰๊ณผ ์ถ”๋ก ์„ ํ†ตํ•ด ํฌ๊ด„์ ์ธ ์ •๋ณด ์ˆ˜์ง‘
    • ๊ฐ ์ •๋ณด์™€ ์ฐธ๊ณ ๋ฌธํ—Œ ์ถ”์ 
  2. ์˜ˆ์‹œ ๋ณด๊ณ ์„œ ํ…์ŠคํŠธํ™”(Exemplar Report Textualization)
    • ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ณด๊ณ ์„œ๋ฅผ FDV๋กœ ๊ตฌ์กฐํ™”
    • FDV๋Š” ์ฐจํŠธ์˜ (1)์ „์ฒด ๋ ˆ์ด์•„์›ƒ, (2)ํ”Œ๋กฏํŒ… ์ฒ™๋„, (3)๋ฐ์ดํ„ฐ, (4)๋งˆํฌ ํ‘œ์‹œ์˜ 4๊ฐ€์ง€ ๊ด€์  ์บก์ฒ˜
    • ๋งฅ๋ฝ ํ•™์Šต ์˜ˆ์‹œ๋กœ ํ™œ์šฉ
  3. ๊ณ„ํš ๋‹จ๊ณ„(Planning)
    • ๋ณด๊ณ ์„œ ๋‚ด์šฉ ๊ตฌ์กฐ ๋ฐ ์‹œ๊ฐํ™” ์Šคํƒ€์ผ ๊ฐ€์ด๋“œ ์ˆ˜๋ฆฝ
    • ์ผ๊ด€๋œ ๋ฏธ์  ํ‘œํ˜„ ๋ณด์žฅ
  4. ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ณด๊ณ ์„œ ์ƒ์„ฑ(Multimodal Report Generation)
    • ์ดˆ์•ˆ ์ž‘์„ฑ(Drafting)
    • ์ฐจํŠธ ์ฝ”๋“œ ์ƒ์„ฑ(Coding)
    • ๋ฐ˜๋ณต์  ์ฐจํŠธ ๊ฐœ์„ (Refining)

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ณด๊ณ ์„œ ์ž๋™ ์ƒ์„ฑ์ด๋ผ๋Š” ์ค‘์š”ํ•œ ๋ฏธ์ถฉ์กฑ ๋ฌธ์ œ๋ฅผ ์ฒ˜์Œ ์ฒด๊ณ„์ ์œผ๋กœ ๋‹ค๋ฃจ์—ˆ์œผ๋ฉฐ, FDV๋ผ๋Š” ์ฐฝ์˜์ ์ธ ํ‘œํ˜„ ๋ฐฉ์‹๊ณผ 4๋‹จ๊ณ„ ์—์ด์ „ํ‹ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ(82% ์Šน๋ฅ )์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ๋‹ค๋งŒ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์˜ ๊ทœ๋ชจ ํ™•์žฅ๊ณผ ๋” ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์— ๋Œ€ํ•œ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ๋„ํ‘œ์˜ ์บก์…˜ ๋ฐ ์‹œ๊ฐ์ž๋ฃŒ ํ•ด์„์— ๋Œ€ํ•œ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ์…‹/๋ฐฉ๋ฒ•๋ก ์  ๋…ผ์˜๋ฅผ ์„ ํ–‰ ์—ฐ๊ตฌ๋กœ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ฐจํŠธ ์ด๋ฏธ์ง€๋ฅผ ๊ตฌ์กฐํ™”ํ•˜์—ฌ LLM์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ์ถ”์ถœ ์ •ํ™•์„ฑ์„ ๋†’์ด๋Š” ์—ฐ๊ตฌ๋กœ, Multimodal DeepResearcher์™€ ๊ธฐ์ˆ ์  ๊ธฐ๋ฐ˜์ด ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
566๋ฒˆ ๋…ผ๋ฌธ์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ์™€ ํ…์ŠคํŠธ-์ฐจํŠธ ์—ฐ๊ฒฐ ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด ํ–‰๋™์‹ ๊ฒฝ๊ณผํ•™ ์ž๋™ํ™” ํŒŒ์ดํ”„๋ผ์ธ ๊ฐœ๋ฐœ์˜ ๊ธฐ๋ณธ ์ž๋ฃŒ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋…ผ๋ฌธ ๋‚ด ์‹œ๊ฐ์ž๋ฃŒ์— ๋Œ€ํ•œ ํ…์ŠคํŠธ ์ƒ์„ฑยท์ฃผ์„ ์ƒ์„ฑ ์‹œ์Šคํ…œ์ด๋ฏ€๋กœ, ์ฐจํŠธ-ํ…์ŠคํŠธ ์ƒํ˜ธ ์—ฐ๊ณ„์˜ ์„ธ๋ถ€ ๊ตฌํ˜„ ์ฐจ์ด๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฒกํ„ฐ ๊ทธ๋ž˜ํ”ฝ์ด๋‚˜ ๊ตฌ์กฐํ™”๋œ ์ถœ๋ ฅ ์ƒ์„ฑ์— ๊ด€ํ•œ ์œ ์‚ฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์‹œํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
552(MMSCI)๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ณผํ•™ ์ด๋ฏธ์ง€์™€ ์–ธ์–ด ๋ฐ์ดํ„ฐ์…‹ ํ™•๋ฆฝ์œผ๋กœ, 566์˜ ์ฐจํŠธ-ํ…์ŠคํŠธ ํ†ตํ•ฉํ˜• ๋ฆฌํฌํŠธ ์ƒ์„ฑ ๋ฐ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๊ณผ ๋ฌธ์ œ์˜์‹์„ ๊ณต์œ ํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์–ธ์–ด ๋ชจ๋ธ์—์„œ ์ฐจํŠธ ์ƒ์„ฑ๊นŒ์ง€ ์—ญ๋ฐฉํ–ฅ ์ ‘๊ทผ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž๋™ ๋ณด๊ณ ์„œ ์ƒ์„ฑ์˜ ๋‹ค์–‘ํ•œ ๊ตฌํ˜„ ๋ฐฉ์‹์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
566์€ ํ…์ŠคํŠธ์™€ ์ฐจํŠธ๊ฐ€ ๊ฒฐํ•ฉ๋œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ์ถ”์ถœ์„ ๊ฐ•์กฐํ•˜๋ฉฐ, 091์˜ LMM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์˜์ƒ ๋ถ„๋ฅ˜์™€ ์ƒํ˜ธ๋ณด์™„์  ์ ‘๊ทผ์„ ๋ณด์—ฌ์ค€๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
566์€ ํ…์ŠคํŠธ-์ฐจํŠธ ํ˜ผํ•ฉ ๊ฒฐ๊ณผ๋ฌผ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์‹œ์Šคํ…œ์„ ์†Œ๊ฐœํ•ด, 315์™€ ์œ ์‚ฌ ๋ชฉ์ ์„ ๋ฐ์ดํ„ฐ ๋ ˆ์ด์•„์›ƒ ์ค‘์‹ฌ์œผ๋กœ ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
566์€ ํ…์ŠคํŠธ-์ฐจํŠธ/๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ interleaved reasoning์„ ์ œ์‹œํ•ด 869์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฒด์ธ ์ถ”๋ก ์— ๋‹ค๋ฅธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Multimodal deepresearcher ๋…ผ๋ฌธ์€ ํ…์ŠคํŠธยท์ฐจํŠธ๊ฐ€ ์œตํ•ฉ๋œ ์ฆ๊ฐ• ์ƒ์„ฑ ๊ธฐ๋ฐ˜ ํ•™์ˆ  ์‹œ์Šคํ…œ์„ ํƒ๊ตฌํ•˜์—ฌ, FRAG์˜ ๋ชจ๋“ˆ์‹ ๋‹ค์ค‘ ๋ฐ์ดํ„ฐํƒ€์ž… ์ง€์› ๊ธฐ๋ฒ•๊ณผ ์„ฑ๋Šฅ ๋น„๊ต๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Multimodal deepresearcher๋Š” ํ…์ŠคํŠธ-์ฐจํŠธ ๋“ฑ ์„œ๋กœ ๋‹ค๋ฅธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ์ถ”์ถœ์„ AI๋กœ ํ†ตํ•ฉํ•ด, ์ƒ๋ฌผ์ •๋ณด ๋„๊ตฌ ์ธ์‹ยท์—ฐ๊ฒฐ ๋ฌธ์ œ์— ์ƒˆ๋กœ์šด ๊ด€์ ์„ ์ œ๊ณตํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Multimodal deepresearcher ๋…ผ๋ฌธ์€ ํ…์ŠคํŠธ-์ฐจํŠธ์˜ ์ƒํ˜ธ์ฐธ์กฐ ์ถ”๋ก ์„ ๋‹ค๋ค„, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด ์ถ”์ถœ ๋ฌธ์ œ๋ฅผ ์‹ค์ œ ์—ฐ๊ตฌ์ง€์› ์›Œํฌํ”Œ๋กœ์šฐ๋กœ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
566์€ ํ…์ŠคํŠธ-์ฐจํŠธ ํ˜ผํ•ฉ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑ/์ดํ•ดํ•˜๋Š” MLLM ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•ด, 203์˜ ๋ฐ˜๋ณต์  ํ”ผ๋“œ๋ฐฑ ๋ฐ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  ์ „๋žต์˜ ํ›„์† ๋ฐœ์ „์ด๋ผ ํ•  ์ˆ˜ ์žˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
ChatMOF๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž…๋ ฅ(ํ…์ŠคํŠธ+์ด๋ฏธ์ง€) ๊ธฐ๋ฐ˜ ์žฌ๋ฃŒ ์„ค๊ณ„ ์ง€์› ์˜ˆ์‹œ๋กœ, Multimodal deepresearcher์˜ ์ฐจํŠธ ํ•ด์„ ๋ฐฉ๋ฒ•์˜ ์‹ค์ œ ์ ์šฉ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Multimodal deepresearcher๋Š” ์ฐจํŠธ์™€ ํ…์ŠคํŠธ ํ†ตํ•ฉ ์ดํ•ด ๊ฐ™์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  ๋ฐฉ๋ฒ•์„ ์‹ค์ œ ๊ณผํ•™์  ๋ฆฌ์„œ์น˜ ์ƒ์„ฑ์— ์ ์šฉํ•ด ๋ณธ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋…ผ๋ฌธ์„ ํฌ์Šคํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋ฉฐ ํ…์ŠคํŠธ-์ฐจํŠธ ๊ฒฐํ•ฉ๋œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ฒฐ๊ณผ๋ฌผ์„ ์‹ค์ œ๋กœ ์ƒ์„ฑํ•˜๊ธฐ์— ์‹ค์šฉ์  ์‘์šฉ ์ธก๋ฉด์—์„œ ์—ฐ๊ณ„๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •