์ ์: Zhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Luoxuan Weng, Yingchaojie Feng, Haozhe Feng, Minfeng Zhu, Bo Zhang, Wei Chen | ๋ ์ง: 2025 | DOI: ๋ฏธ๊ณต๊ฐ 📄 PDF
Essence
Figure 2: Multimodal DeepResearcher์ ํ๋ ์์ํฌ - 4๋จ๊ณ(์กฐ์ฌ, ์์ ๋ณด๊ณ ์ ํ
์คํธํ, ๊ณํ, ๋ฉํฐ๋ชจ๋ฌ ๋ณด๊ณ ์ ์์ฑ)๋ก ๋ถํด
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํ์ฉํ์ฌ ํ
์คํธ์ ์ฐจํธ๊ฐ ์ ๊ธฐ์ ์ผ๋ก ํตํฉ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ณด๊ณ ์๋ฅผ ์๋์ผ๋ก ์์ฑํ๋ ์์คํ
์ ์ ์ํ๋ค. ํต์ฌ ํ์ ์ ์๊ฐํ๋ฅผ ๊ตฌ์กฐํ๋ ํ
์คํธ ํํ(FDV: Formal Description of Visualization)์ผ๋ก ๋ณํํ์ฌ LLM์ ๋งฅ๋ฝ ํ์ต(in-context learning)์ ๊ฐ๋ฅํ๊ฒ ํ ์ ์ด๋ค.
How
Figure 3: FDV(Formal Description of Visualization)์ ์๋ ์๋ฆฌ - ๋ ์ด์์, ์ฒ๋, ๋ฐ์ดํฐ, ๋งํฌ์ 4๊ฐ์ง ๊ด์ ์ผ๋ก ์๊ฐํ ์บก์ฒ
4๋จ๊ณ ์์ด์ ํฑ ํ๋ ์์ํฌ:
- ์กฐ์ฌ ๋จ๊ณ(Researching)
- ์ฃผ์ด์ง ์ฃผ์ ์ ๋ํด ๊ด๋ จ ํค์๋ ์์ฑ
- ๋ฐ๋ณต์ ์ธ ์น ๊ฒ์๊ณผ ์ถ๋ก ์ ํตํด ํฌ๊ด์ ์ธ ์ ๋ณด ์์ง
- ๊ฐ ์ ๋ณด์ ์ฐธ๊ณ ๋ฌธํ ์ถ์
- ์์ ๋ณด๊ณ ์ ํ
์คํธํ(Exemplar Report Textualization)
- ์ธ๊ฐ ์ ๋ฌธ๊ฐ์ ๋ฉํฐ๋ชจ๋ฌ ๋ณด๊ณ ์๋ฅผ FDV๋ก ๊ตฌ์กฐํ
- FDV๋ ์ฐจํธ์ (1)์ ์ฒด ๋ ์ด์์, (2)ํ๋กฏํ
์ฒ๋, (3)๋ฐ์ดํฐ, (4)๋งํฌ ํ์์ 4๊ฐ์ง ๊ด์ ์บก์ฒ
- ๋งฅ๋ฝ ํ์ต ์์๋ก ํ์ฉ
- ๊ณํ ๋จ๊ณ(Planning)
- ๋ณด๊ณ ์ ๋ด์ฉ ๊ตฌ์กฐ ๋ฐ ์๊ฐํ ์คํ์ผ ๊ฐ์ด๋ ์๋ฆฝ
- ์ผ๊ด๋ ๋ฏธ์ ํํ ๋ณด์ฅ
- ๋ฉํฐ๋ชจ๋ฌ ๋ณด๊ณ ์ ์์ฑ(Multimodal Report Generation)
- ์ด์ ์์ฑ(Drafting)
- ์ฐจํธ ์ฝ๋ ์์ฑ(Coding)
- ๋ฐ๋ณต์ ์ฐจํธ ๊ฐ์ (Refining)
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ๋ณด๊ณ ์ ์๋ ์์ฑ์ด๋ผ๋ ์ค์ํ ๋ฏธ์ถฉ์กฑ ๋ฌธ์ ๋ฅผ ์ฒ์ ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฃจ์์ผ๋ฉฐ, FDV๋ผ๋ ์ฐฝ์์ ์ธ ํํ ๋ฐฉ์๊ณผ 4๋จ๊ณ ์์ด์ ํฑ ํ๋ ์์ํฌ๋ก ๊ฐ๋ ฅํ ์ฑ๋ฅ(82% ์น๋ฅ )์ ๋ฌ์ฑํ๋ค. ๋ค๋ง ํ๊ฐ ๋ฐ์ดํฐ์ ๊ท๋ชจ ํ์ฅ๊ณผ ๋ ๋ค์ํ ๋ชจ๋ธ์ ๋ํ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ๋ํ์ ์บก์
๋ฐ ์๊ฐ์๋ฃ ํด์์ ๋ํ ๊ธฐ๋ฐ ๋ฐ์ดํฐ์
/๋ฐฉ๋ฒ๋ก ์ ๋
ผ์๋ฅผ ์ ํ ์ฐ๊ตฌ๋ก ์ ์ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฐจํธ ์ด๋ฏธ์ง๋ฅผ ๊ตฌ์กฐํํ์ฌ LLM์ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด ์ถ์ถ ์ ํ์ฑ์ ๋์ด๋ ์ฐ๊ตฌ๋ก, Multimodal DeepResearcher์ ๊ธฐ์ ์ ๊ธฐ๋ฐ์ด ์ฐ๊ฒฐ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
566๋ฒ ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ์ ํ
์คํธ-์ฐจํธ ์ฐ๊ฒฐ ์ฐ๊ตฌ๋ฅผ ํตํด ํ๋์ ๊ฒฝ๊ณผํ ์๋ํ ํ์ดํ๋ผ์ธ ๊ฐ๋ฐ์ ๊ธฐ๋ณธ ์๋ฃ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋
ผ๋ฌธ ๋ด ์๊ฐ์๋ฃ์ ๋ํ ํ
์คํธ ์์ฑยท์ฃผ์ ์์ฑ ์์คํ
์ด๋ฏ๋ก, ์ฐจํธ-ํ
์คํธ ์ํธ ์ฐ๊ณ์ ์ธ๋ถ ๊ตฌํ ์ฐจ์ด๋ฅผ ํ์ธํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฒกํฐ ๊ทธ๋ํฝ์ด๋ ๊ตฌ์กฐํ๋ ์ถ๋ ฅ ์์ฑ์ ๊ดํ ์ ์ฌํ ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
552(MMSCI)๋ ๋ฉํฐ๋ชจ๋ฌ ๊ณผํ ์ด๋ฏธ์ง์ ์ธ์ด ๋ฐ์ดํฐ์
ํ๋ฆฝ์ผ๋ก, 566์ ์ฐจํธ-ํ
์คํธ ํตํฉํ ๋ฆฌํฌํธ ์์ฑ ๋ฐ ํ๊ฐ ๋ฐฉ๋ฒ๊ณผ ๋ฌธ์ ์์์ ๊ณต์ ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ธ์ด ๋ชจ๋ธ์์ ์ฐจํธ ์์ฑ๊น์ง ์ญ๋ฐฉํฅ ์ ๊ทผ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋ฉํฐ๋ชจ๋ฌ ์๋ ๋ณด๊ณ ์ ์์ฑ์ ๋ค์ํ ๊ตฌํ ๋ฐฉ์์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
566์ ํ
์คํธ์ ์ฐจํธ๊ฐ ๊ฒฐํฉ๋ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด ์ถ์ถ์ ๊ฐ์กฐํ๋ฉฐ, 091์ LMM ๊ธฐ๋ฐ ๊ณผํ ์์ ๋ถ๋ฅ์ ์ํธ๋ณด์์ ์ ๊ทผ์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฉํฐ๋ชจ๋ฌ ์ดํด ๋ฅ๋ ฅ์ ๊ฐ์ถ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ๋ค๋ฃจ๋ ์ ์ฌํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
566์ ํ
์คํธ-์ฐจํธ ํผํฉ ๊ฒฐ๊ณผ๋ฌผ์ ์์ฑํ๋ ๋ฉํฐ๋ชจ๋ฌ ์์คํ
์ ์๊ฐํด, 315์ ์ ์ฌ ๋ชฉ์ ์ ๋ฐ์ดํฐ ๋ ์ด์์ ์ค์ฌ์ผ๋ก ์ ๊ทผํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
566์ ํ
์คํธ-์ฐจํธ/๋ฉํฐ๋ชจ๋ฌ interleaved reasoning์ ์ ์ํด 869์ ๋ฉํฐ๋ชจ๋ฌ ์ฒด์ธ ์ถ๋ก ์ ๋ค๋ฅธ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Multimodal deepresearcher ๋
ผ๋ฌธ์ ํ
์คํธยท์ฐจํธ๊ฐ ์ตํฉ๋ ์ฆ๊ฐ ์์ฑ ๊ธฐ๋ฐ ํ์ ์์คํ
์ ํ๊ตฌํ์ฌ, FRAG์ ๋ชจ๋์ ๋ค์ค ๋ฐ์ดํฐํ์
์ง์ ๊ธฐ๋ฒ๊ณผ ์ฑ๋ฅ ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Multimodal deepresearcher๋ ํ
์คํธ-์ฐจํธ ๋ฑ ์๋ก ๋ค๋ฅธ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด ์ถ์ถ์ AI๋ก ํตํฉํด, ์๋ฌผ์ ๋ณด ๋๊ตฌ ์ธ์ยท์ฐ๊ฒฐ ๋ฌธ์ ์ ์๋ก์ด ๊ด์ ์ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
Multimodal deepresearcher ๋
ผ๋ฌธ์ ํ
์คํธ-์ฐจํธ์ ์ํธ์ฐธ์กฐ ์ถ๋ก ์ ๋ค๋ค, ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด ์ถ์ถ ๋ฌธ์ ๋ฅผ ์ค์ ์ฐ๊ตฌ์ง์ ์ํฌํ๋ก์ฐ๋ก ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
566์ ํ
์คํธ-์ฐจํธ ํผํฉ ๋ฐ์ดํฐ๋ฅผ ์์ฑ/์ดํดํ๋ MLLM ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ ์ํด, 203์ ๋ฐ๋ณต์ ํผ๋๋ฐฑ ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ์ ๋ต์ ํ์ ๋ฐ์ ์ด๋ผ ํ ์ ์๋ค.
์์ฉ ์ฌ๋ก
ChatMOF๋ ๋ฉํฐ๋ชจ๋ฌ ์
๋ ฅ(ํ
์คํธ+์ด๋ฏธ์ง) ๊ธฐ๋ฐ ์ฌ๋ฃ ์ค๊ณ ์ง์ ์์๋ก, Multimodal deepresearcher์ ์ฐจํธ ํด์ ๋ฐฉ๋ฒ์ ์ค์ ์ ์ฉ ์ฌ๋ก์
๋๋ค.
์์ฉ ์ฌ๋ก
Multimodal deepresearcher๋ ์ฐจํธ์ ํ
์คํธ ํตํฉ ์ดํด ๊ฐ์ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ๋ฐฉ๋ฒ์ ์ค์ ๊ณผํ์ ๋ฆฌ์์น ์์ฑ์ ์ ์ฉํด ๋ณธ๋ค.
์์ฉ ์ฌ๋ก
๋
ผ๋ฌธ์ ํฌ์คํฐ๋ก ๋ณํํ๋ฉฐ ํ
์คํธ-์ฐจํธ ๊ฒฐํฉ๋ ๋ฉํฐ๋ชจ๋ฌ ๊ฒฐ๊ณผ๋ฌผ์ ์ค์ ๋ก ์์ฑํ๊ธฐ์ ์ค์ฉ์ ์์ฉ ์ธก๋ฉด์์ ์ฐ๊ณ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.