์ ์: Jaeyoung Kim, Jongho Lee, Hong-Jun Choi, Ting-Yao Hsu, Chieh-Yang Huang, Sungchul Kim, Ryan A. Rossi, Tong Yu, C. Lee Giles, Ting-Hao Huang, Sungchul Choi | ๋ ์ง: 2025 | DOI: N/A 📄 PDF
Essence
๊ณผํ ๋
ผ๋ฌธ์ ๋ํ(figure) ์บก์
์์ฑ์ ์๊ฐ ์ ๋ณด์ ํ
์คํธ ๋ฌธ๋งฅ์ ๋ชจ๋ ํ์ฉํด์ผ ํ๋ ๋ณตํฉ ์์
์ธ๋ฐ, ๋ณธ ๋
ผ๋ฌธ์ ์ฌ๋ฌ LLM์ ํ์
์ ํตํด ๊ณ ํ์ง ์บก์
์ ์๋ ์์ฑํ๋ ํตํฉ ํ๋ ์์ํฌ MLBCAP๋ฅผ ์ ์ํ๋ค.
Evaluation
์ดํ: ๊ณผํ ๋ํ ์บก์
์์ฑ์ ํ์ค์ ๊ณผ์ (์ ํ์ง ํ๋ จ ๋ฐ์ดํฐ, ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด ํตํฉ)๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํ๋ ์ค์ฉ์ ํ๋ ์์ํฌ์ด๋ฉฐ, ์ธ๊ฐ ํ๊ฐ๋ฅผ ํตํ ์ฐ์์ฑ ์
์ฆ์ด ๊ฐ์ ์ด๋, ๊ฒฝ์ ์ฑ ์๋ ๋ชจ๋ธ ๊ฒฝ๋ํ ๋ฐ ํ๊ฐ์ ํต๊ณ์ ์๋ฐ์ฑ ๊ฐํ๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
SciCap์ ๊ณผํ์ ๋ํ ์บก์
์์ฑ์ฉ ๋ฐ์ดํฐ์
๊ณผ ๋ชจ๋ธ๋ก, MLBCAP ํ๋ ์์ํฌ๊ฐ ๋ฐ์ ์ํจ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ ์ญํ ์ ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ๋
ผ๋ฌธ์ ๊ทธ๋ฆผ์์ ๋ํ-์บก์
์๋ ์์ฑ ์์คํ
๊ณผ ๊ด๋ จ๋ ์ค์ ๋ฐ์ดํฐ ๋ฐ ๋ชจ๋ธ ํ๊ฐ ์งํ๋ฅผ ์ ์ํ์ฌ, ๋ฉํฐ LLM ํ์
๊ธฐ๋ฐ์ caption ์์ฑ ์ ๋ต ์ค๊ณ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Multi-llm collaborative caption generation ๋
ผ๋ฌธ์ ๋ค๊ตญ์ด ๋ฐ ๋ค์ค LLM ๊ธฐ๋ฐ ํ ์บก์
์์ฑ ๊ณผ์ ๋ฅผ ๋ค๋ค, AUTOCAP์ cross-lingual CoT ์ถ๋ก ์๋ํ์ ์ด๋ก ์ ํ๋น์ฑ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ๋ํ๋จผํธ์์ ๋ฉํฐ ์์ด์ ํธ ๊ธฐ๋ฐ ์บก์
์์ฑ ๊ธฐ๋ฒ์ด ํฌ์คํฐ ์๋ํ ๋ด ์๊ฐ-์ธ์ด ํผ๋๋ฐฑ ๊ตฌ์กฐ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
564๋ ๋ค์์ LLM์ด ํ์
ํ์ฌ ๊ณผํ ๋ํ ์บก์
์์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์ ๊ทผ์ผ๋ก, 709์ ๋ฉํฐ๋ชจ๋ฌ ์ปจํ
์คํธ์ ๋น๊ต์ ์ฝ์ ๊ฐ์น๊ฐ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Multi-llm collaborative caption generation in scientific documents ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋ค์ํ ์ฆ๊ฑฐ ๊ฐ์กฐ ๋ฐฉ์์ด ๊ณผํ ๋ํ ๋ฐ ํ ์์ฑ์ ํ์ง์ ์ด๋ค ์ํฅ์ ์ฃผ๋์ง ์ค์ฆ์ ์ผ๋ก ์ฐ๊ตฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ๋ ฅ์ ๋ฉํฐ-LLM ์บก์
์์ฑ ๋ฐ ๊ฒ์ฆ์์ ์์ ์ค์ง๋ํ์ต ๊ธฐ๋ฐ ํฌ์ฆ ์ถ์ ๊ณผ์ ์ ์์ดํ ์๋ ๋ ์ด๋ธ ํ์ง ๊ฐ์ ๋ฐฉ๋ฒ์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํนํ ๋๋ฉด์์์ ์บก์
์์ฑ ๊ณผ์ ๋ฅผ ํตํด, ๋๋ฉด-ํ
์คํธ ๋ฉํฐ๋ชจ๋ฌ ์บก์
์์ฑ ๋ฐฉ์์ ์ฐจ์ด๋ฅผ ํ์
ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Multi-llm collaborative caption generation์ ๊ณผํ ๋ฌธ์์ ๊ทธ๋ฆผ ์บก์
์์ฑ์ ๋ค์ํ ํ์
์ LLM ์ ๋ต์ ์คํํ์ฌ EPM ์ ๊ทผ๊ณผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
564๋ฒ ๋
ผ๋ฌธ์ ๋ค์ค LLM ํ๋ ฅ ๊ธฐ๋ฐ ๊ณผํ๋ฌธ์ ์บก์
์์ฑ์ ์ฃผ๋ชฉํด, 401๋ฒ์ ๊ทธ๋ํ ์์ฝ ์ ๊ทผ๊ณผ ์๋ฏธ ์ถ์ถ ํจ๋ฌ๋ค์์์ ๋์ฒด์ ๊ด์ ์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Multi-LLM ํ์
์ ํตํ ๊ณผํ ์บก์
์์ฑ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ, ์ค์ ๋
ผ๋ฌธ ์ ์์ AI ์บก์
ํ์ฉ ๋ฐฉ์ ํ๊ตฌ์ ์ํธ ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋ฌธ์์์ ์๊ฐ ์ ๋ณด์ ํ
์คํธ ์ ๋ณด๋ฅผ ๊ฒฐํฉํด ์บก์
์ ์์ฑํ๋ ๋ค์ค ๋ชจ๋ธ ํ๋ ์์ํฌ๋ก ์๊ฐ-์ธ์ด ํตํฉ ์ ๊ทผ๋ฒ์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋
ผ๋ฌธ ๋ชจ๋ ๊ณผํ ๋ฌธ์์์ ์๊ฐ์ ์์์ ์๋ ์บก์
์์ฑ์ ๋ค๋ฃจ์ง๋ง, 564๋ ๋ฉํฐLLM ํ๋ ฅ์ ๊ฐ์กฐํ๋ ๋ฐ๋ฉด 773์ ํฌ๋ฆฌ์์ดํฐ ์์ด์ ํธ ์ํฌํ๋ก์ฐ๋ฅผ ๋ชจ๋ฐฉํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Multi-llm collaborative caption generation ๋
ผ๋ฌธ๋ ๊ณผํ ๋ฌธ์ ๋ด ์๊ฐ ์ฝํ
์ธ ์ ๋ํด LLM ๊ธฐ๋ฐ ์บก์
์์ฑ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ฏ๋ก, ํฌ์คํฐ ์์ฑ ์๋ํ์ ๋ฐ์ ํ ์ฐ๊ด์ด ์๋ค.
ํ์ ์ฐ๊ตฌ
Two heads are better than one ๋
ผ๋ฌธ์ ๋ค์ค ์์ด์ ํธ ํ์
์ด ์ฐฝ์์ ๊ฒฐ๊ณผ๋ฅผ ๋์์ ๋ณด์ฌ, MLBCAP์ multi-LLM ํ์
๋
ผ๋ฆฌ์ ๋ํ ์ค์ฆ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
564๋ ๋ค์ค LLM ํ์
์ ํตํ ๊ณผํ ์ด๋ฏธ์ง ์บก์
์์ฑ ์ฐ๊ตฌ๋ก, 515์ ์ธ๊ฐ ์ค์ฌ ์ด๋ฏธ์ง ์์ ์ง์์ AI ์ค์ฌ ๋ถ์ฐํ ์ ๋ชฉ์ผ๋ก ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
โMulti-llm collaborative caption generationโ ๋
ผ๋ฌธ์ ๋ค์์ LLM ํ๋ ฅ ๊ตฌ์กฐ๋ฅผ ํตํด ์บก์
ํ์ง ํฅ์๋ฒ์ ์ค์ฆ์ ์ผ๋ก ๋ณด์ฌ์ค ํ์ง ํ๊ฐ ๊ด์ ์์ ์๋์ง๊ฐ ์๋ค.
ํ์ ์ฐ๊ตฌ
Multi-llm collaborative caption generation ๋
ผ๋ฌธ์ ๋ค์ค LLM์ ์ด์ฉํ ํ๋ ฅ์ ์บก์
์์ฑ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, 605์ ๊ฐ์ด ๋ํ ์บก์
์๋ํ ๋๋ฉ์ธ์ ํ์ค์ ์ฑ๋ฅ ํ๊ณ๋ฅผ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
564๋ ๋
ผ๋ฌธ ๋ํ ๋ด ๋ค์ค LLM ํ์
์บก์
์์ฑ์ ์ ์ํ์ฌ, 338์ ๋ฉํฐ๋ชจ๋ฌ ์ ๊ทผ๋ฒ์ ํ์ฅํ ์คํ ์ฐ๊ตฌ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
564๋ ๋ค์ค LLM ํ์
๊ธฐ๋ฐ ์บก์
์์ฑ ํ๋ ์์ํฌ๋ฅผ ๋์
ํจ์ผ๋ก์จ, 157์ ์ด์ง์ ๊ณํ ๋ชจ๋ธ์ ๋ค์ค ์์ด์ ํธ ํ๊ฒฝ ํ์์ ์คํ ๊ฐ๋ฅํ๊ฒ ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
Scidqa๋ ๊ณผํ ๋
ผ๋ฌธ ๋ด ์ฌ์ธต์ ํ
์คํธโ๊ทธ๋ฆผ ๋งฅ๋ฝ ๋ถ์์ ํตํด ์บก์
์์ฑ ๋ชจ๋ธ ํ๊ฐ ๊ด์ ์์ MLBCAP์ ํ์ฅ ์์ฉ์ฌ๋ก๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค.
์์ฉ ์ฌ๋ก
์บก์
์์ฑ ์ ์ค์ AI ์์ฑ ํ
์คํธ ํ์ฉ ์ฌ๋ก ๋ฐ ๊ทธ ํ๊ณ๋ฅผ ๋ถ์ํ์ฌ, MLBCAP ๋ฐฉ์์ ์คํจ์ฑ๊ณผ ํ์ฅ ๋์
์์ฌ์ ํ์ธ์ ๋์์ด ๋ฉ๋๋ค.