์ ์: Ashish Singh, Prateek Agarwal, Zixuan Huang, Arpita Singh, Tong Yu, Sungchul Kim, Victor Bursztyn, Nikos Vlassis, Ryan A. Rossi | ๋ ์ง: 2023 | DOI: 10.48550/ARXIV.2307.10867 📄 PDF
Essence
๊ณผํ ๋
ผ๋ฌธ์ ๊ทธ๋ฆผ์ ์ค๋ช
ํ๋ ์บก์
์์ฑ ๋ชจ๋ธ์ ์ธ๊ฐ ํผ๋๋ฐฑ๊ณผ ๊ฐํํ์ต(RLHF)์ผ๋ก ์ต์ ํํ๋ ํ๋ ์์ํฌ์ ๋๊ท๋ชจ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์ ์ ์ํ๋ค. ๊ธฐ์กด์ ๋ฎ์ ํ์ง ์บก์
๋ฐ์ดํฐ๋ฅผ ํ์ตํ ๋ชจ๋ธ ๋์ , ๋๋ฉ์ธ ์ ๋ฌธ๊ฐ ํผ๋๋ฐฑ์ผ๋ก ํ์ต๋ ๋ณด์ ๋ชจ๋ธ์ ํตํด ๋
์ ์ ํธ๋์ ์ ๋ ฌ๋ ๊ณ ํ์ง ์บก์
์์ฑ์ ๋ฌ์ฑํ๋ค.
Evaluation
์ดํ: ์ด ๋
ผ๋ฌธ์ ๊ทธ๋ฆผ ์บก์
์์ฑ์ ํ์ค์ ๋ฌธ์ (์ ํ์ง ํ์ต ๋ฐ์ดํฐ)๋ฅผ ์ธ๊ฐ ํผ๋๋ฐ๊ณผ ์คํ๋ผ์ธ ๊ฐํํ์ต์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๊ณ , ๋๊ท๋ชจ ๊ณต๊ฐ ๋ฒค์น๋งํฌ ๊ธฐ์ฌ๋ก ์ปค๋ฎค๋ํฐ ๊ฐ์น๋ฅผ ์ ๊ณตํ๋ค. ๋ค๋ง ํ๊ฐ ๋ฉํธ๋ฆญ ๊ฒ์ฆ์ ์๋ฐ์ฑ ๊ฐํ์ ๋ค์ํ ๋๋ฉ์ธยท๋ชจ๋ธ์ ๋ํ ์ผ๋ฐํ ๊ฒ์ฆ์ด ์งํ๋๋ฉด ๋์ฑ ๊ฐํ ๋
ผ๋ฌธ์ด ๋ ์ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
SciCap ๋
ผ๋ฌธ์ ๊ณผํ ๋
ผ๋ฌธ ๊ทธ๋ฆผ์ ๋ํ ์ง์ ๊ธฐ๋ฐ ์บก์
์์ฑ ๋ชจ๋ธ ๋ฐ ๋ฐ์ดํฐ์
์ ์ ๊ณตํ์ฌ, 336์ ๋ฒค์น๋งํฌ ๋ฐ ์์ฑ ๋ชจ๋ธ ๊ฐ๋ฐ์ ๊ธฐ๋ฐ ์๋ฃ ์ญํ ์ ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
336์ ๋ํ-์บก์
์์ฑ ๋ฐ ๋ฒค์น๋งํน ์ฐ๊ตฌ๋ 807์์ ๊ธดํ์ ๋ฉํฐ๋ชจ๋ฌ ์ค๋ช
๋น๋์ค ์์ฑ์ ์๊ฐ ์ ๋ณด ์์ฝ ๋ฐ ํํ ์ธก๋ฉด์์ ๋งค์ฐ ์ค์ํ ๊ธฐ์ ์ ํ ๋๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
336์ ๊ณผํ ๋
ผ๋ฌธ ๋ํโ์บก์
์์ฑ ๋ฒค์น๋งํฌ๋ก, 773์์ ๋
ผ๋ฌธ์ ์งง์ ๋์์ ๋ฑ ๋น์ ํ ์๊ฐ ์ปจํ
์ธ ๋ก ๋ณํํ๋ ๊ธฐ์ ์ ์บก์
๋ถ๋ถ๊ณผ ์ง๊ฒฐ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ๋
ผ๋ฌธ์ ๊ทธ๋ฆผ์์ ๋ํ-์บก์
์๋ ์์ฑ ์์คํ
๊ณผ ๊ด๋ จ๋ ์ค์ ๋ฐ์ดํฐ ๋ฐ ๋ชจ๋ธ ํ๊ฐ ์งํ๋ฅผ ์ ์ํ์ฌ, ๋ฉํฐ LLM ํ์
๊ธฐ๋ฐ์ caption ์์ฑ ์ ๋ต ์ค๊ณ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciBERT๋ ๋๋ฉ์ธ ํนํ ํผ๋๋ฐฑ ๋ฐ ๋๋ฉ์ธ ์ ํฉ์ฑ ๊ธฐ๋ฐ ๊ณผํ ํ
์คํธ ์์ฑ ๋ฅ๋ ฅ์ ์คํ์ ์ผ๋ก ๋น๊ตํ๋ ๋์์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋
ผ๋ฌธ ๊ทธ๋ฆผ ์บก์
์์ฑ๊ณผ์ ์์ ์
๋ ฅ ํ
์คํธ ํ์ง ๊ฐ์ ๋ฐ ์์ฐ์ค๋ฌ์ด ์์ฑ์ด ์ค์ํ๋ฏ๋ก, ๋ฌธ์ฅ ์ ์ฐฝ์ฑ ๋ณํ ๊ด์ ์์ 272๋ฒ๊ณผ ์ฐธ๊ณ ํ ๋งํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
336 ๋
ผ๋ฌธ์ ๊ณผํ ์ด๋ฏธ์ง์์ ์บก์
์ ์์ฑํ๋ ๋ ๋ค๋ฅธ ๋ฒค์น๋งํฌ ๋ฐ ํ๋ ์์ํฌ๋ฅผ ์๊ฐํด, ๋ฐ์ดํฐ์
๋ฐ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ๋ค์์ฑ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
FigCaps-HF๋ ๋๋ฉ์ธ ์ ๋ฌธ๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ RLHF ์บก์
์์ฑ์ผ๋ก, ์ฆ๊ฑฐ ํ์ด๋ผ์ดํธ/๊ฐํ ๋ฐฉ์์ด ๋ค๋ฅด๋ฉด์๋ ์์ฉ ๋ชฉ์ ์ด ๊ฐ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Figuring out figures ๋
ผ๋ฌธ์ ํ
์คํธ ๋ด ์ฐธ์กฐ๋ฅผ ํ์ฉํ ๊ณผํ ๊ทธ๋ฆผ ์บก์
์๋ ์์ฑ ๋ฐฉ๋ฒ์ ์ ์ํด, FigCaps-HF์ RLHF ๊ธฐ๋ฐ ํ๋ ์์ํฌ์ ๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก ์ฐธ๊ณ ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
125๋ฒ ๋
ผ๋ฌธ์ ์ด๋ฏธ์ง-ํฌ-์ฝ๋ ๋ฌธ์ ๋ 336๋ฒ ๋
ผ๋ฌธ์ ์ด๋ฏธ์ง-ํฌ-์บก์
์์ฑ๊ณผ ๋น์ทํ ๊ตฌ์กฐ์ ๋์ด๋๋ฅผ ๊ฐ์ง๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
FigCaps-HF ๋
ผ๋ฌธ์ ๋ํ ์บก์
์์ฑ์ ๋์ฒด์ ์ฒด๊ณ๋ก, ๋์ ยท๊ณํ์ ์ ๊ทผ๋ฒ๊ณผ ํ
ํ๋ฆฟ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
FigCaps-HF๋ ๊ณผํ ๊ทธ๋ฆผ์์ ์บก์
์์ฑ์ ์ํ ๋์์ ๋ชจ๋ธ ๋ฐ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
FigCaps-HF ๋
ผ๋ฌธ๋ S1-MMAlign์ฒ๋ผ ๊ณผํ ๋๋ฉ์ธ์์์ ์ด๋ฏธ์ง-์บก์
๋ฐ์ดํฐ์
๊ตฌ์ถ ๋ฐ ์์ฑ ๊ณผ์ ๋ฅผ ์งํํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
โMulti-llm collaborative caption generationโ ๋
ผ๋ฌธ์ ๋ค์์ LLM ํ๋ ฅ ๊ตฌ์กฐ๋ฅผ ํตํด ์บก์
ํ์ง ํฅ์๋ฒ์ ์ค์ฆ์ ์ผ๋ก ๋ณด์ฌ์ค ํ์ง ํ๊ฐ ๊ด์ ์์ ์๋์ง๊ฐ ์๋ค.