Essence
์ ํต์ ๊ต์ฐจ์ธ์ด ์๊ธฐ์ผ๊ด์ฑ ํ๋ ์์ํฌ(a)์ ์ ์ ๋ฐฉ๋ฒ AUTOCAP(b)์ ๋น๊ต. ๊ธฐ์กด ๋ฐฉ๋ฒ์ ์๋์ผ๋ก ์ธ์ด์ ๊ฐ์ค์น๋ฅผ ์ง์ ํ์ง๋ง, AUTOCAP์ ์๋์ผ๋ก ์ต์ ์ธ์ด์ ๊ฐ์ค์น๋ฅผ ์ ํํ๋ค.
๋ณธ ๋
ผ๋ฌธ์ ๋ค๊ตญ์ด Chain-of-Thought(CoT) ์ถ๋ก ์์ ์ธ์ด ์ ํ๊ณผ ๊ฐ์ค์น ํ ๋น์ ์๋ํํ๋ AUTOCAP(Automatic Cross-lingual Alignment Planning) ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์๋ ์ธ์ด ์ง์ ๊ณผ ๋์ผ ๊ฐ์ค์น ํ ๋น์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ์ฌ ์์ ๊ต์ฐจ์ธ์ด(zero-shot cross-lingual) ์ถ๋ก ์ ๊ฐ์ ํ๋ค.
How
๋จ์ผ ๋ผ์ด๋ AUTOCAP์ ์ ํ๋ ๋ถ์
์๋ ์ธ์ด ์ ํ ํ๋กฌํํ
(ALSP, ยง3.1):
- LLM์ด ์ฃผ์ด์ง ์ฟผ๋ฆฌ, ์๋ฌธ ์ธ์ด, ์ธ์ด ์ ๋ณด(์ธ์ด์กฑ, ์ธ์ด์ง์กฑ, ํ์ต ๋ฐ์ดํฐ ๋น์จ)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก N๊ฐ์ ์ต์ ์ธ์ด ์๋ ์ ํ
- ์์: $L'_{tgt} = \arg\max_L \sum_{i=1}^{N} P(L_i^{tgt}|Q, L_{src}, L_i^{info})$ (์ 6)
- ํ๋กฌํํธ: "๊ท ๊ณผ์ ๋ ์ฃผ์ด์ง [์๋ฌธ ์ธ์ด] ์ํ์ ๋ํด ๊ต์ฐจ์ธ์ด ์ถ๋ก ์ ์ต์ ์ธ [์ ํ ๊ฐ์ N]๊ฐ ์ธ์ด๋ฅผ ์ ํํ๋ ๊ฒ์
๋๋ค..."
์๋ ๊ฐ์ค์น ํ ๋น ํ๋กฌํํ
(AWAP, ยง3.2):
- ์ ํ๋ ๊ฐ ์ธ์ด์ ์ถ๋ก ๊ฒฝ๋ก์ ๋ํด ์ฟผ๋ฆฌ ๊ด๋ จ์ฑ์ ๋ฐ๋ผ ๋์ ๊ฐ์ค์น ํ ๋น
- ์์: $W'_i = \arg\max_{w \in W_{range}} p(w|Q, L_{src} \to L_i'^{tgt}, L_i^{info})$ (์ 7)
- ๊ฐ์ค์น ๋ฒ์๋ฅผ ์ค์ ํ์ฌ LLM์ด ์ ์ ํ ๋น ์ ์ผ๊ด์ฑ ์ ์ง
๊ต์ฐจ์ธ์ด ํ๋กฌํํ
์ผ๊ด์ฑ(ยง3.3):
- ๊ฐ์ค์น๊ฐ ์ ์ฉ๋ ์ถ๋ก ๊ฒฐ๊ณผ๋ค์ ํตํฉํ์ฌ ์ต์ข
๋ต๋ณ ๋์ถ
- ์์: $\hat{R} = \arg\max_{R \in \mathcal{R}} \sum_{i=1}^{N} \sum_{r \in R} W'_i \cdot \mathbb{1}(R=r)$ (์ 8)
- ์ง์์ ํจ์(indicator function)๋ฅผ ํตํด ๊ฐ ์ธ์ด๋ณ ํฌํ ๊ฐ์ค์น ๋ฐ์
Evaluation
์ดํ: AUTOCAP์ ๊ต์ฐจ์ธ์ด CoT์์ ์๋ ์ธ์ด ์ง์ ์ ๋ถ๋ด์ ์๋ฒฝํ ์ ๊ฑฐํ๊ณ ๋์ ๊ฐ์ค์น ํ ๋น์ ํตํด ์ค์ง์ ์ฑ๋ฅ ํฅ์์ ์ด๋ฃจ์ด๋ธ ์ค์ฉ์ ์ด๊ณ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ด๋ค. ๋ค๋ง ํ๋กฌํํ
๊ธฐ๋ฐ์ ๊ทผ๋ณธ์ ํ๊ณ์ ๊ณ์ฐ ํจ์จ์ฑ์ ๋ํ ๋ถ์ ๋ณด์์ด ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
858 ๋
ผ๋ฌธ์ ๋น์ง๋ ๊ต์ฐจ์ธ์ด ํํ ํ์ต์ ๋๊ท๋ชจ ์ฐ๊ตฌ๋ก, 119์์ ์ ์ํ cross-lingual alignment ์๋ํ์ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
SimAlign ๋
ผ๋ฌธ์ ๋ณ๋ ฌ ๋ง๋ญ์น ์์ด ๋จ์ด ์ ๋ ฌ ์ฑ๋ฅ์ ์ธก์ ํ์ฌ ๊ต์ฐจ์ธ์ด ์ ๋ ฌ ๊ธฐ๋ฒ์ ์ด๋ก ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Figuring out figures ๋
ผ๋ฌธ์ ๊ณผํ ๋
ผ๋ฌธ์์์ ๊ทธ๋ฆผ ํ
์คํธ ์๋ ์์ฑ/์ ๋ ฌ ๋ฌธ์ ๋ฅผ ์ฐ๊ตฌํ์ฌ, AUTOCAP์ ์ ๋ก์ท ํฌ๋ก์ค์ธ์ด ์ ๋ ฌ ๊ณผ์ ์ ์ค์ง์ ์ฐ๊ฒฐ์ ์ด ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Autocap ๋
ผ๋ฌธ์ ๊ต์ฐจ์ธ์ด์ ์ ๋ ฌ๊ณํ ๋ฐ ์ํฌํ๋ก์ฐ ์๋ํ ๊ธฐ๋ฒ์ ์์ธํ ์๊ฐํ์ฌ ์ง๋ฆฌ๊ณต๊ฐ ๋ถ์ ์๋ํ์๋ ์ ์ฉ ๊ฐ๋ฅํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Multi-llm collaborative caption generation ๋
ผ๋ฌธ์ ๋ค๊ตญ์ด ๋ฐ ๋ค์ค LLM ๊ธฐ๋ฐ ํ ์บก์
์์ฑ ๊ณผ์ ๋ฅผ ๋ค๋ค, AUTOCAP์ cross-lingual CoT ์ถ๋ก ์๋ํ์ ์ด๋ก ์ ํ๋น์ฑ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ์ ๊ฐ์ค ์์ฑ์์ ๊ฒ์ ๋ฐ ์ ๋ณด ์ ๋ ฌ ๊ธฐ์ ์ ์ญํ ์ ์ ๋ฆฌํ์ฌ, ์ค์ ๋
ผ๋ฌธ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ๊ฐ(๋ณธ ๋
ผ๋ฌธ)์ ์ด๋ก ์ ๊ทผ๊ฑฐ๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ์ ์ง์ ์ ๋ ฌ ๋ฐ ์ ํฉ์ฑ ํ๋ณด ์ ๋ต ๋
ผ๋ฌธ์ผ๋ก, ๋จ์ผ ์์ด๋ก ์งํ ๊ฒฝ๋ก์ ์ ์ฝ์ ์ธ์ฝ๋ฉํ๋ ๋จ๋ฐฑ์ง ์ธ์ด๋ชจ๋ธ ํ์ฉ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํฌ๋ก์ค๋ง๊ตฌ์ผ ์ ๋ ฌ ๋ฐ ํ๋๋ ๋ฌธ์ ์ ๋ํ ์๋ ๊ณํ๊ณผ ๋ฉํฐ์์ด์ ํธ ํ์
์ ์ฉ์ ์ต์ ๋ฐฉ์์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
119 ๋
ผ๋ฌธ์ ์๋ ์บก์
์์ฑ ๋ฐ ํฌ๋ก์ค๋ง๊ตฌ์ผ ์ ๋ ฌ์ ๋ค๋ฃธ์ผ๋ก์จ ๋ฐฑํธ๋์ฌ๋ ์ด์
๊ธฐ๋ฐ ์ ์์ ์ธ์ด ์ฐ๊ตฌ์ ๋์์ ์ฌ๋ก๊ฐ ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
๊ณผํ์ ๊ทธ๋ฆผ ๋ฐ ๋ํ์ ๋ค๊ตญ์ด ์บก์
์์ฑ ๋ฌธ์ ๋ฅผ ๊ธฐ๋ฅ์ ์ผ๋ก ํ์ฅํ๊ณ , CoT ๊ธฐ๋ฐ์ ์ธ์ด ์ ๋ ฌ ๊ธฐ๋ฒ์ ์ค์ ๊ณผํ AI ์ํฌํ๋ก์ ์ ์ฉํจ.
ํ์ ์ฐ๊ตฌ
119๋ฒ ๋
ผ๋ฌธ์ LLM์ด ์ค์ ํ
์คํธ ์์ฑ ๊ณผ์ ์์ ์ ์ด(Transfer) ๊ณํ์ ์ํํ๋ ๋ฐฉ์์ ๋ถ์ํ์ฌ 899๋ฒ์ ๊ณผํ๊ณ ํ์ฉ ์ค์ ๋์ ๊ณผ์ ๋ฅผ ๋ณด์ํ๋ค.
ํ์ ์ฐ๊ตฌ
245 ๋
ผ๋ฌธ์ ๋ค๊ตญ์ด LLM์ ๊ต์ฐจ์ธ์ด ์ง์์ฅ๋ฒฝ์ ์ฌ์ธต์ ์ผ๋ก ์ง๋จํ๋ฉฐ, 119์ AUTOCAP ํ๋ ์์ํฌ ๊ฐ๋ฐ ๋๊ธฐ๋ฅผ ๋ฌธ์ ๋ถ์ ์ฐจ์์์ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
119๋ ์ธ์ด๋ชจ๋ธ์ ํตํ ํฌ๋ก์ค๋ง๊ตฌ์ผ ์ ๋ ฌ ๋ฐ ์์
์๋ํ๋ฅผ ๋
ผ์ํ๋ฉฐ, 1092์ ๋ฐ๋ณต ๋ฏธ์ธ์กฐ์ ์ ๊ทผ์ ์ค์ฉ์ ํ์ฅ ๋ฐฉ์์ด ๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM ์ฐ์ถ๋ฌผ์ ์๊ธฐ-๊ฐ์ ๋ฐ ์ธ๊ฐ๊ณผ์ ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋ฉํ๋ฌ๋/์๊ธฐ ํผ๋๋ฐฑ ํ๋ ์์ํฌ ๊ฐ๋ฐ๋ก, ๊ณต์งํ ๋ฉ์ปค๋์ฆ ์ฌ์ธต๋ถ์์ ๊ธฐ์ฌํฉ๋๋ค.
์์ฉ ์ฌ๋ก
119๋ฒ AUTOCAP ํ๋ ์์ํฌ๊ฐ 245์์ ์ธ๊ธํ ์๋ฌต์ ๊ต์ฐจ์ธ์ด ์ง์ ์ฅ๋ฒฝ ๊ทน๋ณต์ ์คํ์ ์ผ๋ก ์๋ํ๋ฏ๋ก, ์ฐ๊ตฌ์ ๊ด๊ณ๊ฐ ๋ช
ํํฉ๋๋ค.
์์ฉ ์ฌ๋ก
Autocap ๋
ผ๋ฌธ์ ๋จ๋ฐฑ์ง/์ ์ ์ ๋ฑ ์๋ช
๊ณผํ ๋ฐ์ดํฐ์ ํฌ๋ก์ค๋ง๊ตฌ์ผ alignment์ ์ด์ ์ ๋ง์ถ์ด ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ์ค์ง์ ํ์ฉ ์์๋ฅผ ์ ๊ณตํฉ๋๋ค.