Autocap: Towards automatic cross-lingual alignment planning for zero-shot chain-of-thought

์ €์ž: Yongheng Zhang, Qiguang Chen, Min Li, Wanxiang Che, Libo Qin | ๋‚ ์งœ: 2024 | DOI: ๋ฏธ์ œ๊ณต 📄 PDF


Essence

Figure 1

์ „ํ†ต์  ๊ต์ฐจ์–ธ์–ด ์ž๊ธฐ์ผ๊ด€์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ(a)์™€ ์ œ์•ˆ ๋ฐฉ๋ฒ• AUTOCAP(b)์˜ ๋น„๊ต. ๊ธฐ์กด ๋ฐฉ๋ฒ•์€ ์ˆ˜๋™์œผ๋กœ ์–ธ์–ด์™€ ๊ฐ€์ค‘์น˜๋ฅผ ์ง€์ •ํ•˜์ง€๋งŒ, AUTOCAP์€ ์ž๋™์œผ๋กœ ์ตœ์  ์–ธ์–ด์™€ ๊ฐ€์ค‘์น˜๋ฅผ ์„ ํƒํ•œ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์€ ๋‹ค๊ตญ์–ด Chain-of-Thought(CoT) ์ถ”๋ก ์—์„œ ์–ธ์–ด ์„ ํƒ๊ณผ ๊ฐ€์ค‘์น˜ ํ• ๋‹น์„ ์ž๋™ํ™”ํ•˜๋Š” AUTOCAP(Automatic Cross-lingual Alignment Planning) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์˜ ์ˆ˜๋™ ์–ธ์–ด ์ง€์ •๊ณผ ๋™์ผ ๊ฐ€์ค‘์น˜ ํ• ๋‹น์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜์—ฌ ์˜์  ๊ต์ฐจ์–ธ์–ด(zero-shot cross-lingual) ์ถ”๋ก ์„ ๊ฐœ์„ ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

AUTOCAP์˜ ์ „์ฒด ์›Œํฌํ”Œ๋กœ์šฐ. ์ž๋™ ์–ธ์–ด ์„ ํƒ ํ”„๋กฌํ”„ํŒ…(ยง3.1)๊ณผ ์ž๋™ ๊ฐ€์ค‘์น˜ ํ• ๋‹น ํ”„๋กฌํ”„ํŒ…(ยง3.2), ๊ทธ๋ฆฌ๊ณ  ์ž๋™ ๊ต์ฐจ์–ธ์–ด ํ”„๋กฌํ”„ํŒ… ์ผ๊ด€์„ฑ(ยง3.3)์œผ๋กœ ๊ตฌ์„ฑ

  1. ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ: MGSM ๋ฒค์น˜๋งˆํฌ์—์„œ ํ‰๊ท  78.6% ์ •ํ™•๋„๋กœ ์ด์ „ ์ตœ๊ณ  ๋ฐฉ๋ฒ•(Cross-ToT, ์•ฝ 84% ํŠน์ • ์–ธ์–ด)์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ข…ํ•ฉ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ (ํ‘œ 1)
  2. ์ˆ˜๋™ ๋…ธ๋ ฅ ์ œ๊ฑฐ: ์ˆ˜๋™์œผ๋กœ ์–ธ์–ด๋ฅผ ์„ ํƒํ•œ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค(CLSP 75.5%)๊ณผ ๋น„๊ตํ•˜์—ฌ ์ž๋™ํ™”๋œ AUTOCAP(78.6%)์ด ๋” ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ์œผ๋กœ ์ธ์  ๊ฐœ์ž… ๋ถˆํ•„์š”์„ฑ ์ž…์ฆ
  3. ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๊ฐ•ํ™”: ๋‹ค์–‘ํ•œ ์–ธ์–ด ์กฐํ•ฉ๊ณผ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฐ•ํ•œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ์‹œ์—ฐ

How

Figure 3

๋‹จ์ผ ๋ผ์šด๋“œ AUTOCAP์˜ ์ •ํ™•๋„ ๋ถ„์„

์ž๋™ ์–ธ์–ด ์„ ํƒ ํ”„๋กฌํ”„ํŒ…(ALSP, ยง3.1):

์ž๋™ ๊ฐ€์ค‘์น˜ ํ• ๋‹น ํ”„๋กฌํ”„ํŒ…(AWAP, ยง3.2):

๊ต์ฐจ์–ธ์–ด ํ”„๋กฌํ”„ํŒ… ์ผ๊ด€์„ฑ(ยง3.3):

Originality

Limitation & Further Study

Evaluation

์ดํ‰: AUTOCAP์€ ๊ต์ฐจ์–ธ์–ด CoT์—์„œ ์ˆ˜๋™ ์–ธ์–ด ์ง€์ •์˜ ๋ถ€๋‹ด์„ ์™„๋ฒฝํžˆ ์ œ๊ฑฐํ•˜๊ณ  ๋™์  ๊ฐ€์ค‘์น˜ ํ• ๋‹น์„ ํ†ตํ•ด ์‹ค์งˆ์  ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋ฃจ์–ด๋‚ธ ์‹ค์šฉ์ ์ด๊ณ  ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์ด๋‹ค. ๋‹ค๋งŒ ํ”„๋กฌํ”„ํŒ… ๊ธฐ๋ฐ˜์˜ ๊ทผ๋ณธ์  ํ•œ๊ณ„์™€ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์— ๋Œ€ํ•œ ๋ถ„์„ ๋ณด์™„์ด ํ•„์š”ํ•˜๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
858 ๋…ผ๋ฌธ์€ ๋น„์ง€๋„ ๊ต์ฐจ์–ธ์–ด ํ‘œํ˜„ ํ•™์Šต์˜ ๋Œ€๊ทœ๋ชจ ์—ฐ๊ตฌ๋กœ, 119์—์„œ ์ œ์‹œํ•œ cross-lingual alignment ์ž๋™ํ™”์˜ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
SimAlign ๋…ผ๋ฌธ์€ ๋ณ‘๋ ฌ ๋ง๋ญ‰์น˜ ์—†์ด ๋‹จ์–ด ์ •๋ ฌ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•˜์—ฌ ๊ต์ฐจ์–ธ์–ด ์ •๋ ฌ ๊ธฐ๋ฒ•์˜ ์ด๋ก ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Figuring out figures ๋…ผ๋ฌธ์€ ๊ณผํ•™ ๋…ผ๋ฌธ์—์„œ์˜ ๊ทธ๋ฆผ ํ…์ŠคํŠธ ์ž๋™ ์ƒ์„ฑ/์ •๋ ฌ ๋ฌธ์ œ๋ฅผ ์—ฐ๊ตฌํ•˜์—ฌ, AUTOCAP์˜ ์ œ๋กœ์ƒท ํฌ๋กœ์Šค์–ธ์–ด ์ •๋ ฌ ๊ณผ์ œ์— ์‹ค์งˆ์  ์—ฐ๊ฒฐ์ ์ด ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Autocap ๋…ผ๋ฌธ์€ ๊ต์ฐจ์–ธ์–ด์  ์ •๋ ฌ๊ณ„ํš ๋ฐ ์›Œํฌํ”Œ๋กœ์šฐ ์ž๋™ํ™” ๊ธฐ๋ฒ•์„ ์ž์„ธํžˆ ์†Œ๊ฐœํ•˜์—ฌ ์ง€๋ฆฌ๊ณต๊ฐ„ ๋ถ„์„ ์ž๋™ํ™”์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Multi-llm collaborative caption generation ๋…ผ๋ฌธ์€ ๋‹ค๊ตญ์–ด ๋ฐ ๋‹ค์ค‘ LLM ๊ธฐ๋ฐ˜ ํ‘œ ์บก์…˜ ์ƒ์„ฑ ๊ณผ์ œ๋ฅผ ๋‹ค๋ค„, AUTOCAP์˜ cross-lingual CoT ์ถ”๋ก  ์ž๋™ํ™”์— ์ด๋ก ์  ํƒ€๋‹น์„ฑ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์  ๊ฐ€์„ค ์ƒ์„ฑ์—์„œ ๊ฒ€์ƒ‰ ๋ฐ ์ •๋ณด ์ •๋ ฌ ๊ธฐ์ˆ ์˜ ์—ญํ• ์„ ์ •๋ฆฌํ•˜์—ฌ, ์‹ค์ œ ๋…ผ๋ฌธ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€(๋ณธ ๋…ผ๋ฌธ)์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™์  ์ง€์‹ ์ •๋ ฌ ๋ฐ ์ •ํ•ฉ์„ฑ ํ™•๋ณด ์ „๋žต ๋…ผ๋ฌธ์œผ๋กœ, ๋‹จ์ผ ์„œ์—ด๋กœ ์ง„ํ™” ๊ฒฝ๋กœ์™€ ์ œ์•ฝ์„ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๋‹จ๋ฐฑ์งˆ ์–ธ์–ด๋ชจ๋ธ ํ™œ์šฉ์— ์ด๋ก ์  ๋ฐฐ๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํฌ๋กœ์Šค๋ง๊ตฌ์–ผ ์ •๋ ฌ ๋ฐ ํ”Œ๋ž˜๋‹ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ž๋™ ๊ณ„ํš๊ณผ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ˜‘์—… ์ ์šฉ์˜ ์ตœ์‹  ๋ฐฉ์‹์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
119 ๋…ผ๋ฌธ์€ ์ž๋™ ์บก์…˜ ์ƒ์„ฑ ๋ฐ ํฌ๋กœ์Šค๋ง๊ตฌ์–ผ ์ •๋ ฌ์„ ๋‹ค๋ฃธ์œผ๋กœ์จ ๋ฐฑํŠธ๋žœ์Šฌ๋ ˆ์ด์…˜ ๊ธฐ๋ฐ˜ ์ €์ž์› ์–ธ์–ด ์—ฐ๊ตฌ์˜ ๋Œ€์•ˆ์  ์‚ฌ๋ก€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
๊ณผํ•™์  ๊ทธ๋ฆผ ๋ฐ ๋„ํ‘œ์˜ ๋‹ค๊ตญ์–ด ์บก์…˜ ์ƒ์„ฑ ๋ฌธ์ œ๋ฅผ ๊ธฐ๋Šฅ์ ์œผ๋กœ ํ™•์žฅํ•˜๊ณ , CoT ๊ธฐ๋ฐ˜์˜ ์–ธ์–ด ์ •๋ ฌ ๊ธฐ๋ฒ•์„ ์‹ค์ œ ๊ณผํ•™ AI ์›Œํฌํ”Œ๋กœ์— ์ ์šฉํ•จ.
ํ›„์† ์—ฐ๊ตฌ
119๋ฒˆ ๋…ผ๋ฌธ์€ LLM์ด ์‹ค์ œ ํ…์ŠคํŠธ ์ƒ์„ฑ ๊ณผ์ •์—์„œ ์ „์ด(Transfer) ๊ณ„ํš์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ์‹์„ ๋ถ„์„ํ•˜์—ฌ 899๋ฒˆ์˜ ๊ณผํ•™๊ณ„ ํ™œ์šฉ ์‹ค์ œ ๋„์ „๊ณผ์ œ๋ฅผ ๋ณด์™„ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
245 ๋…ผ๋ฌธ์€ ๋‹ค๊ตญ์–ด LLM์˜ ๊ต์ฐจ์–ธ์–ด ์ง€์‹์žฅ๋ฒฝ์„ ์‹ฌ์ธต์ ์œผ๋กœ ์ง„๋‹จํ•˜๋ฉฐ, 119์˜ AUTOCAP ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ๋ฐœ ๋™๊ธฐ๋ฅผ ๋ฌธ์ œ ๋ถ„์„ ์ฐจ์›์—์„œ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
119๋Š” ์–ธ์–ด๋ชจ๋ธ์„ ํ†ตํ•œ ํฌ๋กœ์Šค๋ง๊ตฌ์–ผ ์ •๋ ฌ ๋ฐ ์ž‘์—… ์ž๋™ํ™”๋ฅผ ๋…ผ์˜ํ•˜๋ฉฐ, 1092์˜ ๋ฐ˜๋ณต ๋ฏธ์„ธ์กฐ์ • ์ ‘๊ทผ์— ์‹ค์šฉ์  ํ™•์žฅ ๋ฐฉ์•ˆ์ด ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ์‚ฐ์ถœ๋ฌผ์˜ ์ž๊ธฐ-๊ฐœ์„  ๋ฐ ์ธ๊ฐ„๊ณผ์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๋ฉ”ํƒ€๋Ÿฌ๋‹/์ž๊ธฐ ํ”ผ๋“œ๋ฐฑ ํ”„๋ ˆ์ž„์›Œํฌ ๊ฐœ๋ฐœ๋กœ, ๊ณต์ง„ํ™” ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์‹ฌ์ธต๋ถ„์„์— ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
119๋ฒˆ AUTOCAP ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ 245์—์„œ ์–ธ๊ธ‰ํ•œ ์•”๋ฌต์  ๊ต์ฐจ์–ธ์–ด ์ง€์‹ ์žฅ๋ฒฝ ๊ทน๋ณต์„ ์‹คํ—˜์ ์œผ๋กœ ์‹œ๋„ํ•˜๋ฏ€๋กœ, ์—ฐ๊ตฌ์  ๊ด€๊ณ„๊ฐ€ ๋ช…ํ™•ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
Autocap ๋…ผ๋ฌธ์€ ๋‹จ๋ฐฑ์งˆ/์œ ์ „์ž ๋“ฑ ์ƒ๋ช…๊ณผํ•™ ๋ฐ์ดํ„ฐ์˜ ํฌ๋กœ์Šค๋ง๊ตฌ์–ผ alignment์— ์ดˆ์ ์„ ๋งž์ถ”์–ด ํŒŒ์šด๋ฐ์ด์…˜ ๋ชจ๋ธ์˜ ์‹ค์งˆ์  ํ™œ์šฉ ์˜ˆ์‹œ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •