์ ์: Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer | ๋ ์ง: 2023-03-27 | URL: https://arxiv.org/abs/2303.15343 📄 PDF
Figure 1: Ef๏ฌcient loss implementation demonstrated via a mock setup with 3 devices and a global batch size of 12. There
Language-Image Pre-training์ ์ํด softmax ์ ๊ทํ ๋์ pairwise sigmoid loss๋ฅผ ์ ์ํ๋ฉฐ, ์ด๋ ๋ฐฐ์น ํฌ๊ธฐ์ ๋ฌด๊ดํ๊ฒ ์๋ํ์ฌ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ ๊ฐ์ ํ๊ณ ์์ ๋ฐฐ์น ํฌ๊ธฐ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Figure 2: The effect of pre-training batch size. Left: SigLiT results, trained for 18B seen examples. Sigmoid loss outpe
Figure 1: Ef๏ฌcient loss implementation demonstrated via a mock setup with 3 devices and a global batch size of 12. There
์ดํ: Sigmoid loss๋ฅผ ํตํด language-image pre-training์ ํจ์จ์ฑ๊ณผ ํ์ฅ์ฑ์ ๋์์ ๊ฐ์ ํ ์ฐ์ํ ์ฐ๊ตฌ๋ก, ์ค๋ฌด์ ์ ๊ทผ ๊ฐ๋ฅ์ฑ์ ํฌ๊ฒ ๋์ด๋ฉฐ ๋ฐฐ์น ํฌ๊ธฐ์ ์ํฅ์ ๋ํ ์ค์ํ ํต์ฐฐ์ ์ ๊ณตํ๋ค.