Essence
ChartFC ๋ฐ์ดํฐ์
์ ์: ์ฒญ๊ตฌ(claim)๊ฐ ์ฆ๊ฑฐ ์ฐจํธ๋ก ์ง์ง๋๋ ๊ฒฝ์ฐ
๋ณธ ๋
ผ๋ฌธ์ ์ฐจํธ ์ด๋ฏธ์ง๋ฅผ ์ฆ๊ฑฐ๋ก ํ์ฌ ํ
์คํธ ์ฒญ๊ตฌ์ ์ง์๋ฅผ ํ์ ํ๋ ์๋ก์ด ์๋ ํฉํธ-์ฒดํน(AFC) ๊ณผ์ ๋ฅผ ์ ์ํ๊ณ , ์ด๋ฅผ ์ํ ์ฒซ ๋ฒ์งธ ๋ชจ๋ธ์ธ ChartBERT๋ฅผ ์๊ฐํ๋ค. ํ
์คํธ, ๊ตฌ์กฐ, ์๊ฐ ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ ์ฐจํธ ๊ธฐ๋ฐ ์ฃผ์ฅ ๊ฒ์ฆ์ ๋ณต์กํ ์ถ๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
How
ChartBERT ์
๋ ฅ ํํ: ์ถ์ถ๋ ํ
์คํธ์ ๊ตฌ์กฐ ์๋ฒ ๋ฉ(x, y ์ขํ, ๋ผ๋ฒจ ์๋ฒ ๋ฉ)
1๋จ๊ณ - ํ
์คํธ ๋ฐ ๊ตฌ์กฐ ์ ๋ณด ์ถ์ถ
- Tesseract OCR ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ฐจํธ ์ด๋ฏธ์ง์์ ํ
์คํธ ์์ญ ๊ฐ์ง
- ๊ฐ ํ
์คํธ ์์ญ์ ๋ํด ํ ํฐ ์ํ์ค์ ๋ฐ์ด๋ฉ ๋ฐ์ค(x, y, w, h) ์ถ์ถ
2๋จ๊ณ - ํ
์คํธ ์ํ์ค ์์ฑ
- ์ฐ๊ฒฐ(Concatenation): ์ขํ ๊ธฐ๋ฐ ์ ๋ ฌํ์ฌ ํ
์คํธ ์์ญ์ ์์ฐจ์ ์ผ๋ก ์ฐ๊ฒฐ (์: "usain bolt ; 1 ; andy stanfield ; 2")
- ํ
ํ๋ฆฟ: ๊ตฌ์กฐ ์ ๋ณด๋ฅผ ํ์ฉํ 3๊ฐ์ง ํ
ํ๋ฆฟ์ผ๋ก ์๋ฏธ ์๋ ์ํ์ค ์์ฑ
- tmp1: "entry [num]: [lx] is [textx]; [ly] is [texty]"
- tmp2: "row [num]: [lx] is [textx]; [ly] is [texty]"
- tmp3: "[lx] is [textx] when [ly] is [texty]"
3๋จ๊ณ - ์ธ์ฝ๋ฉ ๋ฐ ๋ถ๋ฅ
- ์ฒญ๊ตฌ(claim)์ ์ถ์ถ๋ ์ํ์ค๋ฅผ [SEP] ํ ํฐ์ผ๋ก ๋ถ๋ฆฌํ๊ณ [CLS]๋ฅผ ์์ ์ถ๊ฐ
- BERT ์๋ฒ ๋ฉ(ํ ํฐ, ์ธ๊ทธ๋จผํธ, ์์น)์ 3๊ฐ ๊ตฌ์กฐ ์๋ฒ ๋ฉ ์ถ๊ฐ:
- x ์ขํ ์๋ฒ ๋ฉ: ํ
์คํธ์ ์ํ ์์น ์ ๋ณด
- y ์ขํ ์๋ฒ ๋ฉ: ํ
์คํธ์ ์์ง ์์น ์ ๋ณด
- ๋ผ๋ฒจ ์๋ฒ ๋ฉ: x์ถ/y์ถ ๋ผ๋ฒจ ์ฌ๋ถ ํ์
- 768์ฐจ์ ํํ์ ์์ ์ฐ๊ฒฐ ๊ณ์ธต๊ณผ ์๊ทธ๋ชจ์ด๋๋ฅผ ํตํด ์ง์ง(supports)/๋ฐ๋ฐ(refutes) ๋ถ๋ฅ
๋ฐ์ดํฐ์
๊ตฌ์ถ
- TabFact ์๋ ๋ฐ์ดํฐ์
(117,784๊ฐ ์ฒญ๊ตฌ, 16,000๊ฐ ์ํคํผ๋์ ํ)์์ ์ถ๋ฐ
- ๋ฌธ์์ด ๋งค์นญ ๋ฐ ๋ ๋ฒค์ํ์ธ ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ ๋ถ๋ถ ํ ์ถ์ถ
- Python seaborn/matplotlib์ ์ด์ฉํ์ฌ ๋ค์ํ ๋ณํ์ ์ฐจํธ ์๋ ์์ฑ
Evaluation
์ดํ: ์ฐจํธ ๊ธฐ๋ฐ ํฉํธ-์ฒดํน์ด๋ผ๋ ์ค์ํ๊ณ ๋ฏธ์ถฉ์กฑ๋ ๋ฌธ์ ๋ฅผ ์ ๊ท ์ ์ํ๋ฉฐ ์ฒด๊ณ์ ๋ฒค์น๋งํน์ ์ ๊ณตํ๋ ์๋ฏธ ์๋ ์ฐ๊ตฌ์ด๋, 63.8%์ ์ ํ๋์ ์ ํ๋ ์ฐจํธ ์ ํ์ผ๋ก ์ธํด ์ค์ฉ์ ์ํฅ์ ์์ง ์ ํ์ ์ด๋ค. ํด๊ฒฐํด์ผ ํ ๋์ ๊ณผ์ ๊ฐ ๋ง์ด ๋จ์์๋ ์ด๊ธฐ ๋จ๊ณ์ ๊ธฐ์ด ์ฐ๊ตฌ๋ก ํ๊ฐ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
708๋ฒ ๋
ผ๋ฌธ์ ๊ณผํ์ ๋ํ์ ๋ํ ์บก์
์์ฑ ๋ฐ์ดํฐ์
์ ์ ๊ณตํ์ฌ, 657๋ฒ์ ์ฐจํธ ์ดํด/ํฉํธ์ฒดํน ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Figuring out figures ๋
ผ๋ฌธ์ ๊ณผํ ๋ํ-์บก์
๋งค์นญ ๋ฐ ํ๊ฐ์ ๊ธฐ์ด ์๋ฃ๋ฅผ ์ ๊ณตํ์ฌ 657์ ์ฐจํธ ๊ธฐ๋ฐ ์ฃผ์ฅ ๊ฒ์ฆ์ ์ด๋ก ์ ๋ฐ๋ฐํ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ChartSketcher ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ํผ๋๋ฐฑ๊ณผ ๋ฐ์์ ํตํฉํ์ฌ ์ฐจํธ ์ด๋ฏธ์ง์ ๋ฆฌ์ฆ๋ ํ์ง์ ๋์ด๊ธฐ ์ํ ๋์ฒด์ ์ ๊ทผ์ ์๊ฐํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
201๋ฒ ๋
ผ๋ฌธ์ ์ฐจํธ์ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด์ ๊ธฐ๋ฐํ LLM ๋ฅ๋ ฅ ํ๊ฐ๋ก, 657๋ฒ์ ChartBERT ์๋ ํฉํธ์ฒดํน๊ณผ ๋ชจ๋ธ ๊ตฌ์กฐ ๋ฐ ์ฑ๋ฅ์์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
582๋ฒ์ ๋ธ๋๋ฐ์ค LLM ์ค๋ช
๊ณผ ํผ์ฒ ๊ท์์ ์ฃผ๋ก ๋ค๋ฃจ๊ณ ์์ด, 657๋ฒ๊ณผ ๊ฐ์ด ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ยท๊ฒ์ฆ ๋ฌธ์ ์์ ๋ณด์์ ์ผ๋ก ์ฐธ๊ณ ํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
Pelican์ ํ
์คํธ-์ฝ๋-์๊ฐ ๊ธฐ๋ฐ LVLM ํ๊ฐ ๊ฒ์ฆ์ ์ง์คํ๋ฉฐ, ChartBERT์ ์ฐจํธ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์๋ ์ฆ๊ฑฐ ํ์ธ๊ณผ ๋์กฐ๋๋ค.
ํ์ ์ฐ๊ตฌ
ChartGemma๋ ์ฐจํธ ๋ฆฌ์ฆ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ฒค์น๋งํฌ๋ก, ChartBERT์ ๋ฐ์ ์ ์์ฉ ๋ฐ ํ์ ๋ฒค์น๋งํฌ๋ฅผ ํ์ธํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
Reading and Reasoning over Chart Images ๋
ผ๋ฌธ์ ์ฐจํธ ๊ธฐ๋ฐ ์ฆ๊ฑฐ ์ถ๋ก ์ฐ๊ตฌ๋ก, ChartX์ ์ฐจํธ ์ถ์ถ ๋ฐ ๋ค๋จ๊ณ ์ถ๋ก ์คํ์ ์ค์ ๊ณผ์ ๋ก ํ์ฅํด์ ์ ์ฉํฉ๋๋ค.
์์ฉ ์ฌ๋ก
์ฐจํธ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ๋ถ์์์ ์ค์ ๋ก ์๊ตฌ ์์ง์(์๊ฐ์ ์ฃผ์)์ ๊ธฐ๋ฐํ ์๋ ๋ถ์์ ํ๊ฐํ๋ ๋
ผ๋ฌธ์
๋๋ค.