Essence
๋ณธ ๋
ผ๋ฌธ์ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ(PLM)์ ์ผ๊ด์ฑ(consistency)์ ๋ช
์์ ์ผ๋ก ๊ฐ์ ํ์ฌ ์์์ํ(few-shot) ๋ฐ ์์ํ(zero-shot) ์ฌ์ค๊ฒ์ฆ ์ฑ๋ฅ์ ํฅ์์ํค๋ ProToCo ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ํด๋ ์์ ๋ค์ํ ๋ณํ์ ์์ฑํ๊ณ ์ด๋ค ๊ฐ์ ๋
ผ๋ฆฌ์ ์ผ๊ด์ฑ์ ์ ์ฝ์กฐ๊ฑด์ผ๋ก ํ์ฉํ์ฌ ํ๋ผ๋ฏธํฐ-ํจ์จ์ ๋ฏธ์ธ์กฐ์ (PEFT)์ ์ํํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ฌ์ค๊ฒ์ฆ ๊ณผ์ ์ ๋ด์ฌ์ ๋
ผ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ์ฌ ๋ช
์์ ์ผ๊ด์ฑ ์ ์ฝ์ ํตํ few-shot/zero-shot ํ์ต์ ํจ๊ณผ์ ์ผ๋ก ๊ตฌํํ๋ค. ํ๋กฌํํธ ๊ธฐ๋ฐ์ ๊ฐ๋จํ๋ฉด์๋ ์ค์ฉ์ ์ธ ์ ๊ทผ์ด ๋๋ณด์ด๋, ์ด๋ก ์ ๊น์ด์ ํ์ฅ์ฑ ์ธก๋ฉด์์๋ ๊ฐ์ ์ฌ์ง๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํฉํธ์ฒดํน์์ ๋ฐ์ฆ ์ฆ๊ฑฐ ๋ถ์ฌ ๋ฌธ์ ๋ฅผ ๋ถ์ํจ์ผ๋ก์จ ์ผ๊ด์ฑ ๊ธฐ๋ฐ ์ ๊ทผ์ ํ๊ณ๋ฅผ ๋
ผํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
FactKG๋ ์ง์ ๊ทธ๋ํ๋ฅผ ํตํ ํฉํธ ๊ฒ์ฆ ๋ฐ ์ถ๋ก ๋ฐฉ๋ฒ์ ์ ์ํด ์ผ๊ด์ฑ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ์ฃผ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
636๋ฒ ๋
ผ๋ฌธ์ ํ๋กฌํํธ ์ผ๊ด์ฑ์ด ์ค์ ์ฑ๋ฅ ํฅ์์ ๋ฏธ์น๋ ์ํฅ์ ์ง์คํ์ฌ, 876๋ฒ ๋
ผ๋ฌธ์ ๋ฉํฐ์์ด์ ํธ ๊ธฐ๋ฐ ๊ณ ํ์ง ๋ค์ค ํ ๋ฐ์ดํฐ ํฉ์ฑ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Multivers๋ ์ฝํ ๊ฐ๋
๊ธฐ๋ฐ ํฉํธ์ฒดํน์ ์ด์ ์ ๋๋, ProToCo์ ๋น๊ตํด ๋ฌธ์ฅ๊ฐ ๋
ผ๋ฆฌ ์ผ๊ด์ฑ๊ณผ ๋งฅ๋ฝ ํ์ฉ ๋ฐฉ์์์ ์ฐจ๋ณ์ฑ์ ๋ณด์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
self-refinement vs consistency prompting ๋ฑ LLM ์ถ๋ ฅ ์๊ธฐ ๊ฐ์ ๊ธฐ๋ฒ์ ์์ดํ ํจ๊ณผ์ ํ๊ณ๋ฅผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฌ์ค ๊ฒ์ฆ์์ ๋ค์ํ ๋
ผ๋ฆฌ ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ํตํด ๊ฒฌ๊ณ ์ฑ ํฅ์์ ๊พํ๋ ๋์์ ๋ฐฉ๋ฒ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ต์ฐจ์ธ์ด ์ง์ ํ์ฉ ๋ฅ๋ ฅ ํฅ์์ ์ํ ๋์์ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
few-shot GEC ํ์ต์์ consistent prompt design ์ ๊ทผ๋ฒ์ผ๋ก ๋ฐ์ดํฐ-๋ชจ๋ธ ์์ ์ผ๊ด์ฑ ๋ฌธ์ ๋ฅผ ๋ค๋ฅด๊ฒ ํด๊ฒฐํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด๋ฅผ ํ์ฉํ ํฉํธ์ฒดํน ์๋ํ ์ฐ๊ตฌ๋ก, ๋ณธ ๋
ผ๋ฌธ๊ณผ ๋ค๋ฅด๊ฒ ์ฆ๊ฑฐ ํ์ฉ ๋ฒ์๋ฅผ ํ์ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Trust, But Verify๋ LLM์ด ํฉํธ์ฒดํน ํ์คํฌ์์ ์๊ธฐ ๊ฒ์ฆยท์ผ๊ด์ฑ ๊ฐํ๋ฅผ ์๋ํ ์ ๊ทผ๋ฐฉ๋ฒ์ผ๋ก ProToCo์ ๋น๊ต ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Prompt ์ผ๊ด์ฑ ๋ฐ self-consistency ์ ๋ ๋ฐฉ๋ฒ์ด ๋ค์ค์์ด์ ํธ ์์คํ
์ ๊ณํ๊ณผ ๊ธฐ์ต ์ฑ๋ฅ ๋ณด์์ ๋์์ด ๋จ.
ํ์ ์ฐ๊ตฌ
ProToCo๋ ์ธ์ด๋ชจ๋ธ ์ผ๊ด์ฑ ์ ์ฝ๊ณผ ์์์ํ ํ๊ฒฝ์์ ์ฌ์ค๊ฒ์ฆ ์ฑ๋ฅ ํฅ์์ ์ด์ ์ ๋์ด, Multivers์ ์์ด๋์ด๋ฅผ ํ์ฅํ ํํ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
Selfcheck ๋
ผ๋ฌธ์ LLM์ ์คํ
๋ณ ์๊ธฐ ์ ๊ฒ์ ํตํด ์ยท์์์ํ ์ฌ์ค ํ์ธ์ ๋ํ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ํ์ฅ์ ๋ณด์ฌ์ค๋๋ค.