Essence
์ธ ๋จ๊ณ ํ๋ ์์ํฌ: (1) ๋ช
ํํ ํ์ ์ฌ๋ถ ํ๋จ, (2) ๋ช
ํํ ์ง๋ฌธ ์์ฑ, (3) ๋ช
ํํ ์ ๋ณด๋ฅผ ํ์ฉํ ์๋ต
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ด ๋ชจํธํ ์ฌ์ฉ์ ์
๋ ฅ์ ์ฒ๋ฆฌํ ๋ ๋ช
ํํ ์ง๋ฌธ์ ํตํด ์ํธ์์ฉํ๋๋ก ํ๋ ์์
์ค๋ฆฝ์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ , ์ฌ์ฉ์ ์๋ ์ํธ๋กํผ ์ถ์ ๋ฐฉ์์ธ INTENT-SIM์ ํตํด ๋ช
ํํ๊ฐ ํ์ํ ๊ฒฝ์ฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์๋ณํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM์ ๋ชจํธ์ฑ ํด๊ฒฐ์ ์ํ ๋ช
ํํ ์ํธ์์ฉ์ด๋ผ๋ ๋ฏธ๊ฐ์ฒ ์์ญ์ ์ฒด๊ณ์ ํ๋ ์์ํฌ๋ฅผ ๋์
ํ๊ณ , INTENT-SIM์ ํตํด ํ์ค์ ์ฑ๋ฅ ๊ฐ์ ์ ๋ฌ์ฑํ ๊ฒฌ์คํ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง ๋ช
ํํ ์ง๋ฌธ ์์ฑ์์ ์ค๋ผํด ๊ธฐ๋ฐ ์ ๊ทผ์ ํ๊ณ์ ํ์ค์ ์ํธ์์ฉ ๋ณต์ก์ฑ์ ๋จ์ํ๋ก ์ธํด, ์ค์ ๋ฐฐํฌ ์์คํ
์ผ๋ก์ ์ ํ์๋ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๋ค๋ฅธ ์ ๊ทผ
223๋ฒ ๋
ผ๋ฌธ์ ๋ช
ํ์ฑ ์ง๋ฌธ(clarification question)์ ์ธํฐ๋ํฐ๋ธํ๊ฒ ์์ฑํ์ฌ, 172๋ฒ BoolQ๊ฐ ์ ์ํ๋ ์ฝ๊ธฐ ์ดํด ๊ธฐ๋ฐ ์/์๋์ค ์ง์ ๋ฌธ์ ์ ์ฐจ๋ณ๋ ์ ๊ทผ์ ์๋ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
222๋ ๊ทธ๋ํ ๊ธฐ๋ฐ ๋ช
ํํ ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ, LLM ๊ธฐ๋ฐ ํ๋ ์์ํฌ๊ฐ ์ง๋ฉดํ๋ ๊ณผ์ ์ ๋ค๋ฅธ ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
223์ ๋ช
ํํ ์ง๋ฌธ ์์ฑ์ LLM์ ๋ถํ์ค์ฑ ์ถ์ ์ ํ์ฉํ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ชจํธ์ฑ ํด์ ๋ฐ ์ธํฐ๋์
๊ธฐ๋ฐ LLM ๊ฐ์ค ์์ฑ ์ฐ๊ตฌ๋ก, ๋ฐ์ดํฐ-๋ฌธํ ์ตํฉ ์ ๊ทผ ๋ฐฉ์๊ณผ ๋์กฐ์ ์ผ๋ก ์๋ก์ด ๊ด์ ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Can language models falsify ๋
ผ๋ฌธ์ ๋ชจํธ์ฑ ํด์์ ๋ฐ๋ก ์์ฑ ๋ฅ๋ ฅ ๋น๊ต๋ฅผ ํตํด LLM์ ์ํธ์์ฉ ๊ธฐ๋ฐ ๋
ผ๋ฆฌ์ ์ถ๋ก ํ๊ณ๋ฅผ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
312๋ ๋ฅ๋์ ์ง์ ์ ํ ๋ฐฉ์์ ์ถ๊ฐ ์ ์ฉํด, ๋ช
ํํ ์ง๋ฌธ ์๋ ์์ฑ ํ๋ ์์ํฌ๋ฅผ 223์์ ํ ๋จ๊ณ ๋ฐ์ ์ํต๋๋ค.
์์ฉ ์ฌ๋ก
๋์๊ด ์ ๋ณดํ ๊ด์ ์์ ๊ณผํ๊ณผ ์ฌํ์ ๊ฐ๊ทน์ ๋งตํํ๋ ๋
ผ๋ฌธ์ผ๋ก, ์ฌ์ฉ์ ์
๋ ฅ์ ๋ชจํธ์ฑ ํด์๊ฐ ์ค์ ๊ณผํ ์ปค๋ฎค๋์ผ์ด์
๊ฐ์ ์ ์ด๋ป๊ฒ ๊ธฐ์ฌํ ์ ์๋์ง ์ฐ๊ฒฐํด์ค๋ค.