์ ์: Eddie Yang, Dashun Wang | ๋ ์ง: 2026-02-12 | URL: https://arxiv.org/abs/2602.11898 📄 PDF
Figure 3: Simulation result
๋ณธ ๋ ผ๋ฌธ์ ์ ์ฌํ ๋ฒค์น๋งํฌ ์ ํ๋๋ฅผ ๋ฌ์ฑํ LLM๋ค์ด ๊ฐ๋ณ ๋ฌธํญ์์ 16-66% ๋ฒ์๋ก ๋ถ์ผ์นํจ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ฌํ ์จ๊ฒจ์ง ๋ถ์ผ์น๊ฐ ๊ณผํ์ ๋ฐ์ดํฐ ์ฃผ์๊ณผ ํต๊ณ ๋ถ์ ๊ฒฐ๊ณผ๋ฅผ 80% ์ด์ ๋ณํ์ํฌ ์ ์์์ ์ ์ฆํ๋ค. ์ด๋ "๋ฒค์น๋งํฌ ํ์(benchmark illusion)"์ด๋ผ๋ ํต์ฌ ํ์์ ๊ท๋ช ํ์ฌ ๊ณผํ์ ์ฌํ์ฑ์ ์ค์ํ ํจ์๋ฅผ ์ ์ํ๋ค.
Figure 3: Simulation result
Figure 3: Simulation result
์ดํ: ๋ณธ ๋ ผ๋ฌธ์ ๊ณผํ์์ LLM ์ฌ์ฉ์ ์ ๋ขฐ์ฑ์ ๋ํ ์ค์ํ ๋ฌธ์ ๋ฅผ ์ ๊ธฐํ๋ ๋์ ๊ฐ์น์ ์ฐ๊ตฌ์ด๋ค. ๋ฒค์น๋งํฌ ํ์์ด๋ผ๋ ๋ช ํํ ๊ฐ๋ ํ, ๊ฒฌ๊ณ ํ ์ด๋ก ์ ํ๋ ์์ํฌ, ๊ทธ๋ฆฌ๊ณ ์ค์ ๊ณผํ ์ฐ๊ตฌ์ ๋ํ ๊ตฌ์ฒด์ ์ฌ๋ถ์์ ํตํด "์ ํ๋๋ ๋์ง๋ง ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ์์ดํ ์ค๋ฅ๋ฅผ ๋ฒํ๋ค"๋ ํ์์ ์ค์์ฑ์ ์ค๋๋ ฅ ์๊ฒ ์ ์ฆํ๋ค. ๋ค๋ง ์ค๋ฅ ํ๋กํ์ ๊ทผ๋ณธ ์์ธ๊ณผ ๋ค์ํ ๋งฅ๋ฝ์์์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ฌํ ๋ถ์์ด ํ์ํ๋ค.