์ ์: Anthony GX-Chen, Dongyan Lin, Mandana Samiei, Doina Precup, Blake A. Richards, Rob Fergus, Kenneth Marino | ๋ ์ง: 2025 | DOI: arXiv:2505.09614 📄 PDF
Essence
์ธ์ด ๋ชจ๋ธ์ด ๊ฐ์ฒด๋ฅผ ๊ธฐ๊ณ์ ์ฌ๋ ค๋๋ ์ํธ์์ฉ์ ํตํด ์ธ๊ณผ๊ด๊ณ๋ฅผ ํ์
ํด์ผ ํ๋ ๋ธ๋ฆฌ์ผ ํ
์คํธ
์ธ์ด ๋ชจ๋ธ(LM) ์์ด์ ํธ๋ ์ธ๊ณผ๊ด๊ณ ์ถ๋ก ์์ ์ ์ธ์ (disjunctive, OR) ๊ท์น์๋ ๋ฅํ์ง๋ง ๊ฒฐํฉ์ (conjunctive, AND) ๊ท์น์์ ์ฒด๊ณ์ ์ผ๋ก ํธํฅ๋์ด ์์ผ๋ฉฐ, ์ด๋ฌํ ํธํฅ์ด ์ธ๊ฐ ์ฑ์ธ์ ์ธ์ง ํธํฅ๊ณผ ์ ์ฌํจ์ ๋ณด์ฌ์ฃผ๋ ์ฐ๊ตฌ์ด๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ธ์ด ๋ชจ๋ธ์ ์ธ๊ณผ์ถ๋ก ํธํฅ์ ์ฌ๋ฆฌํ ํจ๋ฌ๋ค์๊ณผ ์ฐ๊ณํ์ฌ ์ฒ์์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ๊ท๋ช
ํ์์ผ๋ฉฐ, ์ธ๊ฐ ํ๋๊ณผ์ ์ ๋์ ๋น๊ต๋ฅผ ํตํด ๋ชจ๋ธ์ด ํ๋ จ ๋ฐ์ดํฐ์ ์ธ์ง ํธํฅ์ ์์ํจ์ ์ค์ฆํ๋ค. ์ ์๋ ๊ฐ์ค ์ ๊ฑฐ ๋ฐฉ๋ฒ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๊ฐ ๋ช
ํํ๊ณ ์ฑ๋ฅ ๊ฐ์ ์ด ์ ์๋ฏธํ๋, ๋ ๋ณต์กํ ์ธ๊ณผ ๊ตฌ์กฐ์ ๋ค์ํ ์ถ๋ก ์๋๋ฆฌ์ค๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ์ด ํ์ํ๋ค. ์์จ ์์ด์ ํธ์ ๊ณผํ์ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐํ๋ผ๋ ์ค์ํ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ ๋์ ์์ค์ ์ฐ๊ตฌ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ ๊ฒฝ๋ง์ ๋ด์ฌ์ ์ธ๊ณผ์ถ๋ก ํธํฅ๊ณผ ๋ฉ์ปค๋์ฆ ๋ถ์์ ๋
ผ์ํ๋ฉฐ, LLM์ ์ธ์ง ํธํฅ ์ฐ๊ตฌ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ธ๊ฐ๊ณผ LLM์ ์ฐฝ์์ฑ ๋ฐ ์ธ์ง๋ฐฉ์ ์ฐจ์ด๋ฅผ ์ค์ฆ์ ์ผ๋ก ๋ถ์ํ์ฌ, LLM์ ์ธ๊ณผ ์ถ๋ก ํธํฅ์ด ์ธ๊ฐ ์ธ์ง์ ์ด๋ป๊ฒ ์ฐ๊ฒฐ๋๋์ง ๊ทผ๊ฑฐ๋ฅผ ๋ง๋ จํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
345๋ ๋ถ์ ๋ฐ ๊ณผํ์ ์ถ๋ก ์์ LLM์ ์ธ์ด/์ง์ ๊ตฌ์กฐ ํธํฅ์ฑ๊ณผ ํ์ด๋ฐ์ด์
๋ชจ๋ธ ์ค๊ณ ์๋ฆฌ๋ฅผ ๋
ผ์ํ์ฌ, ์ธ๊ณผ ์ถ๋ก ์ธก๋ฉด์์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
173์ ๋์กฐํธํฅ ๋ฐ ์ต์ปค๋ง ํจ๊ณผ ๋ถ์์ 458์ LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ์ธ์ง์ ์ถ๋ก ํธํฅ ์ฐ๊ตฌ์ ๋ฐ์ ํ๊ฒ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ๋งฅ๋ฝ ๋ด ํ์ต์ ๋ํ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ ํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฌ๋ฌ LLM์ด ๋น์ทํ ํ๊ฐ(bias/hallucination) ํจํด์ ๋ณด์ด๋ ํน์ฑ์ ๋ค๋ฃจ๋ฉฐ, ์ธ๊ณผ ์ถ๋ก ํธํฅ๊ณผ ๋ณตํฉ์ ์ผ๋ก ํด์ํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ด ์ธ๊ฐ์ ์ธ๊ณผ์ ํธํฅ ๋ฐ ์ฌ๋ฆฌ์ ์ฝ๋๊น์ง ๋๋ฌ๋ด๊ณ ๋นํ ๋์์ผ๋ก ๋ง๋ค ์ ์๋ค๋ ๋ถ์์ด ๋ณธ ๋
ผ๋ฌธ์ ์คํ์ ํ์ฅ์
๋๋ค.
์์ฉ ์ฌ๋ก
458๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์์ด์ ํธ๊ฐ ์ธ๊ฐ์ ์ธ๊ณผ์ ํธํฅ์ ์ด๋ป๊ฒ ๋ชจ๋ฐฉํ๋์ง ๋ถ์ํ๋ฉฐ, 191๋ฒ ์ธ๊ณผ์ถ๋ก ๊ฐํ AI ์ฐ๊ตฌ์ ์ค์ ์ฌ๋ก ์ฐ๊ตฌ๋ก ์ ํฉํ๋ค.
์์ฉ ์ฌ๋ก
Automating quantum computing ์คํ์์ agent์ ์ธ๊ณผ์ ๊ฒฐ์ ๊ณผ์ ์ ๋ถ์ํ๋ฉฐ, ์ธ์ด๋ชจ๋ธ์ ์ธ๊ณผ ์ถ๋ก ํธํฅ๊ณผ ์ฐ๊ฒฐ๋์ด ์๋ค.
์์ฉ ์ฌ๋ก
Language agents mirrorโฆ๋ LLM ์ธ๊ณผ์ถ๋ก ํธํฅ ๋ถ์์ ๊ตฌ์ฒด์ ์ฌ๋ก๋ก ์ ์ํ์ฌ ๋ฉ์ปค๋์ฆ ํด์ ๊ฐ๋ฅ์ฑ์ ์ค์ ์ ์ฉ์ ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
Systematic Framework of Application Methods ๋
ผ๋ฌธ์ LLM์ ์ธ์ง ๋ฐ ํธํฅ ๋ฌธ์ ๋ฅผ ์ธ์ด๊ณผํ ์ฐ๊ตฌ์ ์ฒด๊ณ์ ์ ์ฉ ํ๋ ์์ํฌ์ ์ฐ๊ฒฐํ์ฌ ํ์ฉ ์ฌ๋ก๋ฅผ ์ ์ํ๋ค.