Essence
๊ฐ AI ์ฆ์ธ์ ์น๋ฅ (interrogator๊ฐ AI ์์คํ
์ ์ธ๊ฐ์ผ๋ก ํ๋จํ ๋น์จ). ์ค์ฐจ๋ง๋๋ 95% ๋ถํธ์คํธ๋ฉ ์ ๋ขฐ๊ตฌ๊ฐ์ ๋ํ๋
๋ณธ ๋
ผ๋ฌธ์ ํ๋ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ด ํ๋ง ํ
์คํธ(Turing test)์ ์ธ ๋ช
์ฐธ๊ฐ์ ๋ฒ์ ์ ์ต์ด๋ก ํต๊ณผํ์์ ๋ณด์ฌ์ฃผ๋ ์ค์ฆ์ ์ฆ๊ฑฐ๋ฅผ ์ ์ํ๋ค. GPT-4.5๊ฐ ์ ์ ํ ํ๋ฅด์๋(persona) ํ๋กฌํํธ ํ์์ 73%์ ํ๋ฅ ๋ก ์ธ๊ฐ์ผ๋ก ํ๋จ๋์์ผ๋ฉฐ, ์ด๋ ์ค์ ์ธ๊ฐ ์ฐธ๊ฐ์๋ณด๋ค ์ ์๋ฏธํ๊ฒ ๋์ ๋น์จ์ด๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ํ๋ LLM์ด 75๋
๊ฐ์ ๋์ ๊ณผ์ ์๋ ํ๋ง ํ
์คํธ๋ฅผ ํต๊ณผํ์์ ์ฒ์์ผ๋ก ์ค์ฆ์ ์ผ๋ก ์
์ฆํ ํ๊ธฐ์ ์ฐ๊ตฌ์ด๋ฉฐ, ์๊ฒฉํ ์คํ ์ค๊ณ์ ํต๊ณ ๋ฐฉ๋ฒ๋ก ์ ๊ฐ์ถ์์ผ๋, ๋์ฑ ๋ค์ํ ํ๋ณธ๊ณผ ์ฌ์ธต์ ๋ฉ์ปค๋์ฆ ๋ถ์์ผ๋ก ๋ณด์๋ ์ฌ์ง๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Large language models can self-improve ๋
ผ๋ฌธ์ LLM์ ์ธ๊ฐ์์ค ์ถ๋ก ๋ฐ ์ ์๋ ฅ์ ๋ฐ์ ์์ ์กฐ๋ช
ํ๋ฉฐ, ํ๋ง ํ
์คํธ ํต๊ณผ์ ๊ฐ์ ์ฑ์ทจ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
GPT-4์ ๊ธฐ์ ๋ฆฌํฌํธ๋ก, ์ต์ LLM์ ์ธ๊ฐ ์์ค ์ธ์ด/์ถ๋ก ์ฑ๋ฅ์ ๋ณธ์ง์ ์ดํดํ๋ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
800๋ฒ ๋
ผ๋ฌธ์ LLM ์ ๋ ฌ(Alignment)๊ณผ ์ธ๊ฐ๊ณผ LLM ๊ตฌ๋ณ ์ญ์น ๋ฌธ์ (ํ๋งํ
์คํธ์ ํ๊ณ ํฌํจ)๋ฅผ ๋ค์ฐจ์ ์๊ฐ์์ ๋ค๋ฃจ๋ฉฐ, 477๋ฒ์ ์ค์ฆ ๊ฒฐ๊ณผ ํด์์ ๊ธฐ๋ฐ์ ํต์ฐฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
414๋ฒ ๋
ผ๋ฌธ์ ์ค์ ํ์ ๊ธ์ฐ๊ธฐ์์ AI์ ์ธ๊ฐ์ ๋ถ๊ฐ ๊ฒฝ๊ณ, ์คํ์ผ ๊ต๋ ๋ฑ 477๋ฒ Turing test ํต๊ณผ์ ์ ์ฌํ๊ฒ '์ธ๊ฐ์ฑ' ํ๋จ์ ๋ฌธ์ ๋ฅผ ํ์ฅ ์ฌ๋ก๋ก ๋
ผ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Scholawrite ๋
ผ๋ฌธ์ ์ฌ๋-LLM ๊ตฌ๋ถ ๋ฐ ์๋ฌธ ํํ ๋น๊ต์์, ์ธ๊ฐ๊ณผ LLM์ ํํ์ ์ ์ฌ์ฑ ๋ฐ ๊ตฌ๋ณ ํน์ฑ์ ์ฌ์ธต ๋ถ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ์ค์ง์ ์ถ๋ก ๋ฐ ์ ์ฐ์ฑ ํ๊ฐ๋ฅผ ๋ ์ธ๋ฐํ ๋ฒค์น๋งํฌ(Task planning ๋ฑ)๋ก ํ๋ํด ์ง์ ํ ์ง๋ฅ ํ๋ณ ๋
ผ์์ ๊ธฐ์ฌํ๋ค.
ํ์ ์ฐ๊ตฌ
GPT-4์ ์ธ๊ฐ ์์ค ๋ฅ๋ ฅ์ ํ๋ง ํ
์คํธ ๊ธฐ๋ฐ์ผ๋ก ํ์ฅ ์ ์ฉํ ์ฐ๊ตฌ๋ก, ํ๊ฐ ํจ๋ฌ๋ค์์ ์๋๋ค.
ํ์ ์ฐ๊ตฌ
OpenAI์ AGI ์์ค LLM(o1)์ ๋ณต์ก์ถ๋ก ยท๊ธฐ์ต๋ ฅ ์ธก๋ฉด์์ ์ธ๊ฐ๊ณผ์ ์ง์ ๋น๊ต๋ฅผ ์ฌ์ธต์ ์ผ๋ก ์ํํ๋ค.
ํ์ ์ฐ๊ตฌ
Litllm ๋
ผ๋ฌธ์ ๊ณผํ์ ๊ธ์ฐ๊ธฐยท์์ด๋์ด ์์
๋ฑ์์ LLM์ ์ธ๊ฐ vs. AI ๊ฐ๋ณ์ฑ ๊ด๋ จ ์ ๋ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ์ฌ ํ๋งํ
์คํธ ๋
ผ์์ ์ค์ฆ์ ์ถ๊ฐ๋
ผ๊ฑฐ๋ฅผ ์ค๋๋ค.
์์ฉ ์ฌ๋ก
์ค์ ์ฌ์ฉ์๋ค์ด LLM(์: GPT-4.5 ๊ธฐ๋ฐ ์์ด์ ํธ)์ ์ฑํ๊ณผ ์ํธ์์ฉ ํํฉ์ ๊ฒฝํ์ ์ผ๋ก ํ๊ฐํ๋ค.