Essence
๊ทธ๋ฆผ 1: AAAR-1.0 ๋ฒค์น๋งํฌ์ 4๊ฐ์ง ์์
์ ๋ํ ์
์ถ๋ ฅ ์์
๋ณธ ๋
ผ๋ฌธ์ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ด ์ฐ๊ตฌ ์์
์ ์ผ๋ง๋ ํจ๊ณผ์ ์ผ๋ก ์ง์ํ ์ ์๋์ง ํ๊ฐํ๊ธฐ ์ํ ๋ฒค์น๋งํฌ AAAR-1.0์ ์ ์ํ๋ค. ๋ฐฉ์ ์ ์ถ๋ก , ์คํ ์ค๊ณ, ๋
ผ๋ฌธ ์ฝ์ ์๋ณ, ๋ฆฌ๋ทฐ ๋นํ์ 4๊ฐ์ง ์ ๋ฌธ๊ฐ๊ธ AI ์ฐ๊ตฌ ์์
์ ํตํด LLM์ ์ง์ ๊ธฐ๋ฐ๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ์ข
ํฉ์ ์ผ๋ก ํ๊ฐํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ AI๊ฐ ์ ๋ฌธ์ ์ฐ๊ตฌ ํ๋์ ์ผ๋ง๋ ํจ๊ณผ์ ์ผ๋ก ์ง์ํ ์ ์๋์ง ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํ ๊ณ ํ์ง ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ์ผ๋ฉฐ, ํ์ฌ LLM์ ๋ช
ํํ ํ๊ณ๋ฅผ ๋๋ฌ๋์ผ๋ก์จ ํ๊ณ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ๋ค๋ง ํน์ ๋ถ์ผ ํธ์ค ๊ทน๋ณต๊ณผ ์ค์ ๊ฐ์ ๋ฐฉ์ ์ ์๋ฅผ ํตํด ๋์ฑ ์์ฑ๋ ๋์ ์ฐ๊ตฌ๋ก ๋ฐ์ ํ ์ฌ์ง๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
838์ LLM ์ฌํ์ ํ์ต ์ค๊ณ๋ 041์์ ํ๊ตฌํ๋ ์ฐ๊ตฌ ๋ณด์กฐ AI์ ์ ์ฌ์ฑ๊ณผ ํ๊ณ์ ๋ํ ์ ์ฑ์ ๋
ผ์์ ๋ฐํ์ ๋ก๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
834 ๋
ผ๋ฌธ์ ํตํฉํ ๊ณผํ AI ์์คํ
๊ฐ๋ฐ ๊ณผ์ ๋ AAAR-1.0์ด ์คํํ ์ค์ง์ ์ฐ๊ตฌ ์์
์ง์ ํ๊ณ ๋ถ์์ ์ด๋ก ์ ๊ทผ๊ฑฐ์ ๋ฌธ์ ์์์ด ๋ด๊ฒจ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ณผํ์ ๋ฐ๊ฒฌ์ ์ํ LLM ํ์ฉ์ ์ด๋ก ์ ยท๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
041์ AI์ ํ์ ์ฐ๊ตฌ ์ง์ ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ์ฌ, 664์ ์๋ ํ๊ฐ ๋ฒค์น๋งํน ์ฐ๊ตฌ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
088๋ฒ ๋
ผ๋ฌธ์ ๊ณผํ์ฐ๊ตฌ ์ง์ AI์ ์ ์ฒด ํํฉ์ ์ ๋ฆฌํ์ฌ, 041๋ฒ์์ ๋ฒค์น๋งํฌ๋ก ํ๊ฐํ๋ ๋ค์ํ ๊ณผํ ์์
AI ์ง์ ๊ฐ๋ฅ์ฑ์ ์ด๋ก ์ ์ถ๋ฐ์ ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
041๋ ์ฐ๊ตฌ ์ง์ AI์ ์ ์ฌ๋ ฅ ํ๊ฐ๋ฅผ ๋
ผ์ํ๋ฉฐ, CoPaLink ๊ฐ์ ๋๊ตฌ๊ฐ ํ์ ํ๋ก์ธ์ค์ ๋ฏธ์น๋ ์ํฅ ์ดํด์ ๋์์ ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ ๋ฌธ ์ง์ ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ๋ฒค์น๋งํนํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ฐ๊ตฌ ๋ณด์กฐ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ค๋ฅธ ๋ฒค์น๋งํฌ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๊ธฐ๋ฐ ์ฐ๊ตฌ์ง์ ๋ฐ ๊ณต์ ์ฑ, ํฌ๋ช
์ฑ์ ์ ์ฌ์ ๋ฆฌ์คํฌ๋ฅผ ์ ๊ฒํ๋ ์๊ฐ์ผ๋ก 870๋ฒ ๋
ผ๋ฌธ์ ๋
ผ์๋ฅผ ํ์ฅํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Reviewer2 ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์๋ ๋ฆฌ๋ทฐ ์์ฑ ํ์ง ๊ฐ์ ์ ๋ค๋ฃจ๋ฉฐ, AAAR-1.0์ LLM ์ฐ๊ตฌ์ง์ ์ ๋ฌธ๊ฐ ์์
ํ๊ฐ์ ๋ณ๋ ฌ์ ๋ฌธ์ ์์์ด ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI์ ๊ณผํ์ ์ถ๋ก ๋ฐ ์ฐ๊ตฌ ์ง์ ๋ฅ๋ ฅ์ ๋ค๋ฅธ ์ธก๋ฉด์์ ํ๊ฐํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ์์คํ
์ ์ฐ๊ตฌ ์ญ๋ ํ๊ฐ๋ฅผ ์ํ ๋ค๋ฅธ ๊ธฐ์ค์ด๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AAAR-1.0 ๋
ผ๋ฌธ์ LLM์ ์ฐ๊ตฌ ์์
์ง์ ๋ฅ๋ ฅ(์ ๋ฌธ์ ์์
ํฌํจ) ํ๊ฐ์ ์ด์ ์ ๋์ด, DRE-Bench ๋ฒค์น๋งํฌ์ ์ธ์ง์ ์ ๋์ง๋ฅ ํ๊ฐ์ ๋ค๋ฅธ ๊ด์ ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI๊ฐ ๊ณผํ ์ฐ๊ตฌ ์ง์์์ ํ๊ฐ, ์ ๋ขฐ, ์ด์์คํดํธ ์ญํ ์ ์ข
ํฉ์ ์ผ๋ก ์ ๊ฒํ๋ ๋ฐฉ๋ฒ๋ก ๋
ผ๋ฌธ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
041์ AI๊ฐ ๊ณผํ ์ฐ๊ตฌ ๋ณด์กฐ์์ ์ด๋ค ์ ์ฌ๋ ฅ์ ๋ณด์ด๋์ง๋ฅผ ํ๊ฐํ๋ฉฐ, 724์ AI-for-Science ์ค๋น๋ ๋ฒค์น๋งํน ํ๋ ์์ํฌ์ ์ ์ฌ ๋ชฉ์ ์ด์ง๋ง ์ ๊ทผ ๋ฐฉ์์ด ๋ค๋ฆ
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ์์ด์ ํธ ๊ธฐ๋ฐ ์์จ ๊ณผํ ์ฐ๊ตฌ ์์คํ
์ผ๋ก AgentRxiv์ ์ ์ฌํ ๋ชฉํ๋ฅผ ์ถ๊ตฌํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI๊ฐ ์ค์ ์ฐ๊ตฌ ํ์ฅ ๋ฐ ์
๋ฌด ์ง์์ ์ด๋์ ๋ ๊ธฐ์ฌํ ์ ์๋์ง ๋ค์ํ ์ผ์ด์ค๋ฅผ ๋น๊ต ๊ฒํ ํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
Augmented Language Models: a Survey๋ AAAR-1.0 ๋ฒค์น๋งํฌ๊ฐ ํ๊ฐํ๋ ๋ค์ํ AI ๋ณด์กฐ ์ฐ๊ตฌ ์์
๊ณผ ์ฆ๊ฐ ๋ชจ๋ธ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
GPT-4์ ํผ์ด๋ฆฌ๋ทฐ ๋ณด์กฐ ๋ฅ๋ ฅ์ ํน์ ํ์ ๋งฅ๋ฝ์ ํ์ฅ ์ ์ฉํ ์ฐ๊ตฌ์ด๋ค.
ํ์ ์ฐ๊ตฌ
041๋ฒ ๋
ผ๋ฌธ์ AI๊ฐ ์ฐ๊ตฌ๋ณด์กฐ์๋ก์ ์ค์ ๋ก ํฌ๋ช
์ฑ๊ณผ ์ ๋ขฐ์ฑ ๋ณด์ฅ์ ์ด๋ป๊ฒ ํ ์ ์๋์ง ์ฌ๋ก์ ํ๊ฐ ๋ถ์์ ์ ๊ณตํ์ฌ, 895๋ฒ์ 'ํต์ ์ ์ ๋ขฐ' ์ด์ ๋
ผ์์ ์ค์ฆ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
Can large language models provide useful feedback on research ๋
ผ๋ฌธ์ ์ค์ LLM์ ๋ฆฌ๋ทฐ ๋นํ ๋ฐ ํผ๋๋ฐฑ ๋ฅ๋ ฅ์ ๊ดํ ํ๊ฐ๋ก, AAAR-1.0 ๋ฒค์น๋งํฌ์ ์ค์ ํ๊ฐ ํญ๋ชฉ์ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
TrustLLM์ ์ ๋ขฐ์ฑ ํ๊ฐ๋ AAAR-1.0์ AI ์ฐ๊ตฌ ์ง์ ํ๊ฐ์ ์ํธ ๋ณด์์ ์ผ๋ก AI์ ์ค์ง์ ํ์ฉ ๋ฅ๋ ฅ์ ์ด๊ด ํ๊ฐํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
083๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ํ์ฅํ ๋ฆฌ๋ทฐ ์์คํ
์ ๋๊ท๋ชจ ํ๊ฐ๋ฅผ ํตํด, 041๋ฒ์ ๋ฑ์ฅํ๋ ๋ฆฌ๋ทฐ ์์ฑ ๋ฐ ํฌ๋ฆฌํฑ ๋ฅ๋ ฅ ํ๊ฐ ํญ๋ชฉ๊ณผ ์คํ์ ์ผ๋ก ์ฐ๊ฒฐํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ์ ๋ฌธ๊ฐ ์์ค ์ฐ๊ตฌ ์์
์ํ ๋ฅ๋ ฅ์ ํน์ ๋๋ฉ์ธ์์ ํ์ฅ ํ๊ฐํ ์ฐ๊ตฌ์ด๋ค.
์์ฉ ์ฌ๋ก
AAAR-1.0 ๋ฒค์น๋งํฌ๋ ์ ๋ณด ๊ฒ์ ๊ธฐ๋ฐ ์ธ์ด๋ชจ๋ธ๋ค์ด ์ค์ ๊ณผํ ์์
์ ์ด๋ป๊ฒ ์ ์ฉ๋ ์ ์๋์ง ํ๊ฐํฉ๋๋ค.
์์ฉ ์ฌ๋ก
AAAR-1.0์ ๋ค์ํ LLM์ด ์ฐ๊ตฌ ์ง์์ ๋ฏธ์น๋ ์ค์ง์ ์ํฅ ํ๊ฐ์ StarCoder2 ๊ฐ์ ์ฝ๋ ๋ชจ๋ธ์ด ํฌํจ๋ ์ ์์์ ์์ฌํฉ๋๋ค.
์์ฉ ์ฌ๋ก
Lazyreview ๋ฐ์ดํฐ์
์ AAAR-1.0 ๋ฒค์น๋งํฌ์์ ๋ฆฌ๋ทฐ ํ์ง ํ๊ฐ์ LLM ๋ณด์กฐ ์ฐ๊ตฌ ์์
์ ์ค์ ์ ์ฉ ์ฐ๊ตฌ์ ํ์ฉํ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
041๋ฒ ๋
ผ๋ฌธ์ AI๊ฐ ๊ณผํ์ฐ๊ตฌ ์์ฐ์ฑ์ ์ค์ง์ ์ผ๋ก ์ฆ์งํ ์ ์๋ ์ ์ฌ๋ ฅ๊ณผ ์ค์ ์ฌ์ฉ ์์๋ฅผ ์ ๊ณตํด, 233๋ฒ์ ์ธ๊ฐ-AI ๊ณต์งํ ํ๋ ์์ ๊ตฌ์ฒด์ ์ ์ฉ ์๋ฅผ ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
AAAR-1.0 ๋
ผ๋ฌธ์ AI๊ฐ ๊ณผํ ์ฐ๊ตฌ ์ง์์ ์ด๋ป๊ฒ ํ์ฉ๋ ์ ์๋์ง ์ค์ ์ ์ฉ ์ฌ๋ก๋ฅผ ๋ค๋ฃจ๋ฏ๋ก, MedAgentGym์ agentic ํ๋ซํผ ํ์ฉ ํ์ฅ ๋
ผ์์ ๋์์ด ๋๋ค.
์์ฉ ์ฌ๋ก
AAAR-1.0์ AI์ ์ฐ๊ตฌ ์ด์์คํดํธ๋ก์์ ๊ฐ๋ฅ์ฑ ํ๊ฐ๋ฅผ ๋ค๋ฃจ์ด, The AI Scientist์ ์๋-ํฌ-์๋ ๊ณผํ ์๋ํ ์ ์ฉ์ ํ๊ฐ ์ง์ ์ด ๋๋ค.