Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ธ๊ฐ ์ฌ์ฌ์์ ๊ตฌ์กฐํ๋ ์ฌ๊ณ ๊ณผ์ ์ ์ฒด๊ณ์ ์ผ๋ก ๋ชจ๋ฐฉํ ์ฒซ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
๊ณผ ๋ค์ค ์์ด์ ํธ ํ๋ ์์ํฌ๋ก AI ์ฌ์ฌ์ ํ์คํ ๊ฐ๋ฅ์ฑ์ ๋์๋ค. ๋ค๋ง, ๋ฐ์ดํฐ ์๊ฐ์ฑ ๋ฌธ์ , ํ๊ฐ ์งํ์ ํ๊ณ, ์ค์ ์ฌ์ฌ ์ ๋ ๋์
์ ์ค๋ฆฌ์ ยท์ ๋์ ๊ณผ์ ์ ๋ํ ๋ณด์ถฉ ๋
ผ์๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
070 ๋
ผ๋ฌธ์ ๋ค์ค ์์ด์ ํธ ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์์ฑ ์คํ์ ํตํด ์์ด์ ํธ ํ์
๋ชจ๋ธ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ฏ๋ก 676์ ์ด๋ก ์ ๊ธฐ๋ฐ๊ณผ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Dolphin ๋
ผ๋ฌธ์ ์๋ํ๋ AI ๊ธฐ๋ฐ ๋
ผ๋ฌธ ํ๊ฐ ๋ฐ ๋ฆฌ๋ทฐ ํ๋ก์ธ์ค์ ๊ธฐ์ด ๊ฐ๋
๊ณผ ์๊ณ ๋ฆฌ์ฆ ๋์์ธ์ ์ ๊ณตํ์ฌ 676 ์คํ ๋ฐฉ์์ ํ์์ ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
676 'ReviewAgents' ๋
ผ๋ฌธ์ ์ธ๊ฐ/AI ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์์ฑ ๊ฒฉ์ฐจ์ ๋ค์ค ์์ด์ ํธ ํ๋ ์์ํฌ์ ํจ๊ณผ๋ฅผ ๋ถ์ํด 350 FRAME์ ์ค๊ณ์ ํ๊ฐ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ์ฐ๊ตฌ ๋ชจ๋ ํ
์คํธ ์์ฑ ๋๋ ์์ ์์
์์ ์์ฐ์ด์ฒ๋ฆฌ ๊ธฐ์ ์ ํ์ฉํ์ง๋ง ์ ๊ทผ ๋ฐฉ์์ด ๋ค๋ฅด๋ค.
๋ค๋ฅธ ์ ๊ทผ
ReviewAgents(676)๋ AI ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์์ฑยทํ๊ฐ ์์คํ
์ผ๋ก, SciReviewGen(732)์ ์๋ํ๋ ๋ฆฌ๋ทฐ ์์ฑ ๋ฒค์น๋งํฌ์ ์ค์ง ๋น๊ต๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ReviewAgents ๋
ผ๋ฌธ์ ์ธ๊ฐ-AI ๊ฐ ๋ฆฌ๋ทฐ ์์ฑ ํธ์ฐจ๋ฅผ ๋ค๋ฃจ๋ฉฐ ๋ค์ํ ๋ค์ค๋ฌธ์ ์์ฝ ๋ฐ ๋ฉํ๋ฆฌ๋ทฐ ํ๊ฐ ๋ฐฉ๋ฒ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ฉํ ํ์ ๋
ผ๋ฌธ ํ๊ฐ ๋ฐ ๋ฆฌ๋ทฐ ์ง์์ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ ๊ทผํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
676 ๋
ผ๋ฌธ์ AI์ ์ธ๊ฐ ๋ฆฌ๋ทฐ์ด ์ฌ์ด์ ์ฐจ์ด๋ฅผ ์ง์ค ๋ถ์ํด, 250์ ์๋ํ๋ ๋
ผ๋ฌธ ์์ฑ-๋ฆฌ๋ทฐ ์ฌ์ดํด์ ์ธ๊ฐ ๋์ฒด ๊ฐ๋ฅ์ฑ๊ณผ ํ๊ณ๋ฅผ ๋์กฐํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
676์ AI ๋ฆฌ๋ทฐ์ ์ธ๊ฐ ๋ฆฌ๋ทฐ๋ฅผ ๋น๊ต ๋ถ์ํ๋ฉฐ, 126์ ์ ์๋ํ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์์ฑ ๋ฐฉ๋ฒ๋ก ๊ณผ ์ํธ๋ณด์์ ์ผ๋ก ์ฝํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ฉํ ์ฅ๋ฌธ ๊ธฐ์ฌ ์์ฑ์ ๋์์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ธ๊ฐ-LLM ์์ฑ ๋ฆฌ๋ทฐ ๊ฐ ์ฐจ์ด ๋ถ์์ผ๋ก, ๋ค์คํด, ๋กฑ์ปจํ
์คํธ ๊ธฐ๋ฐ ์ค์ ๋ํ์ ๋ฆฌ๋ทฐ์ ํ์ง ๋ฐ ๊ฐ์ ์ ํ์
์ ๋์์ด ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
676๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ์ ๋ฆฌ๋ทฐ ์์ฑ ์ต์ ํ ๋ฐฉ๋ฒ์ ํ๊ตฌํ์ฌ, ์๋ ๋
ผ๋ฌธ ๊ด๋ จ์ฑ ํ๊ฐ(664)์ ๋์ผํ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ ๊ทผํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ReviewAgents ๋
ผ๋ฌธ์ AI ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ ์ธ๊ฐ ๊ฐ์ ์ ๋ ฌ/๊ฒฉ์ฐจ๋ฅผ ๋ถ์ํ๋ฉฐ, ๋๊ท๋ชจ ์๋ ๋ฆฌ๋ทฐ ์์คํ
์ ํ๊ฐ ๊ด์ ์ ๋ค๋ฅด๊ฒ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ReviewAgents๋ ํ๋กฌํํธ ์ต์ ํ ๋์ ์ธ๊ฐ ๋ฆฌ๋ทฐ์ AI ์์ฑ ๋ฆฌ๋ทฐ์ ์ฐจ๋ณ์ฑ ๋ฐ ํ๊ฐ์ ์ด์ ์ ๋ก๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
262 ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์์ ์ธ๊ฐ๊ณผ ์ ์ฌํ ์ฌ์ฌ ์์ฑ ๋ฐฉ๋ฒ์ ํ๊ตฌํ๋ฉฐ, 676๊ณผ ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ์ ๊ทผ์ผ๋ก ๋ค๋ฃน๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
665๋ฒ์ ๊ฐํํ์ต๊ณผ ์ถ๊ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฒฐํฉํ AI ๋
ผ๋ฌธ ์ฌ์ฌ ์๋ํ ์ฐ๊ตฌ๋ก 676๋ฒ๊ณผ ๋ฌธ์ ์์์ ๊ฐ์ผ๋ ์ ๊ทผ๋ฒ์ด ๋ค๋ฅด๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๋ฐ ์ธ๊ฐ ๊ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ํ์ง ๋น๊ต์ AI ๋ฆฌ๋ทฐ์ด์ ์ ๋ขฐ์ฑ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ๋ค๋ฃจ์ด ReviewEval๊ณผ ์ํธ๋ณด์์ ์.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ํ์ ๋
ผ๋ฌธ ๋ถ์ ๋ฐ ์ ๋ณด ์ถ์ถ์ ๋ค๋ฅธ ๋งฅ๋ฝ์์ ์ ์ฉํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ์ ๋ฌธ์ ์๋ ์์ฑ์ ์ํ ๋ค๋ฅธ LLM ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI์ ๊ณผํ์ ์ถ๋ก ๋ฐ ์ฐ๊ตฌ ์ง์ ๋ฅ๋ ฅ์ ๋ค๋ฅธ ์ธก๋ฉด์์ ํ๊ฐํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
ReviewAgents๋ LLM์ด ์ ์๋ ์ฐ๊ตฌ ์์ด๋์ด์ ์ค์ง์ ๊ฐ๋ฅ์ฑยทํ์ง์ ํ๊ฐํ๋ ๋ฐ ์ด์ ์ ๋ง์ถ์ด, AI ๊ธฐ๋ฐ ์ฌ์ฌยท๋ฏธ๋ ์์ธก ํ๊ฐ ์ ๊ทผ๋ฒ์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
ReviewAgents ๋
ผ๋ฌธ์ ์ธ๊ฐยทAI ๋ฆฌ๋ทฐ์ด ํ๋ ฅ ๊ตฌ์กฐ๋ฅผ ์คํ ๋ฐ์ดํฐ๋ก ๋ถ์ํ์ฌ, ๋
ผ๋ฌธ ๋๊ตฌ ๊ฐ๋ฐ ๋ฐ ์ค๋ฌด ์์ฉ ๋ฉด์์ ์ํธ๋ณด์๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํ์ ์ ํ
์คํธ ์ฒ๋ฆฌ ๋ฅ๋ ฅ ํ๊ฐ๋ผ๋ ์ ์ฌํ ์ฐ๊ตฌ ๋ชฉ์ ์ ๊ณต์ ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ๊ธฐ๋ฐ ์์ด์ ํธ์ ์ฐ๊ตฌ ์์
์ํ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋์์ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
AIยท์ธ๊ฐ ๋ฆฌ๋ทฐ ์์ฑ ๋ฐ ๋น๊ต ํ๊ฐ์์ ์นดํ๋ก๊ทธ ๊ตฌ์กฐ ๋ถ์ ๊ธฐ๋ฐ ๋
ผ๋ฌธ์ ์ค์ ์ ๋ฒค์น๋งํฌ ์ฌ๋ก๋ก ์ ์ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Peer review์ AI/์ธ๊ฐ ํ์
์ฌ๋ก๋ฅผ ๋ค๋ฃจ๋ฉฐ, ๋ฉํ๋ฆฌ๋ทฐ ์ด์ ์์ฑ ๋จ๊ณ์์ LLM์ ์ญํ ํ์ฅ ์ ์ ์ค์ฆ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
ReviewAgents ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ ์๋ ์์ฑ๊ณผ ํ๋ก์ธ์ค ์ต์ ํ๋ฅผ ์ฌํ ๋ถ์ํ์ฌ, ๋ฆฌ๋ทฐ ํผ๋๋ฐฑ ์์ฑ์ ๋ฐ๋ณต ํ์ต ์ฒด๊ณ์ ์ง์ ์ ์ผ๋ก ์ด์ด์ง๋๋ค.
ํ์ ์ฐ๊ตฌ
676๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์๋ ๋ฆฌ๋ทฐ์ ์ธ๊ฐ๊ฐ gap์ ๋ถ์ํด, 776๋ฒ ๋
ผ๋ฌธ์ annotation ์ง์ ์ ๋ต์ ๊ฒ์ฆ ๋ฐ ํ๊ณ ๋
ผ์์ ์ค์ง์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
ReviewAgents ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๊ณผํ ์ถ๋ก ์์ด์ ํธ์ ํ๊ฐ์ ํ๊ณ์ ์ ๋ถ์ํ์ฌ ์ค์ ์ด๋งค ๋ฐ๊ฒฌ ํ๋ ์์ํฌ์ ํ๊ฐ ๋ฐฉ๋ฒ์ ์ธ์ฌ์ดํธ๋ฅผ ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
AI/LLM์ด ์์ฑํ ๊ณผํ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ ๊ฐ์ , ํ๊ณ, ์ธ๊ฐ๊ณผ ๋น๊ต ์ฑ๋ฅ์ ์ค์ ๋ฐ์ดํฐ์ ํจ๊ป ๋ถ์ํด NLP ๊ธฐ๋ฐ ๋๋ฃ์ฌ์ฌ ์ง์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ ๊น๊ฒ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
ReviewAgents๋ AI ๋ฆฌ๋ทฐ๊ฐ ์ธ๊ฐ ๋ฆฌ๋ทฐ์ด์ ์ ์ฌํ ์ค์ํ ๋ฌธ์ ๋ฅผ ํฌ์ฐฉํ๋์ง ๋ถ์ํด, LLM ํ๊ฐ ํ๋ ์์ํฌ์ ์ค์ ์์ฉ ์ฌ๋ก๋ฅผ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
676๋ฒ ๋
ผ๋ฌธ์ AI์ ์ธ๊ฐ ๋ฆฌ๋ทฐ์ ๊ฐ๊ทน์ ์ขํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, 481๋ฒ ๊ฒ์ผ๋ฅธ ์ฌ๊ณ ํ์ง ๋ฐ์ดํฐ์
๊ณผ ์ฐ๊ณํด ์ค์ ๋ฆฌ๋ทฐ ํ์ง ๊ฐ์ ์ ํ์ฉํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
AI-Human ๋ฆฌ๋ทฐ์ด ํ๋ ฅ์ ์ง๋ฌธ ๊ตฌ์กฐ, ํ ํฐ ํจ์จ์ฑ ๋ฑ TreeReview์ ์ค์ ํ์ฉ ๋ฐฉ์์ ์คํ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
676๋ฒ ๋
ผ๋ฌธ์ ์ธ๊ฐ๊ณผ AI๊ฐ ๋ฆฌ๋ทฐ ์์ฑ์ gap์ ์ฐ๊ฒฐํ๋ฉฐ, LLM ๊ธฐ๋ฐ ๊ฒ์ฆ ์์คํ
์ ๊ฐ์ ๋ฐฉํฅ ๋
ผ์์ 328๋ฒ ๋
ผ๋ฌธ ๋ด์ฉ์ ์ ์ฉํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
676์ ์ธ๊ฐ๊ณผ AI ์์ฑ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๋ ค๋ ํ๋กฌํํธ ๋ฐ ํ์ดํ๋ผ์ธ ๊ฐ์ ๋ฐฉ์์ ์ ์ํ์ฌ, 244์ ํ๊ณ ๋ถ์ ํ์์ฐ๊ตฌ์ ์ ํฉํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
AI๊ฐ ๋๋ฃํ๊ฐ์ ์ค์ ์ด๋ป๊ฒ ํ์ฉ๋๊ณ ํ๊ฐ ์ฐจ์ด๊ฐ ๋ฐ์ํ๋์ง ๊ตฌ์ฒด์ ์ธ ๋ฒค์น๋งํฌ์ ์ฌ๋ก๋ฅผ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
676 ๋
ผ๋ฌธ์ ์ธ๊ฐ๊ณผ AI ์์ฑ ๋ฆฌ๋ทฐ์ ํ์ง ์ฐจ์ด ๋ฐ ๋ฒค์น๋งํน์ ๋ค๋ฃจ๋ฏ๋ก, 3035์ ์ค์ ํจ์ฉ์ฑ ํ๊ฐ ํ๋ ์์ํฌ์ ์ ๋ชฉํ์ฌ ๋ณผ ์ ์๋ค.
์์ฉ ์ฌ๋ก
AI ๊ธฐ๋ฐ ๋
ผ๋ฌธ ์ถ์ฒ, ๊ฐ๋
๋งํฌ, ๋ฏธ๋ ์ฐ๊ตฌ์์ธก ๋ฑ '๋ฏธ๋ ๋ฐฉํฅ์ฑ ์์ธก'์ ์ค์ ์ฐ๊ตฌ ํ๋ ์์ํฌ๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
ReviewEval์ AI-์์ฑ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ฏ๋ก, ReviewAgents์ ์ค์ ํ์ฉ ์ธก๋ฉด์ด ์ฐ๊ฒฐ๋๋ค.
์์ฉ ์ฌ๋ก
AI ๊ธฐ๋ฐ ๋ฆฌ๋ทฐ์ ์ธ๊ฐ ๋ฆฌ๋ทฐ์ ์ฐจ์ด๋ฅผ ๋ฒค์น๋งํนํ๋ ๋
ผ๋ฌธ์ผ๋ก, ์ผ๊ด์ฑ ์๋ ํผ์ด๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์ ์ค์ ์ ํ์ฉ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋ฐ๋ก /๋นํ
What factors affect multimodal in-context learning? ๋
ผ๋ฌธ์ ๋ค์ํ ์์๊ฐ LLM ํ๊ฐ์ ์ํฅ์ ์ฃผ๋ ์ ์ ๋นํ์ ์ผ๋ก ์กฐ๋ช
ํ๋ค.
๋ฐ๋ก /๋นํ
084๋ AI ๊ธฐ๋ฐ ๋๋ฃํ๊ฐ์ ์ํ์ฑ์ ์ง์ ํ๋ฉฐ 676์ ์๋ํ๋ ๋ฆฌ๋ทฐ ์์คํ
๋ฐ์ ์ ๋ํ ์ ์ฝ์ ๊ณผ ์ํธ๋ณด์์ ์๊ฐ์ ์ ๊ณตํฉ๋๋ค.