์ ์: Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng | ๋ ์ง: 2024-07-18 | DOI: 10.48550/arXiv.2407.13168 📄 PDF
Essence
๊ณผํ์๋ค์ด ์ง์ ํ๋ ์ด์
ํ ๊ณผํ ์ฐ๊ตฌ ๋ฌธ์ ์ค์ฌ์ ์ฝ๋ฉ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ์ฌ, ์ธ์ด ๋ชจ๋ธ(LM)์ ์ค์ ๊ณผํ ๋ณด์กฐ ๋ฅ๋ ฅ์ ํ๊ฐํ ์ ์๋ ๊ณ ํ์ง ํ๊ฐ ๋๊ตฌ๋ฅผ ๊ฐ๋ฐํ์๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๊ณผํ ๋ถ์ผ ์ฝ๋ฉ ๋ฅ๋ ฅ ํ๊ฐ์ ๋ํ ์ค์ํ ๊ณต๋ฐฑ์ ์ฑ์ฐ๋ฉด์, ๊ณผํ์๋ค์ ์ง์ ์ฐธ์ฌ๋ก ๋ฒค์น๋งํฌ์ ํ์ค์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ํ๋ณดํ ์ฐ์ํ ์์ ๋
ผ๋ฌธ์ด๋ค. ํ์กด ์ต๊ณ ์ฑ๋ฅ ๋ชจ๋ธ๋ค๋ 4.6%์ ์ ์กฐํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ ํฅํ ๊ณผํ AI ๊ฐ๋ฐ์ ๋ช
ํํ ๋ชฉํ์ ํ๊ฐ ๊ธฐ์ค์ ์ ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
SciBERT์ ๊ฐ์ ๋๋ฉ์ธ ํนํ ์ธ์ด๋ชจ๋ธ์ ์ฌ์ ํ์ต์ด SciCode์ ๊ณผํ์ฝ๋ฉ ๋ฒค์น๋งํฌ ๊ธฐ๋ฐ์ ํ์ฑํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฝ๋ ์์ฑ ์ธ์ด๋ชจ๋ธ ํ๊ฐ์์ HumanEval ๋ฒค์น๋งํฌ๋ SciCode ๊ณผํ์ ํ๋ ์ด์
์ฝ๋ฉ๋ฌธ์ ๋ฐ์ดํฐ์
๊ฐ๋ฐ์ ์ด๋ก ์ ยท์ค์ฉ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
712์ SciCode ๋ฒค์น๋งํฌ๋ 184์ ๋
ผ๋ฌธ๊ณผ ๊ฐ์ด LLM์ด ์ค์ ์ฐ๊ตฌ ์ง์(ํผ๋๋ฐฑ, ์ฝ๋ฉ ๋ฑ) ์ญํ ์ ํ๊ฐํ๋ ๊ทผ๊ฑฐ ์๋ฃ๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ํ์ฉํ ์ฝ๋ ์์ฑ ๋ฐ ๊ณผํ์ ๋ฌธ์ ํด๊ฒฐ์ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ธ์ด ๋ชจ๋ธ์ ์๊ณ ๋ฆฌ์ฆ์ ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ๋ฅผ ์ํ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
712๋ฒ ๋
ผ๋ฌธ์ ๋จธ์ ๋ฌ๋ ๋ฐ ๊ณผํ์ ์ฝ๋ ๊ตฌํ ์๋ํ๋ฅผ ๋ฒค์น๋งํฌํ๋ฉฐ, 670๋ฒ์ ์๋ํ๋ ๋
ผ๋ฌธโ์ฝ๋ ๋ณํ ํ๋ ์์ํฌ์ ์ฑ๋ฅํ๊ฐ ์งํ ๋ฐ ๊ตฌ์กฐ์ ์ค๊ณ์ ์ฐธ์กฐ๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Systematic Framework of Application Methods for Large Language Models ๋
ผ๋ฌธ์ LLM์ ์์ฉ๋ฒ ํ๊ฐ์ ์ฐ๊ณํ์ฌ SciCode ๋ฒค์น๋งํฌ ํ์ฉ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciBench๋ ๋ํ ์์ค ๊ณผํ ๋ฌธ์ ํด๊ฒฐ ๋ฒค์น๋งํฌ๋ก, SciCode์ ์ฐ๊ตฌ ์์ค ๊ณผํ ์ฝ๋ฉ ํ๊ฐ์ ํจ๊ป ๊ณผํ AI ๋ฅ๋ ฅ ํ๊ฐ์ ๋ ๊ฐ์ง ์ค์ํ ๊ด์ ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
776 ๋
ผ๋ฌธ์ AI ๊ธฐ๋ฐ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์๋ํ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ๋ฉฐ, SciCode(712)์ ํจ๊ป AI๊ฐ ์ค์ ์ฐ๊ตฌยท๋ฆฌ๋ทฐ ์
๋ฌด๋ฅผ ์ด๋ป๊ฒ ์ง์ํ๋์ง ๋น๊ต ๋ถ์์ ์ ํฉํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Data Interpreter ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋ฐ์ดํฐ ๋ถ์ ์์ด์ ํธ๋ก ์ค์ฝ๋ ํ์ฉ์ฑ์ ์ด์ ์ ๋ง์ถ๊ณ ์์ด SciCode์ ๊ณผํ ์ฐ๊ตฌ ํ์ฅ ํ๊ฐ์งํฅ๊ณผ ๋ณด์์ ์ผ๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciCode ๋
ผ๋ฌธ์ ๊ณผํ ์ฐ๊ตฌ์์ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ LLM ํ๊ฐ๋ฅผ ์ค์ ์ ์ผ๋ก ๋ค๋ฃจ๋ฉฐ, ํํ QA์ ๋ฌ๋ฆฌ ํ๋ก๊ทธ๋๋ฐ ์ค์ฌ AI ๋ฌธ์ ํด๊ฒฐ์ ๋ค๋ฅธ ์์ฉ์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋ถ์ผ LLM์ ์ข
ํฉ์ ์ผ๋ก ์กฐ์ฌํ๋ ์ ์ฌํ ์๋ฒ ์ด ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
SWE-bench๊ฐ ์ค์ ์ํํธ์จ์ด ์์ง๋์ด๋ง ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฐ๋ฉด, SciCode๋ ๊ณผํ ์ฐ๊ตฌ ์ฝ๋ฉ์ด๋ผ๋ ์ ๋ฌธ ๋๋ฉ์ธ์์ LLM์ ํ๊ณ๋ฅผ ํ๊ฐํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
ResearchCodeBench ๋
ผ๋ฌธ์ ๊ณผํ ์ฐ๊ตฌ ์ฝ๋ฉ ํ์คํฌ์์ LLM/์์ด์ ํธ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ค๋ฅธ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciCode๋ ๊ณผํ ์ฐ๊ตฌ์์ ์ฝ๋ ๊ตฌํ ๋ฅ๋ ฅ์ ๋ํ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์ ์ ์ํ์ฌ SciReplicate-Bench์ ์ง์ ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐ๊ตฌ์ ์ฃผ๋์ ์ฝ๋ ๊ตฌํ ๋ฐ ์ฑ๋ฅํ๊ฐ ๊ธฐ๋ฐ ML ์ฐ๊ตฌ ๋ฌธ์ ํด๊ฒฐ๋ฅ๋ ฅ ํ๊ฐ๋ฅผ ๋ค๋ฃจ๋ฏ๋ก, ์๋ํ ์ธ์ด ์์ด์ ํธ์ ์ธ๊ฐ ๋๊ฒฐ ๊ตฌ์กฐ๋ฅผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
712๋ LLM์ ๋ณต์กํ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ ์ ์ํ์ฌ GraphInstruct์ ๋์์ ๋น๊ต ๋์์ด ๋๋ค.
ํ์ ์ฐ๊ตฌ
SciCode๋ ๊ณผํ ์ฐ๊ตฌ ์ฝ๋ฉ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๊ณ ๋๋ ๋ฒค์น๋งํฌ๋ก, HumanEval์ ๊ธฐ๋ณธ ์ฝ๋ ์์ฑ ํ๊ฐ๋ฅผ ๊ณผํ ์ฐ๊ตฌ ์์ญ์ผ๋ก ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
Augmented Language Models ๋
ผ๋ฌธ์ ์ธ๋ถ ๋๊ตฌ ๋ฐ ํ๊ฒฝ๊ณผ ๊ฒฐํฉ๋ LLM ์์ฉ์ ํญ๋๊ฒ ์ ๋ฆฌํ์ฌ SciCode์ ๋ฒค์น๋งํฌ ํ์ฉ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM-SRBench๋ SciCode์ ๋ง์ฐฌ๊ฐ์ง๋ก ๊ณผํ ์ฐ๊ตฌ ์ค๋ฌด ๋ฅ๋ ฅ์ ํ๊ฐํ๋, ๋ฐฉ์ ์ ๋ฐ๊ฒฌ ๋ฑ ์๋ฆฌ์ ๊ณผ์ ์ ํนํ๋ ์ ์์ ์ํธ๋ณด์์ ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
SciCode ๋
ผ๋ฌธ์ ์ค์ ์ฐ๊ตฌ์์ ์ฝ๋ฉ ๋ฒค์น๋งํฌ๋ฅผ ํตํด ๋
ผ๋ฌธ ์ฝ๋ ์๋ํ ํ๋ ์์ํฌ์ ํ๊ฐ์ ์์ฉ์ฑ์ ํ์ฅํฉ๋๋ค.
์์ฉ ์ฌ๋ก
SciCode ๋
ผ๋ฌธ์ SciBERT ๋ฑ ๊ณผํ ํนํ LLM์ ์ค์ ๊ณผํ ์ฐ๊ตฌ ์ฝ๋ ํ์คํฌ ํ๊ฐ์ ์์ฉ๋ ๊ตฌ์ฒด์ ์ฌ๋ก์
๋๋ค.
์์ฉ ์ฌ๋ก
SciCode ๋ฒค์น๋งํฌ๋ฅผ ํตํด StarCoder์ ๊ฐ์ ์คํ์์ค ์ฝ๋ LLM์ด ๊ณผํ ์ฐ๊ตฌ ์ฝ๋ฉ์์ ์ด๋ค ๋ฅ๋ ฅ์ ๋ฐํํ๋์ง ํ๊ฐํ ์ ์๋ค.
์์ฉ ์ฌ๋ก
SciCode ๋ฒค์น๋งํฌ๋ StarCoder2์ ๊ฐ์ ์ฝ๋ LLM์ด ์ค์ ๊ณผํ ์ฐ๊ตฌ ์ฝ๋ฉ์์ ์ด๋ค ์ฑ๋ฅ์ ๋ณด์ด๋์ง ํ๊ฐํ๋ ์ค์ ์์ฉ ์ฌ๋ก๋ฅผ ์ ๊ณตํ๋ค.