Essence
ResearchCodeAgent ์์คํ
์ํคํ
์ฒ: (a) ๊ณํ(Planning), ์ฐ๊ตฌ ๋ก๊ทธ(Research Logs), ์์ปค(Workers), ํ๊ฒฝ(Environment), (b) LLM ์บ์ค์ผ์ด๋๋ฅผ ํฌํจํ ๊ณํ ๋ฉ์ปค๋์ฆ, (c) ์ ๋ฌธ๊ฐ ํธ์ถ ๋ฐ ์์ปค ๊ตฌ์กฐ
์ฐ๊ตฌ ๋
ผ๋ฌธ์ ๊ธฐ์ ๋ ๋จธ์ ๋ฌ๋ ๋ฐฉ๋ฒ๋ก ์ ์๋์ผ๋ก ์ฝ๋๋ก ๋ณํํ๋ ๋ค์ค ์์ด์ ํธ LLM ์์คํ
์ ์ ์ํ๋ค. ์์ ๋ ๋ฒจ์ ์ถ์์ ์ธ ์ฐ๊ตฌ ์ค๋ช
๊ณผ ์ค์ ์คํ ๊ฐ๋ฅํ ๊ตฌํ ๊ฐ์ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ์ฌ ์ฐ๊ตฌ์์ ๊ตฌํ ์๊ฐ์ ๋จ์ถํ๋ค.
How
ResearchCodeAgent์ ์๋ ๋ฉ์ปค๋์ฆ:
ํ๊ฒฝ ๋ฐ ์
๋ ฅ
- ๋ฐฉ๋ฒ๋ก ์ค๋ช
, ๋ฐ์ดํฐ ์ค๋ช
, ์์ฌ์ฝ๋, ์คํํฐ ์ฝ๋, ์ฑ๋ฅ ์ ๋ณด๋ก ๊ตฌ์ฑ๋ ํ๊ฒฝ ํ์ผ๋ค๊ณผ ์ํธ์์ฉ
- ์ฐธ๊ณ ๋
ผ๋ฌธ์ ์๋ณธ ์ฝ๋ ์คํฌ๋ฆฝํธ๋ ํฌํจ ๊ฐ๋ฅ
ํ๋ ๊ณต๊ฐ(Action Space)
- ํ๋ก๊ทธ๋๋งคํฑ ํ๋: ํ์ผ ๋ชฉ๋ก(List Files), ํ์ผ ๋ณต์ฌ(Copy File), ์คํฌ๋ฆฝํธ ์คํ(Execute Script), ์ฝ๋ ๋น๊ต(Get Code Diff) ๋ฑ ํ๊ฒฝ๊ณผ์ ๊ธฐ๋ณธ ์ํธ์์ฉ
- LLM ๊ธฐ๋ฐ ํ๋: ํ์ผ ์ดํด(Understand File), ์คํฌ๋ฆฝํธ ํธ์ง(Edit Script), ๋ฌธ๋งฅ ๊ธฐ๋ฐ ์ดํด(Understand File with Code Context), ๋ฐ์ฑ(Reflection), ์ ๋ฌธ๊ฐ ๋์ ์์ฒญ(Request Planning Expert Help), ๊ตฌํ ๊ฒ์ฆ(Check Implementation) ๋ฑ
๊ณํ ๋ฉ์ปค๋์ฆ
- LLM ์บ์ค์ผ์ด๋ ๊ตฌ์กฐ๋ก ์ด๊ธฐ ํ๋๋๊ฐ ๊ณํ์ ์๋ฆฝํ๊ณ , ๋งํ ๊ฒฝ์ฐ ๋ ๊ฐ๋ ฅํ LLM(Planning Expert)์ ์์
- ๋จ๊ธฐ ๋ฉ๋ชจ๋ฆฌ(ํ์ฌ ๊ณํ, ์ต๊ทผ ํ๋)์ ์ฅ๊ธฐ ๋ฉ๋ชจ๋ฆฌ(์ ์ฒด ์ํธ์์ฉ ๊ธฐ๋ก)๋ฅผ ๋์ ์ผ๋ก ํ์ฉ
- ํ๋ก๊ทธ๋๋งคํฑ ์ ์ฝ(programmatic constraints)์ ํตํด ์ ํจํ ์๋ต๋ง ์์ฉ
์ฆ๋ถ์ ๊ตฌํ(Incremental Implementation)
- ๋ฐฉ๋ฒ๋ก ์ ๋ถ๋ถ ๋จ์(sub-task)๋ก ๋ถํดํ๊ณ , ๊ฐ ๋ถ๋ถ์ ์์ฐจ์ ์ผ๋ก ์ดํดํ๊ณ ํธ์ง
- ์คํ, ๊ฒ์ฆ, ๋ฐ์ฑ์ ํตํ ์ ์์ ๋ฌธ์ ํด๊ฒฐ
Evaluation
Novelty: 4/5 Technical Soundness: 3.5/5 Significance: 3.5/5 Clarity: 3/5 Overall: 3.5/5
์ดํ: ResearchCodeAgent๋ ๋จธ์ ๋ฌ๋ ์ฐ๊ตฌ์ ๊ตฌํ ์๋ํ๋ผ๋ ์ค์ฉ์ ๋ฌธ์ ์ ์ฒ์ ์ ๋ฉด์ผ๋ก ๋์ ํ ์ ๊ณผ 45%๋์ ์ฑ๊ณต๋ฅ ์์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋๋ค. ๋ค๋ง ํ๊ฐ ๋ฒ์์ ํ์ํจ, ํต๊ณ์ ๊ฒ์ฆ ๋ถ์ฌ, ๊ทธ๋ฆฌ๊ณ ์ฌ์ ํ ๋์ ์์ ํ์์จ(34%)์ ์ค์ ๋ฐฐํฌ ์ ๊ฐํ๊ฐ ํ์ํจ์ ์์ฌํฉ๋๋ค. ์ํฌ์ ๋
ผ๋ฌธ์ผ๋ก์์ ๊ฐ์น๋ ์ถฉ๋ถํ์ง๋ง, AI4Research ์ปค๋ฎค๋ํฐ์ ๊ตฌ์ฒด์ ํผ๋๋ฐฑ๊ณผ ์ถ๊ฐ ์คํ์ ํตํ ์ ๊ตํ๊ฐ ๊ถ์ฅ๋ฉ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
499 ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์ธ๋ถ ๋๊ตฌ ์ฐ๋ ๋ฐ ์ํฌํ๋ก์ฐ ์๋ํ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ ๋ฆฌํด, 670์ ๋
ผ๋ฌธ-to-์ฝ๋ ์๋ ๋ณํ ์์คํ
์ค๊ณ์ ์ด๋ก ์ ๊ทผ๊ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
368์ Gemini 1.5์ ๊ฐ์ ๋์ฉ๋ ๋ฉํฐ๋ชจ๋ฌ LLM์ 670์ ์๋ ์ฝ๋ํ ์์คํ
์ ํ์ํ ๋๊ท๋ชจ ๋งฅ๋ฝ ์ดํด์ ๋ฉํฐ๋ชจ๋ฌ ์ฒ๋ฆฌ๋ฅผ ๊ธฐ์ ์ ์ผ๋ก ๋ท๋ฐ์นจํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
712๋ฒ ๋
ผ๋ฌธ์ ๋จธ์ ๋ฌ๋ ๋ฐ ๊ณผํ์ ์ฝ๋ ๊ตฌํ ์๋ํ๋ฅผ ๋ฒค์น๋งํฌํ๋ฉฐ, 670๋ฒ์ ์๋ํ๋ ๋
ผ๋ฌธโ์ฝ๋ ๋ณํ ํ๋ ์์ํฌ์ ์ฑ๋ฅํ๊ฐ ์งํ ๋ฐ ๊ตฌ์กฐ์ ์ค๊ณ์ ์ฐธ์กฐ๊ฐ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
205๋ฒ ๋
ผ๋ฌธ์ ์ปค๋ฎค๋์ผ์ด์
๊ธฐ๋ฐ ์ํํธ์จ์ด ๊ฐ๋ฐ ์์ด์ ํธ ์์คํ
์ ์๊ฐํด, 670๋ฒ Multi-Agent Code System๊ณผ ์ํธ์์ฉ ๊ตฌ์กฐ์ ๋น๊ตํ ์ ์๋ ๋์์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
670์ ์ฝ๋ฉ ์๋ํ์ ์ค์ ์ ๋๋ ๋ฐ๋ฉด, 714๋ LLM์ ํ์ฉํ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ ๋ฐ ์ฐฝ์์ฑ ์ง์์ ์ค์ ์ ๋ก๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Executable Code Actions ๋
ผ๋ฌธ์ ์ฝ๋ ์์ฑ ๊ณผ์ ์์ ์คํ ๊ฐ๋ฅ์ฑ๊ณผ ์ฑ๋ฅ ํฅ์์ ์ํ LLM ์์ด์ ํธ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ์ด ์ง์ ๋น๊ตํ ๋งํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM ์์ด์ ํธ๋ฅผ ํ์ฉํ ๋ฐ์ดํฐ ์์ง ๋ฐ ๋ถ์ ์๋ํ์์ ์ ์ฌํ ์ ๊ทผ๋ฒ์ ์ฌ์ฉํ๋ ๋์ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
ResearchCodeAgent๋ LLM ๋ฉํฐ์์ด์ ํธ๋ก ๋
ผ๋ฌธ ์ฝ๋ ๊ตฌํ ์๋ํ ๋์ ๊ณผ์ ๋ฅผ ๋ค๋ฃจ์ด, ์ฝ๋ ์์ฑ ๋ฌธ์ ์์ ๋์กฐ์ ์ ๊ทผ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ResearchCodeAgent ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋ค์ค ์์ด์ ํธ ์์คํ
์ผ๋ก ๋
ผ๋ฌธ์์ ์ฝ๋ ์ ์ฅ์ ์๋ ์์ฑ์ ๋ค๋ฃจ์ด AutoP2C ์์คํ
๊ณผ ๊ทผ๋ณธ์ ์ผ๋ก ์ ์ฌํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
DS-Agent์ ๋ฐ๋ณต์ ๊ฐ์ ๋ฐ ๋ฐฐํฌ ๋จ๊ณ ์ต์ ํ๋ฅผ ํ์ฅํ๋ ๊ด๋ จ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ๋ค.
์์ฉ ์ฌ๋ก
803์ ๋
ผ๋ฌธ-ํผ์ด๋ฆฌ๋ทฐ ๋ฐ์ดํฐ์
์ ์ ๊ณตํ์ฌ 670์์ ๋ชจ๋ธ์ด ์ฐ๊ตฌ ๋ฐฉ๋ฒ๋ก ๊ณผ ์ค์ ์ฝ๋ ๊ตฌํ์ ์ฐ๊ฒฐํ๋ ํ๋ จ ์๋ฃ๋ก ํ์ฉ๋ ์ ์์ต๋๋ค.