์ ์: K. J. Kevin Feng, Kevin Pu, Matt Latzke, Tal August, Pao Siangliulue, Jonathan Bragg, Daniel S. Weld, Amy X. Zhang, Joseph Chee Chang | ๋ ์ง: 2026 | DOI: 10.1145/3772318.3791673 📄 PDF
Essence
๋ณธ ๋
ผ๋ฌธ์ AI ์์ด์ ํธ์์ ํ์
์์ ๊ณํ(planning)๊ณผ ์คํ(execution)์ ์๊ฒฉํ๊ฒ ๋ถ๋ฆฌํ์ง ์๊ณ ์ ์ฐํ๊ฒ ์ธํฐ๋ฆฌ๋น(interleaving)ํ๋ฉฐ, ์ธ๊ฐ๊ณผ ์์ด์ ํธ ๊ฐ ์
๋ฌด ์์ ๊ถํ์ ๋์ ์ผ๋ก ์กฐ์ ํ ์ ์๋ ์ํธ์์ฉ ์ค๊ณ๋ฅผ ์ ์ํ๋ค. ๊ณ์ฐ ๋
ธํธ๋ถ(computational notebook) ํจ๋ฌ๋ค์์ ์๊ฐ์ ๋ฐ์ ๊ณผํ ์ฐ๊ตฌ ์์
์ ์ํ ๋ฌธ์ ๊ธฐ๋ฐ ํ์
์์คํ
Cocoa๋ฅผ ๊ฐ๋ฐํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ AI ์์ด์ ํธ์์ ์ฅ๊ธฐ ํ์
์์ ๊ณํ๊ณผ ์คํ์ ์ธํฐ๋ฆฌ๋น, ๋์ ๊ถํ ์์์ด๋ผ๋ ์ค์ง์ ์ด๊ณ ์ค์ํ ์ค๊ณ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ์ฒด๊ณ์ ์ธ ์ฐ๊ตฌ ๋ฐฉ๋ฒ๋ก (ํ์ฑ ์ฐ๊ตฌ-์ค๊ณ-์ด์ค ํ๊ฐ)๊ณผ ํ์ฅ ๊ฒ์ฆ์ ํตํด ์ ๋ขฐํ ์ ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ๋ค. ํนํ ๊ณผํ ์ฐ๊ตฌ ๋๋ฉ์ธ์ ๋ณต์กํ ํ์
์๊ตฌ๋ฅผ ์ถฉ์กฑํ๋ ๊ตฌ์ฒด์ ์ธ ์ค๊ณ์์ ์ ์ํ ์ ์ด ์ค๋ฌด์ ๊ฐ์น๊ฐ ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
AutoGen ๋
ผ๋ฌธ์ ๋ค์ค AI ์์ด์ ํธ ํ์
ํ๋ ์์ํฌ๋ฅผ ์์ธํ ๋ค๋ฃจ์ด Cocoa์ ์ธํฐ๋ฆฌ๋น ๊ณํยท์คํ ๋ชจ๋ธ์ ๊ตฌํ ์ฐธ๊ณ ์ฌ๋ก์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Cocoa ๋
ผ๋ฌธ์ AI ์์ด์ ํธ ๊ธฐ๋ฐ ๊ณผํ ์คํ ์๋ํ์ ํ๋ ฅ ๊ตฌ์กฐ๋ฅผ ๋
ผ์ํ์ฌ, CRISPR-GPT์ ํ๋ ฅยท์๋ํ ์๋ฆฌ์ ์ด๋ก ์ ํ ๋๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ธ๊ฐ-AI ํ๋ ฅ ์์คํ
์ ์ํธ์์ฉ ์ค๊ณ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
331์ LLM ๊ธฐ๋ฐ ์์ด์ ํธ ์ฌํ์ ํ์
๋ฉ์ปค๋์ฆ์ ์ง์ค์ ์ผ๋ก ์ฐ๊ตฌํ์ฌ, 229์ ์ธ๊ฐ-AI ๋์ ์์ ์ค๊ณ์ ์ฐจ๋ณ์ ์ธ ์๊ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์์ด์ ํธ ๊ธฐ๋ฐ ์ฌํ ์๋ฎฌ๋ ์ด์
์ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ผ๋ก ๊ตฌํํ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณ์ฐ ๋
ธํธ๋ถ ํ๊ฒฝ์์ AI์์ ํ์
๋ฐฉ์์ ๋ค๋ฅธ ๊ด์ ์ผ๋ก ํ๊ตฌํ๋ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ธ๊ฐ๊ณผ AI์ ๊ณต๋ ์ฌ๊ณ ๋ฐ ํ๋ ฅ์ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ ํฅ์์ ์ํ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
Select, read, and write ๋
ผ๋ฌธ์ ์ ์ฒด ๋
ผ๋ฌธ ์ฝ๊ธฐ์ ์๋ํ๋ ์์ฝ, ๋ถ์ ์์ฑ ๋ฑ AI ์์ด์ ํธ์ ๊ณผํ ์ฐ๊ตฌ ํ์
์๋๋ฆฌ์ค์ ๋ค์ํ ๊ตฌํ ์์๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI ๊ธฐ๋ฐ ๊ณผํ์ ์ฃผ์ฅ ํฉํธ์ฒดํน์์ Co-planning/Causal reasoning ๋ฑ ๋ค์ํ ์ ๊ทผ ๋ฐฉ๋ฒ์ ์๋ก ๋น๊ตํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
295๋ ๋ค์ค ์์ด์ ํธ ์ค์ผ์คํธ๋ ์ด์
๊ณผ ๊ฒ์์ด ๊ฒฐํฉ๋ ํ๋ ์์ํฌ๋ก 229์ ๊ณต๋ ๊ธฐํ/์คํ ํ๋ฆ์ ํ์ฅ์ํต๋๋ค.
ํ์ ์ฐ๊ตฌ
AdaSociety ๋
ผ๋ฌธ์ ๋์ ์ฌํ์ ๊ตฌ์กฐ์ ์์ด์ ํธ ํ์
ํ๊ฒฝ์ ๋ค๋ค Cocoa์ ์
๋ฌด ์์ ๋ฐ ํ์
๋ฉ์ปค๋์ฆ ํ์ฅ์ ํ์ฉํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
Cocoa ๋
ผ๋ฌธ์ ์ธ๊ฐ๊ณผ AI ์์ด์ ํธ์ ๊ณต๋ ๊ณํ ๋ฐ ์คํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ ๋๊ตฌ ํ์ฉ ์์ ์ฑ ๋ฌธ์ ํด๊ฒฐ์ ๋ํ ์ถ๊ฐ์ ์ธ ์ ์ฉ์ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
Towards end-to-end automation of AI research ๋
ผ๋ฌธ์ ์์ด์ ํธ ๊ธฐ๋ฐ ๊ณผํ์ฐ๊ตฌ ์๋ํ์ ํ๊ณ์ ํฅํ ๋ฐฉํฅ์ฑ์ ๋
ผ์ํ์ฌ Cocoa์ ํ์
ํ๋ ์์ํฌ์ ์ฐ๊ด์ฑ ์์ต๋๋ค.