Cocoa: Co-planning and co-execution with AI Agents

์ €์ž: K. J. Kevin Feng, Kevin Pu, Matt Latzke, Tal August, Pao Siangliulue, Jonathan Bragg, Daniel S. Weld, Amy X. Zhang, Joseph Chee Chang | ๋‚ ์งœ: 2026 | DOI: 10.1145/3772318.3791673 📄 PDF


Essence

๋ณธ ๋…ผ๋ฌธ์€ AI ์—์ด์ „ํŠธ์™€์˜ ํ˜‘์—…์—์„œ ๊ณ„ํš(planning)๊ณผ ์‹คํ–‰(execution)์„ ์—„๊ฒฉํ•˜๊ฒŒ ๋ถ„๋ฆฌํ•˜์ง€ ์•Š๊ณ  ์œ ์—ฐํ•˜๊ฒŒ ์ธํ„ฐ๋ฆฌ๋น™(interleaving)ํ•˜๋ฉฐ, ์ธ๊ฐ„๊ณผ ์—์ด์ „ํŠธ ๊ฐ„ ์—…๋ฌด ์œ„์ž„ ๊ถŒํ•œ์„ ๋™์ ์œผ๋กœ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒํ˜ธ์ž‘์šฉ ์„ค๊ณ„๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๊ณ„์‚ฐ ๋…ธํŠธ๋ถ(computational notebook) ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ์˜๊ฐ์„ ๋ฐ›์•„ ๊ณผํ•™ ์—ฐ๊ตฌ ์ž‘์—…์„ ์œ„ํ•œ ๋ฌธ์„œ ๊ธฐ๋ฐ˜ ํ˜‘์—… ์‹œ์Šคํ…œ Cocoa๋ฅผ ๊ฐœ๋ฐœํ–ˆ๋‹ค.

Motivation

Achievement

Figure 2

Cocoa์˜ ์‚ฌ์šฉ์ž ์ธํ„ฐํŽ˜์ด์Šค ๊ฐœ์š”: (A) ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ๊ณ„ํš์œผ๋กœ ๊ณต๋™ ๊ณ„ํš ๋ฐ ์‹คํ–‰ ์ง€์›, (B) AI ์—์ด์ „ํŠธ ํ• ๋‹น ๋‹จ๊ณ„, (C) ์—ฐ๊ตฌ์ž ํ• ๋‹น ๋‹จ๊ณ„, (D) ์‚ฌ์ด๋“œ๋ฐ” ๊ธฐ๋ฐ˜ ๊ฒฐ๊ณผ ํŽธ์ง‘ ๋ฐ ํ”ผ๋“œ๋ฐฑ

  1. ํ˜‘์—… ์„ค๊ณ„์˜ ์œ ์—ฐ์„ฑ: ๊ฐœ๋ณ„ ๊ณ„ํš ๋‹จ๊ณ„๋ฅผ ์‚ฌ์šฉ์ž ๋˜๋Š” ์—์ด์ „ํŠธ์— ๋™์ ์œผ๋กœ ํ• ๋‹น ๊ฐ€๋Šฅํ•œ ์ธํ„ฐํŽ˜์ด์Šค ๊ตฌํ˜„. ์‚ฌ์šฉ์ž๋Š” ์—์ด์ „ํŠธ์˜ ์ œ์•ˆ์„ ์ˆ˜์šฉ, ๊ฑฐ๋ถ€, ์ˆ˜์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๋ช…์‹œ์ ์ธ ์„ ํƒ์ง€ ์ œ๊ณต
  2. ์ธํ„ฐ๋ฆฌ๋น™ ๊ฐ€๋Šฅ์„ฑ: ๊ณ„ํš๊ณผ ์‹คํ–‰์„ ์—„๊ฒฉํžˆ ๋ถ„๋ฆฌํ•˜์ง€ ์•Š๊ณ , ๋ถ€๋ถ„ ์‹คํ–‰ ํ›„ ๊ณ„ํš์„ ์žฌ์กฐ์ •ํ•˜๊ฑฐ๋‚˜ ์ƒˆ๋กœ์šด ๋‹จ๊ณ„๋ฅผ ์ถ”๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ์œ ์—ฐํ•œ ์›Œํฌํ”Œ๋กœ์šฐ ์‹คํ˜„
  3. ํ‰๊ฐ€ ๊ฒ€์ฆ:
    • ๋žฉ ์—ฐ๊ตฌ(n=16): Cocoa๊ฐ€ ์ฑ„ํŒ… ๊ธฐ๋ฐ˜ ๋ฒ ์ด์Šค๋ผ์ธ ๋Œ€๋น„ ์กฐ์ข…์„ฑ(steerability)์€ ํ–ฅ์ƒ์‹œํ‚ค๋ฉด์„œ ์‚ฌ์šฉ์„ฑ(ease-of-use) ์œ ์ง€
    • ํ˜„์žฅ ๋ฐฐํฌ ์—ฐ๊ตฌ(n=7, 1์ฃผ์ผ): ์‹ค์ œ ์—ฐ๊ตฌ ์ž‘์—…์—์„œ ๋ช…์‹œ์  ์—…๋ฌด ์œ„์ž„๊ณผ ์ธํ„ฐ๋ฆฌ๋น™์ด ๊ฐ€์น˜ ์žˆ์Œ์„ ํ™•์ธ

How

Figure 3

์‚ฌ์šฉ์ž๊ฐ€ ๋ฌธ์„œ์˜ ํ…์ŠคํŠธ์—์„œ "์—์ด์ „ํŠธ ํ˜ธ์ถœ(Invoke agent)" ๋ฒ„ํŠผ์„ ํด๋ฆญํ•˜์—ฌ ์—์ด์ „ํŠธ ํ˜ธ์ถœ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ AI ์—์ด์ „ํŠธ์™€์˜ ์žฅ๊ธฐ ํ˜‘์—…์—์„œ ๊ณ„ํš๊ณผ ์‹คํ–‰์˜ ์ธํ„ฐ๋ฆฌ๋น™, ๋™์  ๊ถŒํ•œ ์œ„์ž„์ด๋ผ๋Š” ์‹ค์งˆ์ ์ด๊ณ  ์ค‘์š”ํ•œ ์„ค๊ณ„ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ์ฒด๊ณ„์ ์ธ ์—ฐ๊ตฌ ๋ฐฉ๋ฒ•๋ก (ํ˜•์„ฑ ์—ฐ๊ตฌ-์„ค๊ณ„-์ด์ค‘ ํ‰๊ฐ€)๊ณผ ํ˜„์žฅ ๊ฒ€์ฆ์„ ํ†ตํ•ด ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ํŠนํžˆ ๊ณผํ•™ ์—ฐ๊ตฌ ๋„๋ฉ”์ธ์˜ ๋ณต์žกํ•œ ํ˜‘์—… ์š”๊ตฌ๋ฅผ ์ถฉ์กฑํ•˜๋Š” ๊ตฌ์ฒด์ ์ธ ์„ค๊ณ„์•ˆ์„ ์ œ์•ˆํ•œ ์ ์ด ์‹ค๋ฌด์  ๊ฐ€์น˜๊ฐ€ ๋†’๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AutoGen ๋…ผ๋ฌธ์€ ๋‹ค์ค‘ AI ์—์ด์ „ํŠธ ํ˜‘์—… ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ƒ์„ธํžˆ ๋‹ค๋ฃจ์–ด Cocoa์˜ ์ธํ„ฐ๋ฆฌ๋น™ ๊ณ„ํšยท์‹คํ–‰ ๋ชจ๋ธ์˜ ๊ตฌํ˜„ ์ฐธ๊ณ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Cocoa ๋…ผ๋ฌธ์€ AI ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์‹คํ—˜ ์ž๋™ํ™”์˜ ํ˜‘๋ ฅ ๊ตฌ์กฐ๋ฅผ ๋…ผ์˜ํ•˜์—ฌ, CRISPR-GPT์˜ ํ˜‘๋ ฅยท์ž๋™ํ™” ์›๋ฆฌ์˜ ์ด๋ก ์  ํ† ๋Œ€๊ฐ€ ๋œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
์ธ๊ฐ„-AI ํ˜‘๋ ฅ ์‹œ์Šคํ…œ์˜ ์ƒํ˜ธ์ž‘์šฉ ์„ค๊ณ„์— ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
331์€ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ์‚ฌํšŒ์  ํ˜‘์—… ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ง‘์ค‘์ ์œผ๋กœ ์—ฐ๊ตฌํ•˜์—ฌ, 229์˜ ์ธ๊ฐ„-AI ๋™์  ์œ„์ž„ ์„ค๊ณ„์™€ ์ฐจ๋ณ„์ ์ธ ์‹œ๊ฐ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์‚ฌํšŒ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์œผ๋กœ ๊ตฌํ˜„ํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณ„์‚ฐ ๋…ธํŠธ๋ถ ํ™˜๊ฒฝ์—์„œ AI์™€์˜ ํ˜‘์—… ๋ฐฉ์‹์„ ๋‹ค๋ฅธ ๊ด€์ ์œผ๋กœ ํƒ๊ตฌํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ธ๊ฐ„๊ณผ AI์˜ ๊ณต๋™ ์‚ฌ๊ณ  ๋ฐ ํ˜‘๋ ฅ์  ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ ํ–ฅ์ƒ์„ ์œ„ํ•œ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Select, read, and write ๋…ผ๋ฌธ์€ ์ „์ฒด ๋…ผ๋ฌธ ์ฝ๊ธฐ์™€ ์ž๋™ํ™”๋œ ์š”์•ฝ, ๋ถ„์„ ์ƒ์„ฑ ๋“ฑ AI ์—์ด์ „ํŠธ์˜ ๊ณผํ•™ ์—ฐ๊ตฌ ํ˜‘์—… ์‹œ๋‚˜๋ฆฌ์˜ค์˜ ๋‹ค์–‘ํ•œ ๊ตฌํ˜„ ์˜ˆ์‹œ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
AI ๊ธฐ๋ฐ˜ ๊ณผํ•™์  ์ฃผ์žฅ ํŒฉํŠธ์ฒดํ‚น์—์„œ Co-planning/Causal reasoning ๋“ฑ ๋‹ค์–‘ํ•œ ์ ‘๊ทผ ๋ฐฉ๋ฒ•์„ ์„œ๋กœ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
295๋Š” ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์˜ค์ผ€์ŠคํŠธ๋ ˆ์ด์…˜๊ณผ ๊ฒ€์ƒ‰์ด ๊ฒฐํ•ฉ๋œ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ 229์˜ ๊ณต๋™ ๊ธฐํš/์‹คํ–‰ ํ๋ฆ„์„ ํ™•์žฅ์‹œํ‚ต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AdaSociety ๋…ผ๋ฌธ์€ ๋™์  ์‚ฌํšŒ์  ๊ตฌ์กฐ์˜ ์—์ด์ „ํŠธ ํ˜‘์—… ํ™˜๊ฒฝ์„ ๋‹ค๋ค„ Cocoa์˜ ์—…๋ฌด ์œ„์ž„ ๋ฐ ํ˜‘์—… ๋ฉ”์ปค๋‹ˆ์ฆ˜ ํ™•์žฅ์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Cocoa ๋…ผ๋ฌธ์€ ์ธ๊ฐ„๊ณผ AI ์—์ด์ „ํŠธ์˜ ๊ณต๋™ ๊ณ„ํš ๋ฐ ์‹คํ–‰ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•˜๋ฉฐ ๋„๊ตฌ ํ™œ์šฉ ์•ˆ์ •์„ฑ ๋ฌธ์ œ ํ•ด๊ฒฐ์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์ ์šฉ์„ ๋ณด์—ฌ์ค€๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Towards end-to-end automation of AI research ๋…ผ๋ฌธ์€ ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ๊ณผํ•™์—ฐ๊ตฌ ์ž๋™ํ™”์˜ ํ•œ๊ณ„์™€ ํ–ฅํ›„ ๋ฐฉํ–ฅ์„ฑ์„ ๋…ผ์˜ํ•˜์—ฌ Cocoa์˜ ํ˜‘์—… ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์—ฐ๊ด€์„ฑ ์žˆ์Šต๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •