Experiential co-learning of software-developing agents

์ €์ž: Cheng Qian, Yufan Dang, Jiahao Li, Wei Liu, Weize Chen, Cheng Yang, Zhiyuan Liu, Maosong Sun | ๋‚ ์งœ: 2023 | DOI: N/A 📄 PDF


Essence

Figure 1

Experiential Co-Learning ํ”„๋ ˆ์ž„์›Œํฌ: Co-Tracking, Co-Memorizing, Co-Reasoning ์„ธ ๋ชจ๋“ˆ์„ ํ†ตํ•ด Instructor์™€ Assistant ์—์ด์ „ํŠธ๊ฐ€ ๊ณผ๊ฑฐ ๊ฒฝํ—˜์„ ํ•™์Šตํ•˜๊ณ  ํ™œ์šฉํ•˜์—ฌ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ์ž‘์—…์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰

๋ณธ ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์ด ๊ณผ๊ฑฐ ์ž‘์—… ๊ฒฝํ—˜์„ ์ถ•์ ํ•˜๊ณ  ํ™œ์šฉํ•˜๋Š” "๊ฒฝํ—˜์  ํ˜‘๋ ฅํ•™์Šต(Experiential Co-Learning)" ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ์ž‘์—…์—์„œ ๋ฐ˜๋ณต์ ์ธ ์˜ค๋ฅ˜๋ฅผ ๊ฐ์†Œ์‹œํ‚ค๊ณ  ์—์ด์ „ํŠธ ๊ฐ„์˜ ํ˜‘๋ ฅ ํšจ์œจ์„ฑ์„ ํ˜„์ €ํžˆ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

Motivation

Achievement

Figure 1
  1. ๊ฒฝํ—˜ ๊ธฐ๋ฐ˜ ํ˜‘๋ ฅํ•™์Šต์˜ ์ฒซ ์‹œ๋„: LLM ๊ธฐ๋ฐ˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ˜‘๋ ฅ์— ๊ณผ๊ฑฐ ๊ฒฝํ—˜์„ ํ†ตํ•ฉํ•œ ์ตœ์ดˆ์˜ ์—ฐ๊ตฌ๋กœ, Co-Tracking/Co-Memorizing/Co-Reasoning์„ ํ†ตํ•ด Instructor์™€ Assistant ์—ญํ• ์˜ ์—์ด์ „ํŠธ ๊ฐ„ ํ˜‘๋ ฅํ•™์Šต์„ ์‹คํ˜„ํ–ˆ๋‹ค.
  2. ์ž‘์—… ์‹คํ–‰ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์ง€๋ฆ„๊ธธ ์ถ”์ถœ: ์ ˆ์ฐจ์  ๊ถค์ ์—์„œ ์ธ์ ‘ํ•˜์ง€ ์•Š์€ ๋…ธ๋“œ๋ฅผ ์—ฐ๊ฒฐํ•˜๋Š” "์ง€๋ฆ„๊ธธ"์„ ์ถ”์ถœํ•˜์—ฌ ์—์ด์ „ํŠธ์˜ ๋‹จ์ถ• ์‚ฌ๊ณ (shortcut thinking)๋ฅผ ์œ ๋„ํ•˜๋Š” ํ˜์‹ ์  ๊ฒฝํ—˜ ํ‘œํ˜„ ๋ฐฉ์‹์„ ์ œ์•ˆํ–ˆ๋‹ค.
  3. ๋‹ค๊ฐ์  ๊ฒ€์ฆ: ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ์˜ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ๋Œ€ํ•ด ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•˜์—ฌ, ์ œ์•ˆ๋œ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ์—์ด์ „ํŠธ์˜ ํ˜‘๋ ฅ ํ’ˆ์งˆ๊ณผ ํšจ์œจ์„ฑ์„ ์œ ์˜๋ฏธํ•˜๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ด์„ ์ž…์ฆํ–ˆ๋‹ค.

How

Figure 3

์ž‘์—… ์‹คํ–‰ ๊ทธ๋ž˜ํ”„์˜ ์ฃผ์š” ์š”์†Œ ๋ถ„ํฌ: ์—์ง€(instruction), ์ƒํƒœ ์ „ํ™˜, ์ง€๋ฆ„๊ธธ์˜ ๊ตฌ์„ฑ ๋น„์œจ

Co-Tracking ๋ชจ๋“ˆ

Co-Memorizing ๋ชจ๋“ˆ

Co-Reasoning ๋ชจ๋“ˆ

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋‹ค์ค‘ ์—์ด์ „ํŠธ์˜ ํ˜‘๋ ฅํ•™์Šต์— ๊ฒฝํ—˜ ์ถ•์ ๊ณผ ํ™œ์šฉ์ด๋ผ๋Š” ์ค‘์š”ํ•œ ๊ฐœ๋…์„ ์ฒ˜์Œ ๋„์ž…ํ•œ ์˜๋ฏธ ์žˆ๋Š” ์—ฐ๊ตฌ์ด๋ฉฐ, ์ž‘์—… ์‹คํ–‰ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์ง€๋ฆ„๊ธธ ์ถ”์ถœ์ด๋ผ๋Š” ์ฐฝ์˜์ ์ธ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•œ๋‹ค. ์‹ค์ œ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ์ž๋™ํ™”์—์„œ์˜ ํšจ์œจ์„ฑ ์ฆ๋Œ€๋ฅผ ์ž…์ฆํ–ˆ์œผ๋‚˜, ๋„๋ฉ”์ธ ํŠนํ™”์„ฑ๊ณผ ๊ฒฝํ—˜ ํ‘œํ˜„์˜ ๋‹จ์ˆœ์„ฑ์ด ํ–ฅํ›„ ๊ฐœ์„  ๊ณผ์ œ๋กœ ๋‚จ์•„์žˆ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
327์˜ ์—์ด์ „ํŠธ๊ฐ„ ๊ฒฝํ—˜ ๊ณต์œ ์™€ ๋ฉ”๋ชจ๋ฆฌ ํ™œ์šฉ์€ 039์˜ ์—์ด์ „ํ‹ฑ ๋ฉ”๋ชจ๋ฆฌ ์„ค๊ณ„์™€ ์ด๋ก ์ ์œผ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‹ค์ค‘ ์—์ด์ „ํŠธ ์‹œ์Šคํ…œ์—์„œ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ํ˜‘์—…์„ ์œ„ํ•ด LLM ๊ธฐ๋ฐ˜ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ํ˜‘๋ ฅ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ–ˆ๋‹ค๋Š” ์œ ์‚ฌ์ ์ด ์žˆ์–ด ๊ฐ™์ด ์ฝ์œผ๋ฉด ์„œ๋กœ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์„ ๋น„๊ต ๊ฐ€๋Šฅ.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—์ด์ „ํŠธ ํ˜‘์—… ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์‚ฌํšŒ์  ๊ด€์ ์„ ๋‹ค๋ฃจ๊ณ  ์žˆ์œผ๋ฏ€๋กœ, ํ˜‘๋ ฅ ํšจ์œจ์„ฑ์ด๋‚˜ ์˜ค๋ฅ˜ ๊ฐ์ถ• ๋ฐฉ๋ฒ•์„ sociotechnical ์‹œ์ ์—์„œ ๋น„๊ตยท๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Œ.
๋‹ค๋ฅธ ์ ‘๊ทผ
519๋Š” ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ž๋™์ƒ์„ฑ ๋ฉ€ํ‹ฐ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋„์ž…ํ•ด, 327์˜ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ์™ธ ๊ณผํ•™์  ์ง‘๋‹จ์ž‘์—…์œผ๋กœ ํ™•์žฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
327์˜ ๊ฒฝํ—˜์  ํ˜‘๋ ฅํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ์™€ 381์˜ ์‹œ์Šคํ…œ ์ƒ๋ฌผํ•™ ์ž๋™ํ™” ์—ฐ๊ตฌ๋Š” ๊ฐ๊ธฐ ๋‹ค๋ฅธ ๋„๋ฉ”์ธ์—์„œ AI ํ˜‘๋™ ํ•™์Šต ๋ชจ๋ธ์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ฒดํ—˜์  ํ˜‘๋ ฅํ•™์Šต์— ๊ธฐ๋ฐ˜ํ•œ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ์ž‘์—…๊ณผ ๋‡Œ-์ปดํ“จํ„ฐ ์ธํ„ฐํŽ˜์ด์Šค ์—ฐ๊ตฌ์—์„œ์˜ ์ธ๊ฐ„-AI ํ˜‘์—… ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์‹ค์ œ์  ์ฐจ์ด๋ฅผ ํƒ์ƒ‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
327 ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ํ˜‘์—… ์—์ด์ „ํŠธ์˜ ์‚ฌํšŒ์  ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋ถ„์„ํ•˜์—ฌ, 711์˜ ์‹ค์งˆ์  ์—์ด์ „ํŠธ ํ˜‘๋ฒฝ ์„ค๊ณ„์— ๋Œ€์•ˆ์  ์˜๊ฐ์„ ์ค๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํ˜‘๋ ฅํ˜• ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ™œ์šฉํ•œ ๊ณผํ•™์  ํด๋ ˆ์ž„ ๊ฒ€์ฆ์„ ๋‹ค๋ฃจ์–ด ๋‰ด์Šค ํŒฉํŠธ์ฒดํ‚น๊ณผ ๋น„์Šทํ•œ ๋ฌธ์ œ ์ ‘๊ทผ๋ฒ•์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
362๋Š” ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง์—์„œ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ ์ ์šฉ์˜ ๋‹จ๊ณ„๋ณ„ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ, 327์˜ ๊ฒฝํ—˜์  ํ˜‘๋ ฅํ•™์Šต์— ์ด์–ด์ง‘๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Experiential co-learning of software-developing agents ๋…ผ๋ฌธ์€ ๊ฐœ๋ฐœ์ž ์—์ด์ „ํŠธ์˜ ํ˜‘๋ ฅํ•™์Šต๊ณผ ๊ณต๋™ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋ฐฉ์‹์— ๋Œ€ํ•œ ๊ตฌ์ฒด์  ์‹คํ—˜๊ณผ ๋ชจ๋ธ์„ ์ œ๊ณตํ•œ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
๋‹ค์ค‘ ์—์ด์ „ํŠธ์˜ ๊ฒฝํ—˜์ถ•์  ๋ฐ ์ •์ฑ… ์ „์ดํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ๋กœ๋ด‡ ๊ตฌํ˜„ ๋“ฑ ํƒ€ ๋„๋ฉ”์ธ์œผ๋กœ ๋‹ค์–‘ํ•˜๊ฒŒ ์ ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •