Closing the loop: Learning to generate writing feedback via language model simulated student revisions

์ €์ž: Inderjeet Nair, Jiaye Tan, Xiaotian Su, Anne Gere, Xu Wang, Lu Wang | ๋‚ ์งœ: 2024 | DOI: arXiv:2410.08058 📄 PDF


Essence

Figure 1

PROF ํŒŒ์ดํ”„๋ผ์ธ: ํ”ผ๋“œ๋ฐฑ ์ƒ์„ฑ๊ธฐ๊ฐ€ ์—ฌ๋Ÿฌ ํ”ผ๋“œ๋ฐฑ์„ ์ƒ˜ํ”Œ๋งํ•˜๊ณ , ํ•™์ƒ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ์ˆ˜์ • ๊ฒฐ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•˜๋ฉฐ, ์„ ํ˜ธ๋„ ๊ด€๊ณ„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ DPO๋ฅผ ํ†ตํ•ด ๋ฐ˜๋ณต์ ์œผ๋กœ ์ตœ์ ํ™”๋˜๋Š” ๊ณผ์ •

๋ณธ ๋…ผ๋ฌธ์€ ์–ธ์–ด ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ํ•™์ƒ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ž‘๋ฌธ ํ”ผ๋“œ๋ฐฑ ์ƒ์„ฑ ๋ชจ๋ธ(PROF)์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. ์‹ค์ œ ํ•™์ƒ ์ฐธ์—ฌ ์—†์ด ํ”ผ๋“œ๋ฐฑ์˜ ์‹คํšจ์„ฑ์„ ์ง์ ‘ ์ธก์ •ํ•˜๊ณ  ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋Š” ์ž๋™ํ™”๋œ ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ•ํ•œ๋‹ค.

Motivation

Achievement

Figure 2

์˜จ๋„ ๋ณ€ํ™”์— ๋”ฐ๋ฅธ ๋ฌธ์žฅ ์ˆ˜์ค€์˜ ์ˆ˜์ • ์ˆ˜ ๋ณ€ํ™”: llama3-8b์™€ gpt-3.5 ๋ชจ๋‘ ์˜จ๋„๊ฐ€ ์ฆ๊ฐ€ํ• ์ˆ˜๋ก ์ถ”๊ฐ€์™€ ์‚ญ์ œ๊ฐ€ ์ฆ๊ฐ€ํ•˜๋ฉฐ, ์‹ค์ œ ํ•™์ƒ๊ณผ ์œ ์‚ฌํ•œ ํŒจํ„ด์„ ๋ณด์ž„

Figure 3

์ˆ˜์ •๋œ ์—์„ธ์ด ํ’ˆ์งˆ ๋น„๊ต: ํ•™์ƒ ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋“ค์˜ ์„ฑ๋Šฅ์ด ์‹ค์ œ ํ•™์ƒ๊ณผ ์œ ์‚ฌํ•œ ๊ถค์ ์„ ๋”ฐ๋ฅด๋ฉฐ, ์ดˆ๊ธฐ ์—์„ธ์ด ํ’ˆ์งˆ ๋Œ€๋น„ ๊ฐœ์„ ๋„๋ฅผ ํ™•์ธ

  1. ๊ธฐ์กด ๋ชจ๋ธ ์ดˆ์›”: GPT-3.5/GPT-4์˜ ์†Œ์ˆ˜ ์ƒท ํ”„๋กฌํ”„ํŒ…๋ณด๋‹ค ํ”ผ๋“œ๋ฐฑ ์ ์šฉ ์„ฑ๋Šฅ์—์„œ ์šฐ์ˆ˜ํ•˜๋ฉด์„œ๋„ 8B ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ๋กœ ํ›จ์”ฌ ํšจ์œจ์ 
  2. ๋ ˆ์ด๋ธ” ์—†๋Š” ํ•™์Šต: ๊ณ ํ’ˆ์งˆ ํ”ผ๋“œ๋ฐฑ์˜ ๋Œ€๊ทœ๋ชจ ์ฃผ์„ ๋ฐ์ดํ„ฐ์…‹ ์—†์ด๋„, ๊ทธ๋ฆฌ๊ณ  ์›ํ•˜๋Š” ํ”ผ๋“œ๋ฐฑ ์†์„ฑ์„ ๋ช…์‹œํ•˜์ง€ ์•Š๊ณ ๋„ ํ•™์Šต ๊ฐ€๋Šฅ
  3. ๋‹ค์ค‘ ํ•™์ƒ ํ–‰๋™ ํฌ์šฉ์„ฑ: ์˜จ๋„ ์กฐ์ ˆ์„ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ํ•™์ƒ ์ˆ˜์ • ์–‘์‹(๋ณด์ˆ˜์  ์ˆ˜์ •๋ถ€ํ„ฐ ๊ณต๊ฒฉ์  ์ˆ˜์ •๊นŒ์ง€)์— ๋Œ€์‘ํ•˜๋Š” ํ”ผ๋“œ๋ฐฑ ์ƒ์„ฑ ๊ฐ€๋Šฅ
  4. ์‹ค์ œ ์ˆ˜์ •๊ณผ์˜ ์ •๋ ฌ์„ฑ: ์ƒ์„ฑ ํ”ผ๋“œ๋ฐฑ์ด ์‹ค์ œ ํ•™์ƒ ์ˆ˜์ •๊ณผ ์–‘ํ˜ธํ•œ ์ •๋ ฌ์„ ๋ณด์ด๋ฉฐ, LM ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ์˜ ์‹ ๋ขฐ์„ฑ ์ž…์ฆ

How

Figure 1

๋ฐ˜๋ณต์  ์ตœ์ ํ™” ํŒŒ์ดํ”„๋ผ์ธ์˜ ์ƒ์„ธ ํ”„๋กœ์„ธ์Šค

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ LM ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ”ผ๋“œ๋ฐฑ ์ƒ์„ฑ์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ตœ์ ํ™”ํ•˜๋Š” ์ฐฝ์˜์  ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•˜๋ฉฐ, ๊ธฐ์กด ๋Œ€ํ˜• ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ํšจ์œจ์ ์ด๊ณ  ํšจ๊ณผ์ ์ธ ์‹œ์Šคํ…œ์„ ๊ตฌํ˜„ํ–ˆ๋‹ค. ๋‹ค๋งŒ ๋‹จ์ผ ๊ณผ์ œ ๊ฒ€์ฆ๊ณผ ์‹ค์ œ ํ•™์ƒ ์ฐธ์—ฌ ํ‰๊ฐ€ ๋ถ€์žฌ๊ฐ€ ์‹ค์ œ ๊ต์œก ํ˜„์žฅ์œผ๋กœ์˜ ์ „ํ™˜ ๊ฐ€๋Šฅ์„ฑ์„ ์ œํ•œํ•œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
AI ๊ธฐ๋ฐ˜ ํ”ผ๋“œ๋ฐฑ ๋ฐ˜๋ณต ๊ฐœ์„  ๋ฃจํ”„์˜ ์ƒ์„ฑ ์›๋ฆฌ์™€ ์ด๋ก ์  ์„ค๊ณ„๋ฐฉํ–ฅ์„ ์ธ๊ฐ„-๋จธ์‹  ์ƒํ˜ธ์ž‘์šฉ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๊ด€์ ์—์„œ ์‹ฌํ™”ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
ํ”ผ๋“œ๋ฐฑ ์ƒ์„ฑ ์ž๋™ํ™” ์—ฐ๊ตฌ์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ๋…ผ๋ฌธ์œผ๋กœ, ์ž๋™ํ™”๋œ ์“ฐ๊ธฐ ํ‰๊ฐ€ ๋ฐ ํ”ผ๋“œ๋ฐฑ ์ œ๊ณต ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ์— ์˜๊ฐ์„ ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
609 ๋…ผ๋ฌธ์€ ๋…ผ์ฆ ๊ธฐ๋ฐ˜ ํ”ผ๋“œ๋ฐฑ์„ LLM์ด ์ž๋™ ์ƒ์„ฑํ•˜๋Š” ๊ณผ์ •์„ ํƒ๊ตฌํ•˜์—ฌ, 227์˜ ์ž‘๋ฌธ ํ”ผ๋“œ๋ฐฑ ์ž๋™ํ™”์™€ ์ƒํ˜ธ ๋ณด์™„์ ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ž๋™ํ™”๋œ ๋ฆฌ๋ทฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ๋Š” Automated review generation ๋…ผ๋ฌธ์€ ๋ฐ˜๋ณต ์ตœ์ ํ™”๊ฐ€ ์•„๋‹Œ ๋‹ค๋ฅธ ํ•™์Šต ๋ฐ ํ‰๊ฐ€ ์ „๋žต์„ ๋น„๊ต ๋Œ€์ƒ์œผ๋กœ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM ๊ธฐ๋ฐ˜ ์ž‘๋ฌธ ์ง€์› ์‹œ์Šคํ…œ์—์„œ ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ๊ฐ๋„๋กœ ์ ‘๊ทผํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ ์ž‘์„ฑ ํ”ผ๋“œ๋ฐฑ ์ƒ์„ฑ ์—ฐ๊ตฌ๋กœ, ์ดˆ์•ˆ์˜ ์ž๋™ ์ˆ˜์ •๊ณผ ๊ด€๋ จ๋œ ํ›„์† ์‘์šฉ์„ ๋‹ค๋ฃฌ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
184 ๋…ผ๋ฌธ์€ LLM์ด ๋…ผ๋ฌธ ํ”ผ๋“œ๋ฐฑ ๋ฐ ๋ฆฌ๋ทฐ์— ์‹ค์งˆ์  ๋„์›€์„ ์ฃผ๋Š”์ง€ ๋‹ค๊ฐ๋„๋กœ ๊ฒ€์ฆํ•ด, 227์—์„œ ์ œ์•ˆํ•œ ์ž๋™ํ™” ํ”ผ๋“œ๋ฐฑ ์‹œ์Šคํ…œ์˜ ์‹คํšจ์„ฑ์„ ํ‰๊ฐ€ํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ReviewAgents ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ์ž๋™ ์ƒ์„ฑ๊ณผ ํ”„๋กœ์„ธ์Šค ์ตœ์ ํ™”๋ฅผ ์‹ฌํ™” ๋ถ„์„ํ•˜์—ฌ, ๋ฆฌ๋ทฐ ํ”ผ๋“œ๋ฐฑ ์ƒ์„ฑ์˜ ๋ฐ˜๋ณต ํ•™์Šต ์ฒด๊ณ„์™€ ์ง์ ‘์ ์œผ๋กœ ์ด์–ด์ง‘๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •