Learning to generate research idea with dynamic control

์ €์ž: Ruochen Li, Liqiang Jing, Chi Han, Jiawei Zhou, Xinya Du | ๋‚ ์งœ: 2024 | DOI: N/A 📄 PDF


Essence

Figure 2

Figure 2: 3๊ฐ€์ง€ ์ฐจ์›์— ๊ฑธ์นœ ๋™์  ์ œ์–ด๋ฅผ ํฌํ•จํ•œ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ. ์ƒ์„ฑ๋œ ์—ฐ๊ตฌ ์•„์ด๋””์–ด๋Š” ๊ฐ ์ฐจ์›์— ๋Œ€ํ•œ ์ ์ˆ˜๋ฅผ ์ œ๊ณตํ•˜๋Š” ๋ณด์ƒ ๋ชจ๋ธ๋กœ ํ‰๊ฐ€๋˜๋ฉฐ, ์ด๋Š” ๊ฐ•ํ™”ํ•™์Šต ๋ฏธ์„ธ์กฐ์ • ๊ณผ์ • ์ค‘์— ์•„์ด๋””์–ด ์ œ์•ˆ์ž์™€ ์ฐจ์›๋ณ„ ์ œ์–ด ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ตœ์ ํ™”ํ•˜๋„๋ก ์•ˆ๋‚ด

๋Œ€๊ทœ๋ชจ ์–ธ์–ด๋ชจ๋ธ(LLM)์„ ํ™œ์šฉํ•˜์—ฌ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ƒ์„ฑ์„ ์ž๋™ํ™”ํ•˜๋˜, ์ฐธ์‹ ์„ฑ(novelty), ์‹คํ˜„์„ฑ(feasibility), ํšจ๊ณผ์„ฑ(effectiveness)์˜ ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ์ฐจ์› ๊ฐ„์˜ ๊ท ํ˜•์„ ๋™์ ์œผ๋กœ ์กฐ์ •ํ•˜๋Š” ๋‘ ๋‹จ๊ณ„ ํ•™์Šต ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๊ฐ๋…ํ•™์Šต(SFT)๊ณผ ์ œ์–ด ๊ฐ€๋Šฅํ•œ ๊ฐ•ํ™”ํ•™์Šต(RL)์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ฐจ์›๋ณ„ ๋ณด์ƒ ๋ชจ๋ธ์„ ํ†ตํ•ด ๋ฏธ์„ธํ•œ ํ”ผ๋“œ๋ฐฑ์œผ๋กœ ์ตœ์ ํ™”ํ•œ๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: ์—ฐ๊ตฌ ๋…ผ๋ฌธ์œผ๋กœ๋ถ€ํ„ฐ์˜ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ƒ์„ฑ. ๊ฐ ์•„์ด๋””์–ด๋Š” ์ฐธ์‹ ์„ฑ, ์‹คํ˜„์„ฑ, ํšจ๊ณผ์„ฑ ์ฐจ์›์œผ๋กœ ์ธก์ •๋จ

Figure 3

Figure 3: ๋””์ฝ”๋”ฉ RNN์ด ๊ท ํ˜•์žกํžŒ ๋งฅ๋ฝ ์ธ์‹์  ์ƒ์„ฑ์„ ์œ„ํ•ด ์ฐจ์›์„ ๋™์ ์œผ๋กœ ์กฐ์ •ํ•จ

  1. ์ฐจ์›๋ณ„ ์ œ์–ด ํ”„๋ ˆ์ž„์›Œํฌ: ๋‘ ๋‹จ๊ณ„ ๋ฏธ์„ธ์กฐ์ •์„ ํ†ตํ•ด ์ฐจ์›๋ณ„ ๋ณด์ƒ ๋ชจ๋ธ์ด ์ฐธ์‹ ์„ฑ, ์‹คํ˜„์„ฑ, ํšจ๊ณผ์„ฑ์— ๋Œ€ํ•œ ์„ธ๋ถ„ํ™”๋œ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•˜์—ฌ ์ƒ์„ฑ ๊ณผ์ •์„ ์ฒด๊ณ„์ ์œผ๋กœ ์ตœ์ ํ™”.
  2. ๋™์  ๋””์ฝ”๋”ฉ ๋ฉ”์ปค๋‹ˆ์ฆ˜: ๋ฌธ์žฅ ์ˆ˜์ค€์˜ RNN ๋””์ฝ”๋”๊ฐ€ ๊ฐ ๋ถ€๋ถ„(๋ฐฉ๋ฒ•๋ก  vs. ์‹คํ—˜ ๊ณ„ํš)์— ๋”ฐ๋ผ ์ฐจ์›๋ณ„ ๊ฐ€์ค‘์น˜๋ฅผ ๋™์ ์œผ๋กœ ์กฐ์ •ํ•˜์—ฌ ๋งฅ๋ฝ๋ณ„๋กœ ์ ์ ˆํ•œ ๊ฐ•์กฐ๋ฅผ ์‹คํ˜„. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฐฉ๋ฒ•๋ก  ๋ถ€๋ถ„์—์„œ๋Š” ์ฐธ์‹ ์„ฑ์„, ์‹คํ—˜ ๊ณ„ํš์—์„œ๋Š” ์‹คํ˜„์„ฑ์„ ์šฐ์„ ์‹œ.
  3. ์ž๋™ ์ˆ˜์ง‘ ์‹ค์ œ ๋ฐ์ดํ„ฐ ํ™œ์šฉ: ICLR, NeurIPS ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ๋ฐ์ดํ„ฐ์—์„œ ์ž๋™์œผ๋กœ ์ถ”์ถœํ•œ ์„ธ๋ถ„ํ™”๋œ ํ”ผ๋“œ๋ฐฑ์œผ๋กœ ๋ณด์ƒ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜์—ฌ ์ „๋ฌธ๊ฐ€ ํ‰๊ฐ€์™€ ์ •๋ ฌ๋œ ์ž๋™ํ™”๋œ ํ‰๊ฐ€ ๊ฐ€๋Šฅ.
  4. ํฌ๊ด„์  ํ‰๊ฐ€: ์ œ์•ˆ ๋ฐฉ๋ฒ•์ด ์ตœ์ ํ™”๋˜๊ณ  ์ œ์–ด ๊ฐ€๋Šฅํ•œ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ƒ์„ฑ์—์„œ ํšจ๊ณผ์„ฑ์„ ์ž…์ฆํ•˜๋Š” ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ ์ œ์‹œ.

How

Figure 4

Figure 4: ์ •๊ทœํ™”๋œ ๋ฌธ์žฅ์— ๋Œ€ํ•œ ์ฐจ์›๋ณ„ ๋ณ€ํ™”

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ƒ์„ฑ์ด๋ผ๋Š” ์ค‘์š”ํ•œ ๋ฌธ์ œ์— ๋Œ€ํ•ด ์ฐจ์›๋ณ„ ๋ณด์ƒ ๋ชจ๋ธ๊ณผ ๋™์  ์ œ์–ด๋ผ๋Š” ์‹ค์šฉ์ ์ธ ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ•˜๋ฉฐ, ์ž๋™ํ™”๋œ ์‹ค์ œ ๋ฐ์ดํ„ฐ ํ™œ์šฉ์ด ๊ฐ•์ ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ž๋™ ํ”ผ๋“œ๋ฐฑ์˜ ์‹ ๋ขฐ์„ฑ, ๋™์  ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ, ๊ทธ๋ฆฌ๊ณ  ์‹ค์ œ ํ•™์ˆ ์  ์˜ํ–ฅ๋ ฅ์— ๋Œ€ํ•œ ๊ฒ€์ฆ์ด ๋ณด๊ฐ•๋˜๋ฉด ๋”์šฑ ๊ฒฌ๊ณ ํ•œ ์—ฐ๊ตฌ๊ฐ€ ๋  ๊ฒƒ์œผ๋กœ ํŒ๋‹จ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
LLM ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์•„์ด๋””์–ด/ํ…์ŠคํŠธ ์ƒ์„ฑ์˜ ๋‹ค์–‘์„ฑ ๋ฐ ์ œ์–ด ๋Šฅ๋ ฅ ๋…ผ์˜๊ฐ€ demonstration ๋‹ค์–‘์„ฑ ์ฆ์ง„ ๋ฐฉ์‹์— ์ง์ ‘์  ํ† ๋Œ€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
155๋Š” ๊ณ ํ’ˆ์งˆ ์—ฐ๊ตฌ ์•„์ด๋””์–ด์˜ ๊ฒฐ์ • ์š”์ธ์„ ๋ถ„์„ํ•˜์—ฌ, 484๊ฐ€ LLM ๊ธฐ๋ฐ˜ ์•„์ด๋””์–ด ์ƒ์„ฑ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ๊ธฐ์ดˆ ์ด๋ก ์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Learning to generate research idea with dynamic control ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ž๋™ ์ƒ์„ฑ ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃจ๋ฉฐ, AI Idea Bench์˜ ์ •๋Ÿ‰ํ‰๊ฐ€ ์ฒด๊ณ„์™€ ์‹œ๋„ˆ์ง€๋ฅผ ๊ฐ–๋Š”๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Learning to generate research idea ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ๊ณผํ•™ ์•„์ด๋””์–ด ์ƒ์„ฑ์˜ ์ž์ฒด ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋ถ„์„ํ•˜์—ฌ 409 ๋…ผ๋ฌธ์˜ ์ฐฝ์˜์„ฑ ํ‰๊ฐ€ ๊ทผ๊ฑฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
484๋Š” LLM ๊ธฐ๋ฐ˜ ํ•™์ˆ  ํ…์ŠคํŠธ ์ƒ์„ฑ ์‹œ ๋™์  ์ œ์–ด์™€ ํ”ผ๋“œ๋ฐฑ ํ•™์Šต ๋ฐฉ์‹์„ ๋‹ค๋ฃจ์–ด, XtraGPT ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ด๋ก ์  ๊ทผ๊ฑฐ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ƒ์„ฑ์˜ ์ž๋™ํ™”์—์„œ, ๋ถˆํ™•์‹ค์„ฑ ์ œ์–ด์™€ ์ ํ•ฉ์„ฑ ํ‰๊ฐ€์˜ ๋‘ ๊ฐ€์ง€ ์›์น™์  ์ ‘๊ทผ์„ ๋น„๊ตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
518์€ ๋‹ค์ค‘์ƒ์„ฑ ํ˜‘์—…์„ ํ†ตํ•ด ์•„์ด๋””์–ด์˜ ์งˆ๊ณผ ์ฐฝ์˜์„ฑ์„ ๋†’์ด๋Š” ์ ‘๊ทผ๋ฒ•์œผ๋กœ, ๋‹จ์ผ LLM ๊ธฐ๋ฐ˜ ์ œ์–ด ํƒ์ƒ‰๊ณผ ๋Œ€์กฐ์  ๋น„๊ต๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ƒ์„ฑ์—์„œ ๋™์  ์ œ์–ด์™€ ํ† ํ”ฝ ์„ ํƒ์— ๊ธฐ๋ฐ˜ํ•œ LLM ์ฐฝ์˜์„ฑ ์ด‰์ง„ ๋ฐฉ๋ฒ•์„ ์ œ์‹œ, ๋ฐ˜๋ณต์  ๊ณ„ํš/๊ฒ€์ƒ‰ ๋ฐฉ์‹๊ณผ ์ฐจ๋ณ„ํ™”๋จ.
๋‹ค๋ฅธ ์ ‘๊ทผ
484 ๋…ผ๋ฌธ์€ ๋™์  ์ œ์–ด ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ƒ์„ฑ๊ณผ์ •์„ LLM์œผ๋กœ ํƒ๊ตฌํ•˜์—ฌ, 728์˜ ์ž๋™ํ™”๋œ ์•„์ด๋””์–ด ์ฐฝ์ถœ๊ณผ ๋น„๊ต์  ์ฝ์„ ๊ฐ€์น˜๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Learning to generate research idea... ๋…ผ๋ฌธ์€ ์ปจํŠธ๋กค ๊ฐ€๋Šฅํ•œ ์•„์ด๋””์–ด ์ƒ์„ฑ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ๋‹ค๋ฃฌ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
Learning to generate research idea ๋…ผ๋ฌธ์€ ๋™์  ์ œ์–ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ™œ์šฉํ•˜์—ฌ LLM ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ƒ์„ฑ์˜ ๋‹ค๋ฅธ ๋ฐฉ์‹์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
665๋Š” LLM ๊ธฐ๋ฐ˜ ์ž๋™ ๋…ผ๋ฌธ ์‹ฌ์‚ฌ ์‹œ์Šคํ…œ์— RL reasoning์„ ํ™œ์šฉํ•˜๊ณ , 484๋Š” ์•„์ด๋””์–ด ์ƒ์„ฑ์˜ ๋™์  ํ†ต์ œ์— RL์„ ์ ์šฉํ•˜๋ฏ€๋กœ ์ž๋™ํ™”๋œ ํ•™์ˆ  ์ƒ์‚ฐ์—์„œ ์„œ๋กœ ๋‹ค๋ฅธ ์‘์šฉ ์ง€์ ์„ ๊ฐ€์ง„๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
LLM์˜ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ƒ์„ฑ, ํ’ˆ์งˆ ํ‰๊ฐ€, ํ˜์‹ ์„ฑ ํƒ์ง€๊นŒ์ง€ ๋‹ค๋ฃจ์–ด ๋…ผ๋ฌธ์— ์ œ์‹œ๋œ ์ƒˆ๋กœ์šด ์กฐํ•ฉ ์˜ˆ์ธก์— ์ž๋™ํ™”๋œ ๋น„ํŒ์  ์‚ฌ๊ณ ๋ฅผ ๊ทผ๊ฑฐ๋กœ ๋ณด์™„ํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
714๋Š” LLM ๊ธฐ๋ฐ˜์˜ ์ธ๊ฐ„-LLM ํ˜‘์—… ์•„์ด๋””์–ด ์ƒ์„ฑ ๋ชจ๋ธ์„ ์‹คํ—˜์ ์œผ๋กœ ํ™•์žฅํ•˜์—ฌ, 484๊ฐ€ ์ œ์‹œํ•œ ๋‹ค์ฐจ์› ํ”ผ๋“œ๋ฐฑ๊ณผ ํ†ต์ œ ํ”„๋ ˆ์ž„์›Œํฌ์— ์‹ค์งˆ์  ์‚ฌํšŒ์  ํ™•์žฅ์„ ๋ถ€์—ฌํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
AI์™€ ์ธ๊ฐ„์˜ ๊ณต๋™ ์•„์ด๋””์–ด ์ƒ์„ฑ ๋ฐ ํ•™์ˆ ์  ๊ธ€์“ฐ๊ธฐ์—์„œ LLM ๊ธฐ๋ฐ˜ ๋™์  ์ปจํŠธ๋กค ๊ฒฝํ—˜์„ ์‹คํ—˜์ ์œผ๋กœ ํ™•์žฅํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM ์ฐฝ์˜์  ์•„์ด๋””์–ด ์ƒ์„ฑ ์‹œ์Šคํ…œ์˜ ํ‰๊ฐ€ ์ž๋™ํ™” ๋ฐ ๋‹ค์–‘ํ•œ ํ‰๊ฐ€ ์ง€ํ‘œ ํ™œ์šฉ ๋ถ€๋ถ„์—์„œ ๋‘ ๋…ผ๋ฌธ์ด ์—ฐ๊ฒฐ๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
425๋ฒˆ ๋…ผ๋ฌธ์€ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ์•„์ด๋””์–ด ์ƒ์„ฑ ํ’ˆ์งˆ ๊ฐœ์„ ์„ ์‹คํ—˜์ ์œผ๋กœ ๊ฒ€์ฆํ•˜์—ฌ, 484๋ฒˆ์˜ ํ”ผ๋“œ๋ฐฑ ์ตœ์ ํ™” ์—ฐ๊ตฌ์™€ ์ƒ๋ณด์  ์‹คํ—˜์  ๊ทผ๊ฑฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
Learning to generate research idea ๋…ผ๋ฌธ์€ LLM๊ณผ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์˜ ๋™์  ์ œ์–ด, ์„ธ๋ถ„ํ™”๋œ ํ‰๊ฐ€๊ตฌ์กฐ๋ฅผ ์•„์ด๋””์–ด ์ƒ์„ฑ ์ž‘์—…์— ๋”์šฑ ํŠนํ™”ํ•˜์—ฌ, IRIS ์‹œ์Šคํ…œ์˜ ๋ฐœ์ „ ๊ฒฝ๋กœ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
LLM์„ ํ™œ์šฉํ•œ ๊ณผํ•™ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ƒ์„ฑ๊ณผ ๋™์  ์ปจํŠธ๋กค ๊ธฐ๋ฒ•์„ ๋‹ค๋ค„, ๋ชจ๋ž˜์‹œ๊ณ„ ํ”„๋ ˆ์ž„์›Œํฌ ๊ธฐ๋ฐ˜ ์‹ค์ „์  ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
484๋ฒˆ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์•„์ด๋””์–ด ์ƒ์„ฑ์—์„œ ์‹ค์ œ๋กœ ์•„์ด๋””์–ด์˜ ๋‹ค์–‘์„ฑ๊ณผ ์‹ ๊ทœ์„ฑ์ด ์–ด๋–ป๊ฒŒ ์ธก์ •๋  ์ˆ˜ ์žˆ๋Š”์ง€ ์‹คํ—˜์ ์œผ๋กœ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
XtraGPT(889)๋Š” LLM ํ•™์ˆ  ๋…ผ๋ฌธ ์ˆ˜์ •์„ ์œ„ํ•œ ๋™์  ์ œ์–ดยท์ •๊ต ํ”ผ๋“œ๋ฐฑ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‹ค์ œ ๊ตฌํ˜„ํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •