CycleResearcher: Improving Automated Research via Automated Review

์ €์ž: Yixuan Weng, Minjun Zhu, Guangsheng Bao, Hongbo Zhang, Jindong Wang, Yue Zhang, Linyi Yang | ๋‚ ์งœ: 2024 | DOI: 10.48550/ARXIV.2411.00816 📄 PDF


Essence

Figure 2

๋ฐ˜๋ณต์  ํ›ˆ๋ จ ํ”„๋ ˆ์ž„์›Œํฌ: CycleResearcher๊ฐ€ ๋…ผ๋ฌธ์„ ์ƒ์„ฑํ•˜๊ณ  CycleReviewer๊ฐ€ ํ‰๊ฐ€ํ•˜์—ฌ ์„ ํ˜ธ๋„ ์Œ์„ ๊ตฌ์„ฑํ•œ ํ›„ ์ •์ฑ…์„ ์ตœ์ ํ™”ํ•˜๋Š” ์‚ฌ์ดํด

๋ณธ ๋…ผ๋ฌธ์€ ์˜คํ”ˆ์†Œ์Šค LLM์„ ํ™œ์šฉํ•˜์—ฌ ๋…ผ๋ฌธ ์ž‘์„ฑ, ๋™๋ฃŒ ๊ฒ€ํ† , ์ˆ˜์ •์˜ ์ „์ฒด ์—ฐ๊ตฌ ์‚ฌ์ดํด์„ ์ž๋™ํ™”ํ•˜๋Š” ํ†ตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. CycleReviewer๊ฐ€ ์ธ๊ฐ„ ๋ฆฌ๋ทฐ์–ด๋ณด๋‹ค 26.89% ๋” ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, CycleResearcher๊ฐ€ ์ƒ์„ฑํ•œ ๋…ผ๋ฌธ์ด ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€(5.36์ )์— ๊ทผ์ ‘ํ•˜๋Š” ์„ฑ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

Motivation

Achievement

Figure 1

Review-5k์™€ Research-14k ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ํŒŒ์ดํ”„๋ผ์ธ: ICLR 2024 ๋ฆฌ๋ทฐ ์ •๋ณด์™€ ์ฃผ์š” ML ํ•™ํšŒ ๋…ผ๋ฌธ์˜ ๊ตฌ์กฐํ™”๋œ ์•„์›ƒ๋ผ์ธ ๋ฐ ๋ฉ”์ธ ํ…์ŠคํŠธ ์ˆ˜์ง‘

  1. CycleReviewer์˜ ํƒ์›”ํ•œ ์„ฑ๋Šฅ: ํ‰๊ท  ์ ˆ๋Œ€์˜ค์ฐจ(MAE) ๊ธฐ์ค€์œผ๋กœ ๊ฐœ๋ณ„ ์ธ๊ฐ„ ๋ฆฌ๋ทฐ์–ด ๋Œ€๋น„ 26.89% ๊ฐœ์„ . ๋…ผ๋ฌธ ์ ์ˆ˜ ์˜ˆ์ธก์—์„œ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์„ ์ดˆ๊ณผํ•จ.
  2. CycleResearcher์˜ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ๋…ผ๋ฌธ ์ƒ์„ฑ: ์ƒ์„ฑ ๋…ผ๋ฌธ์ด ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋™๋ฃŒ ๊ฒ€ํ† ์—์„œ 5.36์  ๋‹ฌ์„ฑ (์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ํ”„๋ฆฌํ”„๋ฆฐํŠธ ์ˆ˜์ค€ 5.24์  ์ดˆ๊ณผ, ์ˆ˜์šฉ ๋…ผ๋ฌธ ์ˆ˜์ค€ 5.69์ ์— ๊ทผ์ ‘). 31.07% ์ˆ˜์šฉ๋ฅ  ๋‹ฌ์„ฑ.
  3. ๋Œ€๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹ ๊ณต๊ฐœ:
    • Review-5k: ICLR 2024์˜ 4,970๊ฐœ ๋…ผ๋ฌธ๊ณผ 16,000์—ฌ ๊ฐœ์˜ ๋ฆฌ๋ทฐ ์ฝ”๋ฉ˜ํŠธ ํฌํ•จ
    • Research-14k: 2022-2024๋…„ ICLR, NeurIPS, ICML, ACL ๋“ฑ ์ฃผ์š” ํ•™ํšŒ์˜ 12,696๊ฐœ ํ›ˆ๋ จ ์ƒ˜ํ”Œ
  4. ์™„์ „ํ•œ ์ž๋™ํ™” ์‚ฌ์ดํด ๊ตฌํ˜„: ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ(Mistral, Qwen 2.5, 12B-123B ๊ทœ๋ชจ)๋งŒ์œผ๋กœ ์—ฐ๊ตฌ-๊ฒ€ํ† -์ˆ˜์ •์˜ ์ „์ฒด ๋ฃจํ”„๋ฅผ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ์ตœ์ ํ™”.

How

Figure 2

CycleResearcher์™€ CycleReviewer์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ํ†ตํ•œ ๋ฐ˜๋ณต์  ๊ฐœ์„  ๋ฉ”์ปค๋‹ˆ์ฆ˜

๋ฐฉ๋ฒ•๋ก  ์ฃผ์š” ํŠน์ง•

Originality

Limitation & Further Study

Evaluation

์ดํ‰: ๋ณธ ๋…ผ๋ฌธ์€ ์˜คํ”ˆ์†Œ์Šค LLM์œผ๋กœ ์ „์ฒด ์—ฐ๊ตฌ ์ˆ˜ํ–‰-๋™๋ฃŒ ๊ฒ€ํ† -์ˆ˜์ • ์‚ฌ์ดํด์„ ์ž๋™ํ™”ํ•˜๋Š” ์•ผ์‹ฌ์ฐฌ ์‹œ๋„๋กœ, CycleReviewer๊ฐ€ ์ธ๊ฐ„ ๋ฆฌ๋ทฐ์–ด๋ฅผ ์ดˆ๊ณผํ•˜๋Š” ์„ฑ๊ณผ์™€ ๋Œ€๊ทœ๋ชจ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์…‹์˜ ๊ณต๊ฐœ๋Š” ํฐ ๊ธฐ์—ฌ์ด๋‹ค. ๋‹ค๋งŒ ์‹คํ—˜ ๊ฒ€์ฆ์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์„ฑ๊ฒฉ, ๋„๋ฉ”์ธ ์ผ๋ฐ˜ํ™”์˜ ๋ฏธํก, ๊ทธ๋ฆฌ๊ณ  ํ•™์ˆ  ์œค๋ฆฌ ๋ฌธ์ œ์˜ ๋ถˆ์™„์ „ํ•œ ์ฒ˜๋ฆฌ๊ฐ€ ์ง€์ ๋˜๋ฉฐ, ์ด๋“ค์ด ํ•ด๊ฒฐ๋  ๊ฒฝ์šฐ ๊ณผํ•™ ์ž๋™ํ™” ๋ถ„์•ผ์—์„œ ์ค‘์š”ํ•œ ์ด์ •ํ‘œ๊ฐ€ ๋  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
803 ๋…ผ๋ฌธ์€ ORB ์ž๋™ํ™” ๋ฆฌ๋ทฐ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•˜๋ฉฐ, 250์—์„œ LLM ๊ธฐ๋ฐ˜ ๋ฆฌ๋ทฐ ์ž๋™ํ™”์˜ ์‹ค์ฆ ๋ฐ ๋ฒค์น˜๋งˆํฌ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
CycleResearcher ๋…ผ๋ฌธ์€ ์—์ด์ „ํŠธ ๊ฐ„ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ ์ฃผ๊ณ ๋ฐ›๊ธฐ ํ”„๋กœํ† ์ฝœ์„ ํ†ตํ•ด ๋ˆ„์  ์—ฐ๊ตฌ ๋ฐฉ์‹์˜ ์ด๋ก ์  ํ‹€์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
OpenReviewer ๋…ผ๋ฌธ์€ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ ์ž๋™ํ™”์— ํŠนํ™”๋œ LLM ์„ค๊ณ„ ๋ฐ ํ‰๊ฐ€๋ฅผ ๋‹ค๋ฃจ์–ด, CycleResearcher๊ฐ€ ์ œ์‹œํ•œ ํ†ตํ•ฉ ์‚ฌ์ดํด ํ”„๋ ˆ์ž„์›Œํฌ์™€ ์ฐจ๋ณ„๋˜๋Š” ๊ตฌ์กฐ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•™์ˆ  ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ์˜ AI ์—์ด์ „ํŠธ ์‚ฌํšŒ์  ์—ญํ• ์ด๋‚˜ ํŽธํ–ฅ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
676 ๋…ผ๋ฌธ์€ AI์™€ ์ธ๊ฐ„ ๋ฆฌ๋ทฐ์–ด ์‚ฌ์ด์˜ ์ฐจ์ด๋ฅผ ์ง‘์ค‘ ๋ถ„์„ํ•ด, 250์˜ ์ž๋™ํ™”๋œ ๋…ผ๋ฌธ ์ž‘์„ฑ-๋ฆฌ๋ทฐ ์‚ฌ์ดํด์˜ ์ธ๊ฐ„ ๋Œ€์ฒด ๊ฐ€๋Šฅ์„ฑ๊ณผ ํ•œ๊ณ„๋ฅผ ๋Œ€์กฐํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์—ฐ๊ตฌ ์ œ์•ˆ์„œ ๋˜๋Š” ๋ฌธ์„œ ์‹ฌ์‚ฌ์—์„œ AI ํ™œ์šฉ์˜ ํšจ๊ณผ์„ฑ๊ณผ ํ•œ๊ณ„๋ฅผ ๋ถ„์„ํ•˜๋Š” ๊ด€๋ จ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋‘ ์—ฐ๊ตฌ ๋ชจ๋‘ LLM์„ ํ•™์ˆ  ํ‰๊ฐ€ ๋˜๋Š” ์—ฐ๊ตฌ ํ’ˆ์งˆ ํŒ๋‹จ์— ํ™œ์šฉํ•˜๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ํƒ๊ตฌํ•œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
CycleResearcher๋Š” ๋…ผ๋ฌธ ์ž‘์„ฑ-๋ฆฌ๋ทฐ-๊ฐœ์„ ์˜ ์ˆœํ™˜์  ์ž๋™ํ™”์™€ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์˜ ๋ฆฌ๋ทฐ ์„ฑ๋Šฅ ๋น„๊ต๋ฅผ ์‹ค์ฆํ•˜์—ฌ, AI Scientist์˜ ์ž๋™ํ™”๋œ ์—ฐ๊ตฌ ์‚ฌ์ดํด์„ ๋ณด์™„์ ์œผ๋กœ ์‚ดํ•„ ์ˆ˜ ์žˆ๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •