Essence
Figure 2: 3๊ฐ์ง ์ฐจ์์ ๊ฑธ์น ๋์ ์ ์ด๋ฅผ ํฌํจํ ํ์ต ํ๋ ์์ํฌ. ์์ฑ๋ ์ฐ๊ตฌ ์์ด๋์ด๋ ๊ฐ ์ฐจ์์ ๋ํ ์ ์๋ฅผ ์ ๊ณตํ๋ ๋ณด์ ๋ชจ๋ธ๋ก ํ๊ฐ๋๋ฉฐ, ์ด๋ ๊ฐํํ์ต ๋ฏธ์ธ์กฐ์ ๊ณผ์ ์ค์ ์์ด๋์ด ์ ์์์ ์ฐจ์๋ณ ์ ์ด ํ๋ผ๋ฏธํฐ๋ฅผ ์ต์ ํํ๋๋ก ์๋ด
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ํ์ฉํ์ฌ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ์ ์๋ํํ๋, ์ฐธ์ ์ฑ(novelty), ์คํ์ฑ(feasibility), ํจ๊ณผ์ฑ(effectiveness)์ ์ธ ๊ฐ์ง ํต์ฌ ์ฐจ์ ๊ฐ์ ๊ท ํ์ ๋์ ์ผ๋ก ์กฐ์ ํ๋ ๋ ๋จ๊ณ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ๊ฐ๋
ํ์ต(SFT)๊ณผ ์ ์ด ๊ฐ๋ฅํ ๊ฐํํ์ต(RL)์ ๊ฒฐํฉํ์ฌ ์ฐจ์๋ณ ๋ณด์ ๋ชจ๋ธ์ ํตํด ๋ฏธ์ธํ ํผ๋๋ฐฑ์ผ๋ก ์ต์ ํํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ์ด๋ผ๋ ์ค์ํ ๋ฌธ์ ์ ๋ํด ์ฐจ์๋ณ ๋ณด์ ๋ชจ๋ธ๊ณผ ๋์ ์ ์ด๋ผ๋ ์ค์ฉ์ ์ธ ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ฉฐ, ์๋ํ๋ ์ค์ ๋ฐ์ดํฐ ํ์ฉ์ด ๊ฐ์ ์ด๋ค. ๊ทธ๋ฌ๋ ์๋ ํผ๋๋ฐฑ์ ์ ๋ขฐ์ฑ, ๋์ ๋ฉ์ปค๋์ฆ์ ์ด๋ก ์ ๊ทผ๊ฑฐ, ๊ทธ๋ฆฌ๊ณ ์ค์ ํ์ ์ ์ํฅ๋ ฅ์ ๋ํ ๊ฒ์ฆ์ด ๋ณด๊ฐ๋๋ฉด ๋์ฑ ๊ฒฌ๊ณ ํ ์ฐ๊ตฌ๊ฐ ๋ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์ด๋์ด/ํ
์คํธ ์์ฑ์ ๋ค์์ฑ ๋ฐ ์ ์ด ๋ฅ๋ ฅ ๋
ผ์๊ฐ demonstration ๋ค์์ฑ ์ฆ์ง ๋ฐฉ์์ ์ง์ ์ ํ ๋๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
155๋ ๊ณ ํ์ง ์ฐ๊ตฌ ์์ด๋์ด์ ๊ฒฐ์ ์์ธ์ ๋ถ์ํ์ฌ, 484๊ฐ LLM ๊ธฐ๋ฐ ์์ด๋์ด ์์ฑ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐ ๊ธฐ์ด ์ด๋ก ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Learning to generate research idea with dynamic control ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์ด๋์ด ์๋ ์์ฑ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ๋ฉฐ, AI Idea Bench์ ์ ๋ํ๊ฐ ์ฒด๊ณ์ ์๋์ง๋ฅผ ๊ฐ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Learning to generate research idea ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๊ณผํ ์์ด๋์ด ์์ฑ์ ์์ฒด ๋ฉ์ปค๋์ฆ์ ๋ถ์ํ์ฌ 409 ๋
ผ๋ฌธ์ ์ฐฝ์์ฑ ํ๊ฐ ๊ทผ๊ฑฐ๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
484๋ LLM ๊ธฐ๋ฐ ํ์ ํ
์คํธ ์์ฑ ์ ๋์ ์ ์ด์ ํผ๋๋ฐฑ ํ์ต ๋ฐฉ์์ ๋ค๋ฃจ์ด, XtraGPT ํ๋ ์์ํฌ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐ๊ตฌ ์์ด๋์ด ์์ฑ์ ์๋ํ์์, ๋ถํ์ค์ฑ ์ ์ด์ ์ ํฉ์ฑ ํ๊ฐ์ ๋ ๊ฐ์ง ์์น์ ์ ๊ทผ์ ๋น๊ตํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
518์ ๋ค์ค์์ฑ ํ์
์ ํตํด ์์ด๋์ด์ ์ง๊ณผ ์ฐฝ์์ฑ์ ๋์ด๋ ์ ๊ทผ๋ฒ์ผ๋ก, ๋จ์ผ LLM ๊ธฐ๋ฐ ์ ์ด ํ์๊ณผ ๋์กฐ์ ๋น๊ต๊ฐ ๋ฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐ๊ตฌ ์์ด๋์ด ์์ฑ์์ ๋์ ์ ์ด์ ํ ํฝ ์ ํ์ ๊ธฐ๋ฐํ LLM ์ฐฝ์์ฑ ์ด์ง ๋ฐฉ๋ฒ์ ์ ์, ๋ฐ๋ณต์ ๊ณํ/๊ฒ์ ๋ฐฉ์๊ณผ ์ฐจ๋ณํ๋จ.
๋ค๋ฅธ ์ ๊ทผ
484 ๋
ผ๋ฌธ์ ๋์ ์ ์ด ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ๊ณผ์ ์ LLM์ผ๋ก ํ๊ตฌํ์ฌ, 728์ ์๋ํ๋ ์์ด๋์ด ์ฐฝ์ถ๊ณผ ๋น๊ต์ ์ฝ์ ๊ฐ์น๊ฐ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Learning to generate research idea... ๋
ผ๋ฌธ์ ์ปจํธ๋กค ๊ฐ๋ฅํ ์์ด๋์ด ์์ฑ ๋ฌธ์ ๋ฅผ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ๋ค๋ฃฌ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Learning to generate research idea ๋
ผ๋ฌธ์ ๋์ ์ ์ด ๋ฉ์ปค๋์ฆ์ ํ์ฉํ์ฌ LLM ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ์ ๋ค๋ฅธ ๋ฐฉ์์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
665๋ LLM ๊ธฐ๋ฐ ์๋ ๋
ผ๋ฌธ ์ฌ์ฌ ์์คํ
์ RL reasoning์ ํ์ฉํ๊ณ , 484๋ ์์ด๋์ด ์์ฑ์ ๋์ ํต์ ์ RL์ ์ ์ฉํ๋ฏ๋ก ์๋ํ๋ ํ์ ์์ฐ์์ ์๋ก ๋ค๋ฅธ ์์ฉ ์ง์ ์ ๊ฐ์ง๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ, ํ์ง ํ๊ฐ, ํ์ ์ฑ ํ์ง๊น์ง ๋ค๋ฃจ์ด ๋
ผ๋ฌธ์ ์ ์๋ ์๋ก์ด ์กฐํฉ ์์ธก์ ์๋ํ๋ ๋นํ์ ์ฌ๊ณ ๋ฅผ ๊ทผ๊ฑฐ๋ก ๋ณด์ํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
714๋ LLM ๊ธฐ๋ฐ์ ์ธ๊ฐ-LLM ํ์
์์ด๋์ด ์์ฑ ๋ชจ๋ธ์ ์คํ์ ์ผ๋ก ํ์ฅํ์ฌ, 484๊ฐ ์ ์ํ ๋ค์ฐจ์ ํผ๋๋ฐฑ๊ณผ ํต์ ํ๋ ์์ํฌ์ ์ค์ง์ ์ฌํ์ ํ์ฅ์ ๋ถ์ฌํ๋ค.
ํ์ ์ฐ๊ตฌ
AI์ ์ธ๊ฐ์ ๊ณต๋ ์์ด๋์ด ์์ฑ ๋ฐ ํ์ ์ ๊ธ์ฐ๊ธฐ์์ LLM ๊ธฐ๋ฐ ๋์ ์ปจํธ๋กค ๊ฒฝํ์ ์คํ์ ์ผ๋ก ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
LLM ์ฐฝ์์ ์์ด๋์ด ์์ฑ ์์คํ
์ ํ๊ฐ ์๋ํ ๋ฐ ๋ค์ํ ํ๊ฐ ์งํ ํ์ฉ ๋ถ๋ถ์์ ๋ ๋
ผ๋ฌธ์ด ์ฐ๊ฒฐ๋๋ค.
ํ์ ์ฐ๊ตฌ
425๋ฒ ๋
ผ๋ฌธ์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์์ด๋์ด ์์ฑ ํ์ง ๊ฐ์ ์ ์คํ์ ์ผ๋ก ๊ฒ์ฆํ์ฌ, 484๋ฒ์ ํผ๋๋ฐฑ ์ต์ ํ ์ฐ๊ตฌ์ ์๋ณด์ ์คํ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํ๋ค.
ํ์ ์ฐ๊ตฌ
Learning to generate research idea ๋
ผ๋ฌธ์ LLM๊ณผ ์ธ๊ฐ ํผ๋๋ฐฑ์ ๋์ ์ ์ด, ์ธ๋ถํ๋ ํ๊ฐ๊ตฌ์กฐ๋ฅผ ์์ด๋์ด ์์ฑ ์์
์ ๋์ฑ ํนํํ์ฌ, IRIS ์์คํ
์ ๋ฐ์ ๊ฒฝ๋ก๋ฅผ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ ํ์ฉํ ๊ณผํ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ๊ณผ ๋์ ์ปจํธ๋กค ๊ธฐ๋ฒ์ ๋ค๋ค, ๋ชจ๋์๊ณ ํ๋ ์์ํฌ ๊ธฐ๋ฐ ์ค์ ์ ์์ฉ ์ฌ๋ก๋ฅผ ์ ์ํฉ๋๋ค.
์์ฉ ์ฌ๋ก
484๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ์์ ์ค์ ๋ก ์์ด๋์ด์ ๋ค์์ฑ๊ณผ ์ ๊ท์ฑ์ด ์ด๋ป๊ฒ ์ธก์ ๋ ์ ์๋์ง ์คํ์ ์ผ๋ก ๋ถ์ํฉ๋๋ค.
์์ฉ ์ฌ๋ก
XtraGPT(889)๋ LLM ํ์ ๋
ผ๋ฌธ ์์ ์ ์ํ ๋์ ์ ์ดยท์ ๊ต ํผ๋๋ฐฑ ๋ฉ์ปค๋์ฆ์ ์ค์ ๊ตฌํํ ์ฌ๋ก์
๋๋ค.