์ ์: Jiakang Yuan, Xiangchao Yan, Botian Shi, Tao Chen, Wanli Ouyang, Bo Zhang, Lei Bai, Yu Qiao, Bowen Zhou | ์์: Fudan University, Shanghai Artificial Intelligence Laboratory | ๋ ์ง: 2025 | DOI: N/A 📄 PDF
Essence
๊ณผํ ์ฐ๊ตฌ์ ์งํ ๋จ๊ณ: (a) ์ธ๊ฐ ์ฃผ๋ ์ฐ๊ตฌ, (b) AI ๋ณด์กฐ ์ฐ๊ตฌ, (c) ๋ฐ์๋ ์ฐ๊ตฌ, (d) ์์ ์๋ ์ฐ๊ตฌ
DOLPHIN์ ํ์ ๋ฃจํ(closed-loop) ๊ตฌ์กฐ๋ฅผ ๊ฐ์ถ LLM ๊ธฐ๋ฐ์ ์๋ ๊ณผํ ์ฐ๊ตฌ ํ๋ ์์ํฌ๋ก, ์์ด๋์ด ์์ฑ, ์คํ ๊ฒ์ฆ, ๊ฒฐ๊ณผ ํผ๋๋ฐฑ์ ์ธ ๋จ๊ณ๋ฅผ ๋ฐ๋ณตํ๋ฉฐ ์ฐ๊ตฌ ์๋ํ ์์ค์ ํ๊ธฐ์ ์ผ๋ก ๋์ธ๋ค.
How
์์ธ ์ถ์ ๊ธฐ๋ฐ ๋๋ฒ๊น
ํ๋ก์ธ์ค: ์๋ฌ ์ ๋ณด๋ก๋ถํฐ ์ง์ญ ์ฝ๋ ๊ตฌ์กฐ ๋ถ์
์์ด๋์ด ์์ฑ ํ๋ก์ธ์ค (Ideas Generation):
- Semantic Scholar API๋ฅผ ํตํด ์
๋ ฅ ์ฃผ์ ๊ด๋ จ ๋
ผ๋ฌธ ๊ฒ์
- ์์
์์ฑ ์ถ์ถ: LLM์ด ์
๋ ฅ ์ฃผ์ ์ ๋ชจ๋ธ ์
๋ ฅ(input), ์ถ๋ ฅ(output) ๋ฑ ํน์ฑ ์ถ์ถ
- ๋ ๊ธฐ์ค ์ ์ํ: โ ์
๋ ฅ ์ฃผ์ ์์ ๊ด๋ จ์ฑ, โก ์์
์์ฑ ์ ๋ ฌ๋
- ์ ์ 8 ์ด์์ ๋
ผ๋ฌธ๋ง ์ ๋ณํ์ฌ ์์ด๋์ด ์์ฑ ์ฐธ๊ณ ๋ฌธํ์ผ๋ก ํ์ฉ
- ์์ฑ๋ ์์ด๋์ด ํํฐ๋ง: ์ฐธ์ ์ฑ(novelty), ๋
๋ฆฝ์ฑ(independence) ๋ฑ์ผ๋ก ํ๊ฐ
์คํ ๊ฒ์ฆ ํ๋ก์ธ์ค (Experimental Verification):
- ํํฐ๋ง๋ ์์ด๋์ด ๊ฐ๊ฐ์ ๋ํด ์คํ ๊ณํ ์๋ฆฝ
- ์ฝ๋ ํ
ํ๋ฆฟ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํ ์๋ ์์ฑ
- ์์ธ ์ถ์ ๊ธฐ๋ฐ ๋๋ฒ๊น
:
- Python ํ์ผ ์คํ ํ ์๋ฌ ๋ฐ์ ์ traceback ์์ง
- ์ง์ญ ์ฝ๋ ๊ตฌ์กฐ(local code structure) ๋ถ์์ผ๋ก ๊ด๋ จ ๋ถ๋ถ ํ์
- ๋ฒ๊ทธ ์์ ๊ณํ ์๋ฆฝ ๋ฐ ์ฝ๋ ์์
- ๋ฐ๋ณต ์คํ์ผ๋ก ์ฑ๊ณต ์ฌ๋ถ ํ๋จ
๊ฒฐ๊ณผ ํผ๋๋ฐฑ ํ๋ก์ธ์ค (Results Feedback):
- ์ฑ๊ณต์ ์ผ๋ก ์คํ๋ ์คํ์ ๊ฒฐ๊ณผ ์๋ ๋ถ์
- ๊ฐ์ (Improve), ์ ์ง(Keep), ๊ฑฐ์ (Decline) ๋ถ๋ฅ
- ๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅํ์ฌ ๋ค์ ๋ฃจํ์ ์์ด๋์ด ์์ฑ์ ํ์ฉ
- ์ ์ฌ์ฑ ๊ธฐ๋ฐ ๊ฒ์์ผ๋ก ๊ณผ๊ฑฐ ๊ฒฝํ ํ์ฉ ๋ฐ ์๋ก์ด ํ๋กฌํํธ ์์ฑ
Evaluation
์ดํ: DOLPHIN์ ํ์ ๋ฃจํ ๊ตฌ์กฐ์ ์์
์์ฑ ๊ธฐ๋ฐ ํํฐ๋ง์ผ๋ก ์๋ ๊ณผํ ์ฐ๊ตฌ์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ฉฐ ๊ณต๊ฐ ๋ฒค์น๋งํฌ์์ ๊ฒฝ์๋ ฅ ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ผ๋, ํ๊ฐ ๋ฒ์์ ์ ํ์ฑ๊ณผ ๋๋ฒ๊น
๋ฐ ํผ๋๋ฐฑ ๋ฉ์ปค๋์ฆ์ ์ ๊ตํ ์ฌ์ง๊ฐ ์์ด 4์ ์ผ๋ก ํ๊ฐ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
658 ๋
ผ๋ฌธ์ ์คํ-์ด๋ก ๊ฐ ์ค์๊ฐ ํ์ ๋ฃจํ ์ํธ์์ฉ์ด ์ฐ๊ตฌ ์๋ํ์ ํต์ฌ์์ ๊ฐ์กฐํด, Dolphin์ ๋ฐฉ๋ฒ๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์คํ์ ํผ๋๋ฐฑ๊ณผ ์๋ํ๋ ๊ณผํ ๋ฐ๊ฒฌ์ ํ๋ฃจํ ๊ตฌ์กฐ ๊ด๋ จ ์ด๊ธฐ ํ๋ ์์ํฌ์ ์์ด๋์ด ์คํ ์ฌ๋ก๋ฅผ ์ดํดํ๋๋ฐ ๋์์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Dolphin ๋
ผ๋ฌธ์ ์๋ํ๋ AI ๊ธฐ๋ฐ ๋
ผ๋ฌธ ํ๊ฐ ๋ฐ ๋ฆฌ๋ทฐ ํ๋ก์ธ์ค์ ๊ธฐ์ด ๊ฐ๋
๊ณผ ์๊ณ ๋ฆฌ์ฆ ๋์์ธ์ ์ ๊ณตํ์ฌ 676 ์คํ ๋ฐฉ์์ ํ์์ ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
353๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๋๊ท๋ชจ ๊ณผํ ์๋ํ์ ์ด๋ก ์ ๊ธฐ๋ฐ๊ณผ ํ๋ ์์ํฌ๋ฅผ ์ ๋ฆฌํ๋ฏ๋ก, DOLPHIN์ ์ค๊ณ ์๋ฆฌ ์ดํด์ ๋์์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Dolphin ๋
ผ๋ฌธ์ '์๊ฐ-์คํ' ๋ฃจํ๋ก ์ฐ๊ตฌ ๊ณผ์ ์ ์๋ ์ค๊ณ/์คํ์ ๊ตฌํ, InternAgent์ ํ๋ฃจํ ๋ค์ค์์ด์ ํธ ๊ตฌ์กฐ์ ์ด๋ก ์ ์ถ๋ฐ์ ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Autonomous Agents for Scientific Discovery ๋
ผ๋ฌธ์ ์์ด์ ํธ ๊ธฐ๋ฐ ๊ณผํ ํ๊ตฌ ์๋ํ์ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ ๊ณตํ์ฌ 285์ ์๋ ์ฐ๊ตฌ ํ๋ ์์ํฌ ์ค๊ณ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ์ ์ํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ํ์ ์ปจํฌ๋ฉ์ด์
์ํ๋ง ๋ฐ ์ ๋๋ ์ดํฐ๋ธ ๋ชจ๋ธ์ ์ฅ๊ธฐ ๋์ญํ ์์ธก ๋ฅ๋ ฅ ๊ด๋ จ ์ต์ ๋ฐฉ๋ฒ๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
285๋ LLM ๊ธฐ๋ฐ ์๋ ์ฐ๊ตฌ ์์คํ
์์์ ์คํ์๋๋ ํ์ ๋ฐ ์ต์ ํ ๊ณผ์ ์ LEO์ ๊ฐ์ด ์ธ๊ตฌ๊ธฐ๋ฐ ๋ฐฉ์์ผ๋ก ์คํํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ค์ค๋ก ์๋ก์ด ์ฐ๊ตฌ ์์ด๋์ด๋ฅผ ์์ฑํ๊ณ ์คํ์ ์ํํ๋ ์คํ ๋ฆฌ์์น ์์คํ
์ ๋ฒค์น๋งํฌ๋ก ์ ์ํ์ฌ, Kolb ํ์ต ์ด๋ก ๊ตฌํ๊ณผ๋ ๋ค๋ฅธ ์๋ํ ํจ๋ฌ๋ค์์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ ์ฐ๊ตฌ ํ๋กํ ํ์ดํ ๋ฐ ์ค์ฉ์ ํ๋ฃจํ ๊ฐ์ค ํ๊ฐ ์ฌ๋ก๋ก, ์ฐ๊ตฌ๋ฒค์น๋งํฌ๊ฐ ๋ค๋ฃจ์ง ์์ ์คํ ์ธก๋ฉด์ ๋น๊ต ํ๊ฐํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
285๋ฒ์ LLM์ ์๋ ์คํ์๋๋ ์ฐ๊ตฌ์ ์๊ธฐ ๊ฐ์ ์ ์ํ ํด๋ก์ฆ๋ ๋ฃจํ ํ๋ ์์ํฌ๋ก, ์๊ธฐ ์ธ์ผํฐ๋ธํ์ ๋ฐ๋ณต ์๊ฐํ์ต ๊ตฌ์กฐ๊ฐ ์ ์ฌํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
DOLPHIN์ ์๋ ์ฐ๊ตฌ ํ๋ ์์ํฌ ๋ฐ ์ฑ๋ฅ ํ๊ฐ ๋ฃจํ๋ฅผ ๋ค๋ฃจ๋ฉฐ, 261๋ฒ ๋ฒค์น๋งํฌ์ ํจ๊ป AI ์ฐ๊ตฌ ์์ด์ ํธ ํ๊ฐ ๋ฐฉ์์ ์ฐจ์ด๋ฅผ ํ์ธํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
DOLPHIN ๋
ผ๋ฌธ์ AI ๊ณผํ์ ์์ด์ ํธ์ ์์ด๋์ด ์์ฑ-๊ฒ์ฆ-๋ณด๊ณ ๋ฃจํ๋ฅผ ์๋ํํ๋ ๊ตฌ์กฐ๋ฅผ ์ ์ํ์ฌ, 321 ๋
ผ๋ฌธ์ด ํ๊ฐํ Sakana์ AI Scientist์ ๋น๊ต ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์๋ํ๋ ๊ณผํํ๊ตฌ์์ RL ๊ธฐ๋ฐ ๋ฐ๋ณต์ ์ฌ๊ณ (think-loop) ํ๋ ์์ํฌ์ ๋ ๋ค๋ฅธ ์ค๊ณ ๋ฐฉ์์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Auto-research ํ๋ ์์ํฌ์์ ToolBench๊ฐ ๋ค๋ฃจ๋ ๋๊ตฌ ํ์ฉ ๋ฌธ์ ์ ์ ์ฌํ LLM ์คํ ์๋ํ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Dolphin ๋
ผ๋ฌธ์ ๊ฐ๋ฐฉํ ๊ณผํ ์๋ ํ๊ตฌ ์์ด์ ํธ๋ฅผ ์ ์ํด, in-context learning์ ํ์ฉํ ์๋ ์ ๊ฒฝ ํจํด ๋ฐ๊ตด ์ ๊ทผ๊ณผ ์ ์ฌ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค.
๋ค๋ฅธ ์ ๊ทผ
828๋ฒ ๋
ผ๋ฌธ์ ์ ์๋ AI ์ฐ๊ตฌ ํ๋ ์์ํฌ์ ๋ํ ๋ค๋ฅธ ์ ๊ทผ์ผ๋ก, DOLPHIN๊ณผ ์ ์ฌํ ์คํ์๋๋ ๊ณผํ ์๋ํ ์์คํ
์ ์๊ฐํ์ฌ ๋น๊ตํ ๋งํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
2994๋ฒ ๋
ผ๋ฌธ์ ๋ค์ค ์์ด์ ํธ ๊ธฐ๋ฐ์ผ๋ก ๊ณผํ์ ๋ฐ๊ฒฌ ์๋ํ๋ฅผ ์๋ํ์ฌ, DOLPHIN์ ํ์ ๋ฃจํ ๋ฐฉ์๊ณผ ๋น๊ตํด๋ณผ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
674์ RL ๊ธฐ๋ฐ ์ ๋ต ๋๊ตฌ ์ฌ์ฉ ํ๋ ์์ํฌ๋ 285์์ ์ ์ํ๋ LLM์ ๋ฐ๋ณต์ ์คํ์๋๋ ์๋ ์ฐ๊ตฌ ๋ฃจํ์ ์ ๋ชฉํด ์๋์ง๋ฅผ ๋ผ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
์๊ฐยทํ ๋ก ยท์คํ ๋ฃจํ๋ฅผ ํตํ ์คํ์๋๋ AI ๊ณผํ์(Virtual Scientist)์ ์์ด๋์ด ์๋ ์งํ ๋ฐ ๊ฒ์ฆ ์ฌ๋ก๋ฅผ ๋ฐ์ ์ํด.
ํ์ ์ฐ๊ตฌ
Dolphin ๋
ผ๋ฌธ์ ์คํ์๋๋ ์คํ ๋ฆฌ์์น๋ฅผ ๋ค๋ฃจ๋ฉฐ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ์ค์ ์ฐ๊ตฌ ํ๋ก์ธ์ค ์ ์ฉ์ ๋ค๋ฃน๋๋ค.
ํ์ ์ฐ๊ตฌ
285๋ฒ ๋
ผ๋ฌธ์ AI๊ฐ ์ค์ค๋ก ์ ์คํ์ ์ค๊ณยท์คํํ๋ '์คํ์๋๋ ์คํ ๋ฆฌ์์น'๋ฅผ ๋ชฉํ๋ก, ํธ๋ฆฌ ๊ตฌ์กฐ ์๋ ํ์์ ์ค์ ๋ก ์ด๋ป๊ฒ ๊ตฌํํ ์ ์๋์ง ํ์ฅ ์ค๋ช
ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
aiXiv ๋
ผ๋ฌธ์ ์ธ๊ฐ ๋ฐ AI ์ฐ๊ตฌ์ ๊ฐ ํ๋ ฅ๊ณผ ์คํ ํ๋ซํผ์ผ๋ก DOLPHIN ํ๋ ์์ํฌ์ ์ฐ๊ตฌ์ฑ๊ณผ ๊ณต์ ๋ฐ ์์ฉ ํ์ฅ ๋ฐฉํฅ์ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
285 ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์๋์ฐ๊ตฌ ์์คํ
์ ๋ฒค์น๋งํฌ์ ํ
์คํธ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฃจ๋ฉฐ, AIRS-Bench์์ ํ๊ฐํ๋ ์ฐ๊ตฌ ์์ด์ ํธ์ ์ฑ๋ฅ์ ๋์ฑ ์ฌ์ธต์ ์ผ๋ก ๋ถ์ํ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
AutoSOTA๋ ์์ ์๋ํ๋ ๊ณผํ ์ฐ๊ตฌ์์คํ
๊ตฌํ์ ๋ชฉํ๋ก ํ์ฌ Dolphin์ ์๋ํ ๋ฐ ์ฌ๊ท์ ํ์๋ฃจํ ์ ๊ทผ์ ํ์ฅ ์ ์ฉํ ๋
ผ๋ฌธ์
๋๋ค.
๋ฐ๋ก /๋นํ
์๋ํ๋ ์ฐ๊ตฌ ์์คํ
์ ํ๊ณ์ ํ์
๊ตฌ์กฐ์์ ๋จ์ , ์ํ ์์๋ฅผ ํ๊ฐํด ๋ณธ ๋
ผ๋ฌธ์ '์ธ๊ฐ-ํ์
' ์งํฅ์ ๋นํ์ ์ผ๋ก ํด์ํ๋ค.
๋ฐ๋ก /๋นํ
์๋์ฐ๊ตฌ ํ๋ ์์ํฌ๊ฐ ๊ฐ๋ ํ๊ณ์ ๋์ ๊ณผ์ ๋ฅผ ๋ถ์ํ์ฌ, FermiLink์ ์ค์ ์ ์ฉ ๊ฐ๋ฅ์ฑ๊ณผ ์ํ ์์๋ฅผ ๋นํ์ ์ผ๋ก ์ ๊ทผํ๋ค.