Essence
Figure 1: (A) ๊ณผํ ์ง์ ์์ ๊ตฌ์ฑ - ๋
ผ๋ฌธ, ํ์ ๊ทธ๋ํ, ์ํฐํฐ ์ค์ฌ ์ง์ ์ ์ฅ์ (B) ๋ฌธ์ ์๋ณโ๋ฐฉ๋ฒ ๊ฐ๋ฐโ์คํ ์ค๊ณ์ ์ฒด๊ณ์ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ ๊ณผ์ ๊ณผ ์ธ๊ฐ ํ๋จ ๊ธฐ๋ฐ ๊ฒํ ์์ด์ ํธ์ ๋ฐ๋ณต์ ๊ฐ์
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋ฐฑ๊ณผ์ฌ์ ์ ์ง์๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ๊ณผํ ๋ฌธํ์ผ๋ก๋ถํฐ ์๋์ผ๋ก ์๋ก์ด ์ฐ๊ตฌ ์์ด๋์ด๋ฅผ ์์ฑํ๊ณ ์ธ๊ฐ ์ ํธ๋ ๊ธฐ๋ฐ์ ํผ์ด ๋ฆฌ๋ทฐ ์์ด์ ํธ๋ฅผ ํตํด ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ ํ๋ ์์คํ
์ ์ ์ํ๋ค.
How
Figure 4: ๋ฐ๋ณต ๊ฐ์ ๋จ๊ณ ์์ ๋ฐ๋ฅธ ์ฑ๊ณผ ๋ณํ - ์ด๊ธฐ ๋จ๊ณ์์ ๊ฐ์ฅ ํฐ ๊ฐ์ ์ด ์ด๋ฃจ์ด์ง๋ฉฐ 3-4 ๋จ๊ณ ์ดํ ์๋ ด
ResearchAgent ์์คํ
๊ตฌ์ฑ:
- ์ง์ ์์ค ํตํฉ:
- ํต์ฌ ๋
ผ๋ฌธ์ผ๋ก๋ถํฐ ์์ํ์ฌ ํ์ ๊ทธ๋ํ(references, citations) ๊ธฐ๋ฐ์ผ๋ก ๊ด๋ จ ๋
ผ๋ฌธ ํ์
- ์๋ง์ ๋
ผ๋ฌธ์์ ์ฑ๊ตดํ ๊ฐ๋
์ ๊ณต์ถํ(co-occurrence)์ ํตํด ์ํฐํฐ ์ค์ฌ ์ง์ ์ ์ฅ์ ๊ตฌ์ถ
- ์ํฐํฐ ์ถ์ถ ๋ฐ ๊ฒ์ ๋จ๊ณ๋ก ๋๋ฉ์ธ ๋ด ๋ฐ ๋๋ฉ์ธ ๊ฐ ๊ฐ๋
๊ด๊ณ ํฌ์ฐฉ
- ์ฒด๊ณ์ ์์ด๋์ด ์์ฑ:
- ๋ฌธ์ ์๋ณ(Problem Identification): ์ฐ๊ตฌ ๊ณต๋ฐฑ ๋ฐ ๋ฏธํด๊ฒฐ ์ง๋ฌธ ๋ถ์
- ๋ฐฉ๋ฒ ๊ฐ๋ฐ(Method Development): ์ ์๋ ๋ฌธ์ ํด๊ฒฐ์ ์ํ ๋ฐฉ๋ฒ๋ก ์ ์
- ์คํ ์ค๊ณ(Experiment Design): ๋ฐฉ๋ฒ์ ์ฑ๊ณต ์ฌ๋ถ ์ธก์ ์ ์ํ ์คํ ๊ณํ
- ํผ์ด ๋ฆฌ๋ทฐ ๊ธฐ๋ฐ ๋ฐ๋ณต ๊ฐ์ :
- ๋ค์์ LLM ๊ธฐ๋ฐ ReviewingAgents ์ธ์คํด์ค ์ด์
- ์ธ๊ฐ ์ฐ๊ตฌ์์ ์ค์ ํ๋จ์ผ๋ก๋ถํฐ ํ๋กฌํํ
์ ํตํด ํ๊ฐ ๊ธฐ์ค ์ ๋(human preference-aligned)
- ๊ตฌ์ฑ์ ๋นํ(constructive critique) ์ ๊ณต์ผ๋ก ์์ฑ๋ ์์ด๋์ด ๋ฐ๋ณต ์ ์
ํ์์ ํํ: o = [p, m, d]๋ก ์์ด๋์ด ๊ตฌ์ฑ (๋ฌธ์ , ๋ฐฉ๋ฒ, ์คํ์ค๊ณ)
Evaluation
์ดํ: ๊ณผํ ์ฐ๊ตฌ์ ์์ด๋์ด ์์ฑ ๋จ๊ณ์ LLM์ ์ฒด๊ณ์ ์ผ๋ก ์ ์ฉํ ์ ๋์ ์ฐ๊ตฌ๋ก, ์ธ๊ฐ ์ค์ฌ์ ํ๊ฐ ๊ธฐ์ค ๋์
๊ณผ ๋ค์ธต์ ์ง์ ํตํฉ์ด ๊ฐ์ ์ด๋, ์ค์ ์ฐ๊ตฌ ์ ์ฉ ๊ฐ๋ฅ์ฑ ๊ฒ์ฆ๊ณผ ์ธ๋ถ ๋ฉ์ปค๋์ฆ์ ๊ฐํ๊ฐ ํฅํ ๊ณผ์ ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ค์ค LLM ํ์
์ด ๊ณผํ ์ฐ๊ตฌ ์์ด๋์ด ๋ค์์ฑ๊ณผ ์ฐฝ์์ฑ ์ฆ์ง์ ๋ฏธ์น๋ ํจ๊ณผ์ ๋ํ ์ค์ฆ์ ์ฐ๊ตฌ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ ๋
ผ๋ฌธ ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ์ ์ง์คํ ResearchAgent(668)๊ฐ SciMON ํ๋ ์์ํฌ์ ๋ฌธ์ ์์์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ตฌ์กฐํ๋ ๋
ผ๋ฌธ ์ ๋ณด๋ฅผ ํ์ฉํ LLM ๊ธฐ๋ฐ ๊ฐ์ค ๋ฐ ์์ด๋์ด ์์ฑ ์ฐ๊ตฌ์ ์ ๋ฐ์ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ๊ณผํ์ ์์ด๋์ด ์์ฑ ๊ณผ์ ์ ์ค์ ์ ๋ณด์์ ๊ณผ ํํ ํ๊ณ๋ฅผ ์ฌ์ธต์ ์ผ๋ก ์ ๊ฒํ๋ ๋ฆฌ๋ทฐ์
๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
137์ ๊ณผํ์ ๋ฐ๊ฒฌ์ ์ํ ์์จ ์์ด์ ํธ ์ค์ผ์คํธ๋ ์ด์
์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ธ๊ฐ-LLM ์ง์ ๊ฒฐํฉ ๊ธฐ๋ฐ ์์ด๋์ด ์์ฑ์์, ์ธ๋ถ ์ง์ ๊ทธ๋ํ grounding์ ์ด์ ์ ๋ ์ ๊ทผ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
AI์ ์ฌํ๊ณผํ์ ์ํธ์์ฉ์ ํ๊ตฌํ๋ ์ ์ฌํ ์ฃผ์ ์ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ด ์์ฑํ๋ ์ฐ๊ตฌ ์์ด๋์ด์ ๋ค์์ฑ, ๋
์ฐฝ์ฑ ๋ฑ ์ง์ ํ๊ฐ๋ฅผ ๋๊ท๋ชจ ์ธ์ ์คํ ๊ธฐ๋ฐ์ผ๋ก ๋ถ์ํ์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
079๋ AI ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ ๋ฒค์น๋งํฌ๋ก, 668๊ณผ ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ฐ์ดํฐ ์ค์ฌ์ผ๋ก ์ ๊ทผํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ResearchAgent ๋
ผ๋ฌธ์ ๊ณผํ ๋
ผ๋ฌธ์ ๋ํ ์์ด๋์ด ๋ฐ ๊ฐ์ค ์์ฑ์ ๋ฐ๋ณต์ ์ผ๋ก ํ๊ฐํ๋ ์์คํ
์ ์ ์ํ์ฌ TruthHypo ๋ฒค์น๋งํฌ์ ์ ๋ขฐ๋ ํ๊ฐ ๋ฐฉ์์ด ์ ์ฌํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
ResearchAgent ๋
ผ๋ฌธ ๋ํ ๋ฐ๋ณต์ ์ธ ์์ด๋์ด ์์ฑ ๋ฐ ๋
ผ๋ฌธ ํ์์ ์ํ LLM ๊ธฐ๋ฐ ์์คํ
์ ์ ์ํ๋ฉฐ PaSa์ ์ ๊ทผ์ ๋์์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
438์ ํนํ ๋ถ๋ฅ ๊ธฐ๋ฐ LLM ๊ธฐ์ ํ๊ฐ, 668์ ๋
ผ๋ฌธ ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ ํ๋ ์์ํฌ๋ก, AI์ ๊ณผํ ์์ด๋์ด/๊ธฐ์ ํ๊ฐ์ ์์ดํ ๋ฐฉ์ ์ ์ฉ์ ๋ณด์ฌ์ค๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
668 ๋
ผ๋ฌธ์ ๊ณผํ ๋
ผ๋ฌธ ๊ธฐ๋ฐ ๋ฐ๋ณต์ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ ์์ด์ ํธ ์ ๊ทผ์ ์ทจํ์ฌ, 762์ ์ฐฝ์์ ์์ด๋์ด ์์ฑ๊ณผ ๋์กฐ์ ์๊ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ์ ์ง์๊ทธ๋ํ ๊ธฐ๋ฐ ์ฐ๊ตฌ ์ง์ ๋๊ตฌ์ ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋ค๋ฅด๊ฒ ์ ๊ทผํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
668๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ์ ๋ฐ๋ณต์ ์ธ ์์ด๋์ด ์์ฑ ๋ฐฉ์์ ์ ์ํ์ฌ, LLM์ ๊ณผํ์ ๊ฐ์ค ์์ฑ ๋ฅ๋ ฅ์ ๋ค๋ฅธ ๋ฌธ์ ์์ญ์์ ํ๊ฐํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋๊ท๋ชจ ํ์ ์ง์๊ทธ๋ํ ๊ตฌ์ถ ๋ฐ ์ฐ๊ตฌ ํธ๋ ๋ ๋ถ์์ ๋์์ ๋ฐฉ๋ฒ๋ก ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
ResearchAgent ๋
ผ๋ฌธ์ ๊ธฐ์กด์ ์ธ์ฉ ๋คํธ์ํฌ ๊ธฐ๋ฐ์ด ์๋ LLM ๊ธฐ๋ฐ์ผ๋ก ๊ณผํ ์์ด๋์ด์ ์ฐ๊ฒฐ๋ง ์์ฑ์ ์ง์คํ ๋์์ ์ฐ๊ตฌ ์ ๊ทผ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐ๊ตฌ ์์ด๋์ด ๋ฐ ์ ์ฝ ์์ฐ ๋ฐ๊ตด์์ iterative LLM ์์ด์ ํธ ํ์ฉ๋ฒ์ ๋ค๋ฅด๊ฒ ์ค๊ณํ๋ฏ๋ก ํจ๊ป ๋ณด๋ฉด ์ ๋ต์ ์ฐจ์ด๋ฅผ ํ์ธํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ์ ๋
ผ๋ฌธ ๋ฐ๊ฒฌ ๋ฐ ๋ถ์ ์๋ํ์ ๋์์ ๋ค์ค ์์ด์ ํธ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
ResearchAgent(668)๋ LLM์ ์ด์ฉํ ์ฐ๊ตฌ์์ด๋์ด ์์ฑ๊ณผ ๊ฒ์ฆ์ ๋ฐ๋ณตํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, 473 ๋
ผ๋ฌธ์ ์๋ ์ฐ๊ตฌ ๊ฐ์ค ์์คํ
์ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
668 ๋
ผ๋ฌธ์ LLM ์์ด์ ํธ๊ฐ ์ค์ ๋
ผ๋ฌธ์์ ๋ฐ๋ณต์ ์ผ๋ก ์์ด๋์ด ๋ฐ๊ตด๊ณผ ํ๊ฐ๋ฅผ ํ๋ ์คํํ๊ฒฝ์ ์ ๊ณตํด, 194์ ์์ด๋์ด chain ๋ฐ์ ์คํ์ฑ์ ๋์ธ๋ค.
ํ์ ์ฐ๊ตฌ
668์ ๋๊ท๋ชจ ๊ณผํ ๋ฌธํ์์ ๋ฐ๋ณต์ ์์ด๋์ด ์์ฑ์ ์๋ํํ์ฌ 045์ ์์ด์ ํธ ๊ธฐ๋ฐ ์ํคํ
์ฒ๋ฅผ ์ค์ ๋ฐ์ดํฐ ๋๊ท๋ชจ ์คํ์ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
519๋ ์ฌ๋ฌ ์์ด์ ํธ๋ฅผ ํ์ฉํ ์๋ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์์ฑ์ผ๋ก, 668์ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ-๊ฒ์ฆ ์์ด์ ํธ ํ๋ฆ์ ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
์์ด๋์ด ์ฌ์กฐํฉ/์ฐฝ์์ฑ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ๋ฐํ์ผ๋ก ์ฐฝ์์ ๊ณผํ ์์ด๋์ด ๋ฐ๊ตด๊ณผ ์๋ ์ถ์ฒ์ ๋ฐ์ ๋ฐฉํฅ์ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
668 ๋
ผ๋ฌธ์ ์ค์๊ฐ ๋ฌธํ ๊ธฐ๋ฐ AI ์์ด๋์ด ์์ฑ ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํด, 079์ ์ฐ๊ตฌ์์ด๋์ด ๋ฒค์น๋งํฌ๋ฅผ ์ง์์ ยท์ค๋ฌด์ ์ผ๋ก ํ๋ํ๋ค.
ํ์ ์ฐ๊ตฌ
ResearchAgent ๋
ผ๋ฌธ๋ PiFlow์ ์ ์ฌํ๊ฒ ์์ด์ ํธ ๊ธฐ๋ฐ์ผ๋ก ๊ณผํ์ ์์ด๋์ด ์์ฑ๊ณผ ํ์์ ์๋ํํ์ง๋ง, Piflow๋ ์๋ฆฌ ๊ธฐ๋ฐ ๋ถํ์ค์ฑ ๊ฐ์๋ฅผ ๊ฐ์กฐํฉ๋๋ค.
์์ฉ ์ฌ๋ก
668๋ฒ ๋
ผ๋ฌธ์ ๊ณผํ ๋
ผ๋ฌธ ์์ด๋์ด ์์ฑ์ ์ํ ๊ณผํ ๋ฐ์ดํฐ์
์ ํ์ฉํ์ฌ, 913๋ฒ์์ ๊ตฌ์ถํ ๊ตฌ์กฐํ ๋ฌธํ ๋ฉํ๋ฐ์ดํฐ์ ์ค์ ํ์ฉ ์ฌ๋ก๋ฅผ ๋ณด์ฌ์ค๋ค.