Essence
Figure 1: (a) ํต์ฌ ์ธ์ฉ(Core Citation) ์ ์. (b)(c) ํต์ฌ ์ธ์ฉ๊ณผ ํ๋ฉด์ ์ธ์ฉ์ ํต๊ณ์ ์ฐจ์ด: ํค์๋ ๊ฒน์นจ(b)๊ณผ ์ฃผ์ ํ
์คํธ ๋ด ์ธ๊ธ ๋น๋(c)
๋ณธ ๋
ผ๋ฌธ์ ๊ณผํ ๋
ผ๋ฌธ์ ์ธ์ฉ ์์ธก ๋ฌธ์ ๋ฅผ ๋จ์ํ ์ด์ง ๋ถ๋ฅ์์ ๋ฒ์ด๋ ํต์ฌ ์ธ์ฉ(core citations)์ ํ๋ฉด์ ์ธ์ฉ ๋ฐ ๋น์ธ์ฉ๊ณผ ๊ตฌ๋ณํ๋ ๋ค๋จ๊ณ ๋ถ๋ฅ ๋ฌธ์ ๋ก ์ฌ์ ์ํ๊ณ , ์๋ฒ ๋ฉ ๋ชจ๋ธ๊ณผ ์์ฑํ LLM์ ๊ฒฐํฉํ ํ์ด๋ธ๋ฆฌ๋ ์ํฌํ๋ก์ฐ(HLM-Cite)๋ฅผ ์ ์ํ๋ค.
How
Figure 3: LLM ์์ด์ ํธ ์์ ๊ฒฐ์ ๋ชจ๋์ ์ฌ๋ก ์ฐ๊ตฌ. Guider์ ์์ท ํ์ต ์์(2โ3โ1์ ์ ๋ ฌ)๋ฅผ ํตํด Analyzer์ Decider๊ฐ ๋
ผ๋ฆฌ์ ๊ด๊ณ๋ฅผ ์ถ๋ก ํ๊ณ ์์๋ฅผ ๊ฒฐ์
2๋จ๊ณ ํ์ด๋ธ๋ฆฌ๋ ์ํฌํ๋ก์ฐ
Stage 1: ๊ฒ์ ๋ชจ๋ (Embedding-based Retrieval)
- ์ฌ์ ํ์ต๋ ํ
์คํธ ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ์ปค๋ฆฌํ๋ผ ํ์ธํ๋์ผ๋ก ์ ์
- Stage 1 (๋ถ๋ฅ): CrossEntropy Loss๋ก ํต์ฌ/ํ๋ฉด์ ์ธ์ฉ ์ด์ง ๋ถ๋ฅ ํ์ต
- Stage 2 (์์ ๊ฒฐ์ ): NeuralNDCG Loss๋ก ์์ ํ์ต์ผ๋ก ์ ์ด (ranking-aware)
- ์ ๋ชฉ+์ด๋ก๋ง ์ฌ์ฉํ์ฌ 768์ฐจ์ ์๋ฒ ๋ฉ ์์ฑ
- ๋๊ท๋ชจ ํ๋ณด ์งํฉ(Cq)์์ ๊ณ ํ๋ฅ ํต์ฌ ์ธ์ฉ ์ถ์ถ (๋ฐํ ์งํฉ Rq)
Stage 2: LLM ์์ด์ ํธ ์์ ๊ฒฐ์ ๋ชจ๋ (Generative LLM-based Reasoning)
- 3-์ญํ ์์ด์ ํธ ์ํคํ
์ฒ:
- Guider: ์์ท(one-shot) ํ์ต ์์ ์ ๊ณต, ์ฟผ๋ฆฌ ๋
ผ๋ฌธ์ด ์ ํน์ ๋
ผ๋ฌธ์ ์ธ์ฉํ๋์ง ์ค๋ช
- Analyzer: ๊ฐ ๊ฒ์๋ ํ๋ณด ๋
ผ๋ฌธ์ ๋ํด ์ฟผ๋ฆฌ ๋
ผ๋ฌธ๊ณผ์ ๋
ผ๋ฆฌ์ ๊ด๊ณ ๋ถ์
- Decider: ์ต์ข
์์ ๊ฒฐ์
- ์์์ ๋
ผ๋ฆฌ ๊ด๊ณ๋ฅผ ๋ช
์์ ์ถ๋ก ์ผ๋ก ์ ํ
์ฃผ์ ์ค๊ณ ํน์ง
- ํ
์คํธ ๊ธฐ๋ฐ ์์ธก: ํ๋ จ/ํ
์คํธ ์ ์ธ์ฉ ๋คํธ์ํฌ๋ ๊ทธ๋ผ์ด๋ ํธ๋ฃจ์ค ๊ตฌ์ถ์๋ง ์ฌ์ฉ, ๋คํธ์ํฌ ํน์ฑ์ ์ ์ธ โ ๋ฏธ๋ฐํ ์๊ณ ์ ์ ์ฉ ๊ฐ๋ฅ
- ์ปค๋ฆฌํ๋ผ ํ์ต: ๋ถ๋ฅ์์ ์์ ๊ฒฐ์ ์ผ๋ก์ ์์ฐ์ค๋ฌ์ด ์ ์ด
- ํ์ฅ์ฑ: ๋ ๋จ๊ณ์ ๋ถ๋ฆฌ๋ก ๊ฒ์ ๋จ๊ณ๋ ์ ์ํ๊ฒ, ์์ ๋จ๊ณ๋ ์ ๊ตํ๊ฒ ์ฒ๋ฆฌ
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ์ธ์ฉ ์์ธก ๋ฌธ์ ๋ฅผ ๊ฐ๋
์ ์ผ๋ก ์ฌ์ ์ํ๊ณ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ ํตํด ์ค์ง์ ์ธ ํ์ฅ์ฑ์ ๋ฌ์ฑํ ๊ฒฌ์คํ ์ฐ๊ตฌ์ด๋ค. ํนํ 100K ํ๋ณด ์งํฉ ์ฒ๋ฆฌ์ 17.6% ์ฑ๋ฅ ๊ฐ์ ์ ์ค๋ฌด์ ๊ฐ์น๊ฐ ๋์ผ๋, ํต์ฌ ์ธ์ฉ ์ ์์ ์ํ์ฑ๊ณผ LLM ๊ธฐ๋ฐ ์ถ๋ก ์ ํจ์จ์ฑ ๊ฐ์ ์ด ํฅํ ์ค์ํ ๊ณผ์ ๋ก ๋จ์์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ง์๊ทธ๋ํ ๊ธฐ๋ฐ ์ฌ์ค ๊ฒ์ฆ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
๋ฐ ๋ฐฉ๋ฒ๋ก ์ ๊ธฐ๋ฐ์ผ๋ก, ๊ณผํ ๋
ผ๋ฌธ ์ธ์ฉ ์์ธก ๋ฐ ํ๊ฐ๋ฅผ ๊ตฌํํ ์ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ํ
์คํธ ๊ธฐ๋ฐ ๊ณผํ ์ธ์ฉ ์์ฑ ์ํฌํ๋ก์ฐ์์ LCM ๋ฌธ๋งฅ ํ์ฉ ์ฑ๋ฅ ํ๊ฐ์ ๊ธฐ๋ฐ์ด ๋๋ ๋ฐฉ๋ฒ์ ๋
ผ์๊ฐ ๋ด๊ฒจ ์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
MOF ๊ด๋ จ ๋๊ท๋ชจ ๋ฌธํ์ ์๋ ๋ถ์ ๋ฐ ๋ฐ์ดํฐ ์ถ์ถ ๊ฒฝํ์ด ์ธ์ฉ ์์ธก ์ํฌํ๋ก์ฐ ๊ฐ๋ฐ์ ๊ธฐ๋ฐ์ด ๋์์ต๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
406์ ํ์ด๋ธ๋ฆฌ๋ ์ธ์ด๋ชจ๋ธ ์ํฌํ๋ก์ฐ๋ ์๋ฏธ-๋ฌผ๋ฆฌ ๋จ์ ์ด์ ๋ฐ ์ ๊ฒฝ-์ฌ๋ณผ๋ฆญ ํตํฉ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
TLDR ๋
ผ๋ฌธ์ ๊ณผํ ๋
ผ๋ฌธ์ ์์ฝ ์์ฑ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ์ธ์ฉ์์ธก๊ณผ ๋๋ถ์ด ๊ณผํ ๋ฌธ์ ์ฒ๋ฆฌ ํ์คํฌ์ ๋์ ์์
์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ILCiteR ๋
ผ๋ฌธ์ ๋
ผ๋ฌธ ์ธ์ฉ ์ถ์ฒ์ ํด์๊ฐ๋ฅ์ฑ๊ณผ ๊ทผ๊ฑฐ ์์ฃผ๋ก ์ํํ๋ฉฐ, HLM-Cite์์ ์ ๊ธฐ๋ ์ธ์ฉ ๊ตฌ๋ถ ๋ฌธ์ ์ ๋ค์ํ ํด๊ฒฐ์ฑ
์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
ํ์ ๋
ผ๋ฌธ ์ถ์ฒ, ์ธ์ฉ ์์ฑ ๋ฑ LLM ๊ธฐ๋ฐ ์ํฌํ๋ก์ฐ์ ๋ค๋ฅธ ๊ตฌํ ์ฌ๋ก๋ก, ์ธ์ฉ ์์ธก๊ณผ ์ถ์ฒ์ ์ค์ ๋น๊ต๊ฐ ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Scirgc ๋
ผ๋ฌธ์ ์ธ์ฉ ์ถ์ฒ ๋ฐ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํตํด ์ธ์ฉ์์ธก์ ๋ค์ํ ์๋ํ ๋ฐฉ์๊ณผ ํจ๊ณผ๋ฅผ ๋น๊ตํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Co-Scientist ๋
ผ๋ฌธ์ ๊ณผํ์ ์ฐฝ์์ฑ๊ณผ ํ์ด๋ธ๋ฆฌ๋ ํ์
๋ฃจํ ๋ชจ๋ธ๋ง์์ HLM-Cite์ ๋์ฒด์ ์ ๊ทผ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
HLM-Cite ๋
ผ๋ฌธ์ ํ์ด๋ธ๋ฆฌ๋ LM ๊ธฐ๋ฐ ๋
ผ๋ฌธ ์ธ์ฉ ์์ฑ ์ํฌํ๋ก์ฐ๋ฅผ ์ ์ํ์ฌ ์ธ์ฉ hallucination ํ์ง์ ๋์ ์์คํ
์ ๋ณด์ฌ์ค๋ค.
ํ์ ์ฐ๊ตฌ
HLM-Cite ๋
ผ๋ฌธ์ ์ฝ์ด ์ธ์ฉ ๋ถ๋ฅ ์๋ํ์ ๊ฒ์์ฆ๊ฐ ์ธ์ด ๋ชจ๋ธ ์ํคํ
์ฒ๋ฅผ ์ค์ง์ ์ํฌํ๋ก์ฐ๋ก ํ์ฅ ์ ์ฉํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Leveraging LLMs in Scholarly Knowledge Graph Question Answering ๋
ผ๋ฌธ์ ๋
ผ๋ฌธ ๊ทธ๋ํ ๊ธฐ๋ฐ ๋ฌธํ๊ฐ ์๋ฏธ ์ถ์ถ๊ณผ ์ง์๊ทธ๋ํ ํ์ฉ์ ํ์ฅํ๋ค.
ํ์ ์ฐ๊ตฌ
Benchmark for evaluation and analysis of citation recommendations ๋
ผ๋ฌธ์ ๋ค์ํ ์ธ์ฉ ๋ถ๋ฅ์ ์ถ์ฒ ํ์คํฌ์ ๋ฒค์น๋งํฌ๋ก ์ค์ ํ๊ฐ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Towards an AI co-scientist ๋
ผ๋ฌธ์ HLM-Cite์ ํ์ด๋ธ๋ฆฌ๋ ์ํฌํ๋ก์ฐ์ ํตํฉ ์ฐ๊ตฌ ํ์
ํด ๋ฐ์ ์ ํ ๋จ๊ณ ๋ ๋ฐ์ ์ํต๋๋ค.
ํ์ ์ฐ๊ตฌ
The Adoption and Usage of AI Agents ๋
ผ๋ฌธ์ ์ค์ ํ๊ณ ๋ด AI ํ์
๋๊ตฌ ๋ฐ ์ธ์ฉ ๊ด๋ จ ์์ด์ ํธ ํ์ฉ ์์์ ๋ถ์ํด ์ ์ํ ์ฐ๊ตฌ ์ ํ์ ๋ท๋ฐ์นจํฉ๋๋ค.
์์ฉ ์ฌ๋ก
HLM-Cite ๋
ผ๋ฌธ์ ์ฆ๊ฐ ์ธ์ด ๋ชจ๋ธ์ ์ค์ ๊ณผํ ๋
ผ๋ฌธ ์ธ์ฉ ์์ธก ๋ฌธ์ ์ ์ ์ฉ๋ ์ค์ฆ์ ํ์ฉ ์ฌ๋ก์
๋๋ค.
์์ฉ ์ฌ๋ก
๋
ผ๋ฌธ ์ธ์ฉ ์์ธก์ ์ํ ๋จ๊ณ์ ๋ถ๋ฅ ๋ชจ๋ธ์ด, ์ง์๊ทธ๋ํ ๊ธฐ๋ฐ ์ฌ์ค ๊ฒ์ฆ ๋ฐฉ๋ฒ๊ณผ ์ด๋ป๊ฒ ์กฐํฉ ๊ฐ๋ฅํ์ง ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
๊ณผํ ๋
ผ๋ฌธ์ ์ธ์ฉ ์์ธก ๋ฌธ์ ์ ์์ด์ ํธ ์ํฌํ๋ก์ฐ๋ฅผ ์ ์ฉํ ์ค์ ์ฌ๋ก๋ก, ๋ฒค์น๋งํฌ์ ์์ฉ์ ์ฐ๊ณ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
์์ฉ ์ฌ๋ก
๊ณผํ ๋
ผ๋ฌธ ์ธ์ฉ ์์ธก ๋ฌธ์ ์ LLM ๊ธฐ๋ฐ ์ํฌํ๋ก์ฐ๋ฅผ ์ ์ฉํ๋ ๋ฑ, ๋ฐ์ดํฐ ์์ง ๋ฐ ๋ถ์ ์๋ํ์ ์ค์ ์์ฉ์ ๋ณด์ฌ์ค๋๋ค.