Essence
๊ทธ๋ฆผ 1: ์ ๋ฌธ๊ฐ๊ฐ ์๋์ผ๋ก ์๊ด๊ด๊ณ๋ฅผ ํ๊ฐํ๋ ๋ฐฉ์๊ณผ LLM์ด ๋์์ ์ฃผ๋ ๋ฐฉ์
LLM์ ๋ด๋ถ ์ง์์ ํ์ฉํ์ฌ ๋ณ์ ์์ ์์ ์๊ด๊ณ์์ ๋ํ ์ฌ์ ๋ถํฌ(prior distribution)๋ฅผ ์๋์ผ๋ก ๊ตฌ์ฑํ๊ณ , ์ด๋ฅผ ํตํด ๊ด์ฐฐ๋ ์๊ด๊ด๊ณ๊ฐ ์ผ๋ง๋ ๋๋ผ์ด์ง(surprising)๋ฅผ ์ ๋ํํจ์ผ๋ก์จ ์์ฒ ๊ฐ์ ๋ฐ๊ฒฌ๋ ์๊ด๊ด๊ณ ์ค ์ฃผ๋ชฉํ ๊ฐ์น๊ฐ ์๋ ๊ฒ์ ์๋์ผ๋ก ํํฐ๋งํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
How
๊ทธ๋ฆผ 2: ๋์ ์๊ด๊ด๊ณ ๊ฐ์ ๋ํ ํธํฅ ๋ถ์
Logit-based Calibrated Prior(LCP) ๊ตฌ์ฑ ๋ฐฉ๋ฒ:
- ๋จ๊ณ 1 - ๊ตฌ์กฐํ๋ ํ๋กฌํํ
: LLM์ ๋ณ์ ์์ ์ค๋ช
(๋ฌธ๋งฅ)์ ์ ๊ณตํ๊ณ {"coefficient": ""} ํ์์ ๊ตฌ์กฐํ๋ ์๋ต์ ์ ๋ํ๋ค.
- ๋จ๊ณ 2 - ๋ก์ง(logit) ์ถ์ถ: ๊ฐ ๋์ฝ๋ฉ ๋จ๊ณ์์ LLM์ด ์์ฑํ๋ ์๋ณธ ํ ํฐ ๋ก์ง์ ์์งํ๋ค. ์ซ์ ์๋ต ์์ญ(์: "-0.69")์ ๋ชจ๋ ๊ฐ๋ฅํ ํ ํฐ ์ํ์ค๋ฅผ ์ด๊ฑฐํ๋ค.
- ๋จ๊ณ 3 - ์ ํจ์ฑ ๊ฒ์ฆ ๋ฐ ํ๋ฅ ๊ณ์ฐ: ์ ํจํ ๋ถ๋์์์ ๊ฐ์ด๋ฉด์ [-1, 1] ๋ฒ์ ๋ด์ ๊ฐ๋ง ์ ์งํ๋ค. ๊ฐ ์ํ์ค์ ํ ํฐ๋ณ ๋ก๊ทธ ํ๋ฅ ์ ํฉ์ฐํ์ฌ ๊ฒฐํฉ ํ๋ฅ ์ ๊ณ์ฐํ๋ค. ๋์ผํ ์์น๊ฐ์ผ๋ก ๋งคํ๋๋ ์ฌ๋ฌ ํ ํฐ ์ํ์ค์ ํ๋ฅ ์ ์ง๊ณํ๋ค.
- ๋จ๊ณ 4 - ์ ๊ทํ: ์ํํธ๋งฅ์ค ํจ์๋ฅผ ํตํด ์ ํจํ ์๊ด๊ด๊ณ ๊ฐ๋ค์ ๋ํ ์ด์ฐ ํ๋ฅ ๋ถํฌ๋ฅผ ์์ฑํ๋ค.
- ๋จ๊ณ 5 - ํํํ(Smoothing): ๊ฐ ์ด์ฐ ๊ฐ์ ์ค์ฌ์ผ๋ก ํ๋ ๊ฐ์ฐ์์ ์ปค๋์ ๊ฐ์คํฉ์ ํตํด ์ฐ์ ํ๋ฅ ๋ฐ๋ํจ์๋ก ๋ณํํ๋ค. Pearson ์๊ด๊ณ์์ ์ ์์ญ [-1, 1]์ ๋ง์ถฐ ์ ๋จ ๋ฐ ์ฌ์ ๊ทํํ๋ค.
ํต์ฌ ์์:
$$f(r) = \frac{1}{Z}\sum_{j=1}^{N} p_j \cdot \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(r-r_j)^2}{2\sigma^2}\right), \quad r \in [-1, 1]$$
์ฌ๊ธฐ์ ฯ๋ ์ปค๋์ ํ์คํธ์ฐจ๋ก, ๋ถํ์ค์ฑ์ ์ ์ดํ๋ค.
- ๋งค๊ฐ๋ณ์ ์ ํ: ์ปค๋ ํ์คํธ์ฐจ ฯ๋ ๊ต์ฐจ๊ฒ์ฆ์ ํตํด ๋ณด์ ํ์ฌ, ๊ณผ์ (overconfident)ํ์ง๋ ๊ณผ๋ํ๊ฒ ๋ถํ์คํ์ง๋ ์์ ๊ท ํ์กํ ๋ถํฌ๋ฅผ ์์ฑํ๋๋ก ์กฐ์ ํ๋ค.
Evaluation
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๊ฐ์ค ํ๊ฐ์ ์๋ํ๋ผ๋ ์ค์ง์ ์ด๊ณ ์ค์ํ ๋ฌธ์ ๋ฅผ ์ค์ ํ๊ณ , LLM์ ๋ก์ง์ผ๋ก๋ถํฐ ๋ณด์ ๋ ์๊ด๊ด๊ณ ์ฌ์ ๋ถํฌ๋ฅผ ๊ตฌ์ฑํ๋ ์ฐฝ์์ ์ด๊ณ ์คํ ๊ฐ๋ฅํ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. 2,096๊ฐ ๋ณ์ ์์ ๋ํ ํฌ๊ด์ ์ธ ๋ฒค์น๋งํฌ์ ๋ค๊ฐ์ ํ๊ฐ๋ฅผ ํตํด ๋ฐฉ๋ฒ์ ์ ํจ์ฑ์ ์
์ฆํ์ผ๋, ํ์ฌ๋ก์๋ ์๊ด๊ด๊ณ์๋ง ์ ์ฉ๋๊ณ ๋ค๋ฅธ ํต๊ณ์ ๊ด๊ณ๋ ์ธ๊ณผ๊ด๊ณ๋ก์ ํ์ฅ์ด ๋ถ์กฑํ๋ค๋ ์ ์ด ์ํฅ์ ๋ฏธ์น๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Hypothesis Generation with Large Language Models ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๊ฐ์ค ์์ฑ์ ์ด๋ก ๋ฐ ์ ๊ทผ๋ฐฉ์์ ์ข
ํฉ์ ์ผ๋ก ๋ค๋ฃจ๋ฉฐ, 330์ ๊ฐ์ค ํ๊ฐ ์๋ํ ๋
ผ๋ฆฌ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ง์ ๊ทธ๋ํ ์๋ฒ ๋ฉ ๋ฐ ๊ด๊ณํ ์ถ๋ก ์ ์ํ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฃจ๋ ๊ด๋ จ ์ฐ๊ตฌ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ํตํ ๊ฐ์ค ์ถ๋ก ๊ณผ ์๋ ํ๊ฐ ๊ธฐ๋ฅ์ ํ ๋ฐ์ดํฐ ์๋ฎฌ๋ ์ด์
๋ฐฉ์์ ๋์กฐ์ ์ผ๋ก ๋น๊ตํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
๋ ๋ค ์๋ํ๋ ๊ฐ์ค ๊ฒ์ฆ ์์คํ
์ ๋ชฉํ๋ก ํ์ง๋ง, 330์ LLM ๋ด๋ถ ๋
ผ๋ฆฌ ์ถ์ ๊ธฐ๋ฐ์ด๊ณ 123์ agentic sequential falsification ์ ๊ทผ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Scientific knowledge graph ๊ธฐ๋ฐ์ ๊ฐ์ค ์์ฑ ํ๊ฐ ํ๋ ์์ํฌ ์ ์๋ก, ์ฌ์ ๋ถํฌ ๊ธฐ๋ฐ ์๋ ํ๊ฐ ๋ฐฉ๋ฒ๊ณผ ๋น๊ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Turning Citation Networks Inside Out ๋
ผ๋ฌธ์ LLM์ด ๋
ผ๋ฌธ ๋ด์ฉ์ ์ผ์คํญ์ผ๋ก ์ถ์ถํ์ฌ ์๋ก์ด ๊ฐ์ค์ ๋ง๋๋ ์์ดํ ์๋ํ ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
330์ LLM์ ์ด์ฉํ ์๋ ๊ฐ์ค ํ๊ฐ๋ฅผ ๋ค๋ฃจ์ด, 825์ ์๋ ๊ฐ์ค ์์ฑ ๋ชจ๋ธ์ ๋ค์ ์ฐ๊ตฌ ๋จ๊ณ๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
AI predictions and the expansion of scientific frontiers ๋
ผ๋ฌธ์ AlphaFold2์ LLM ๊ธฐ๋ฐ ์์ธก์ด ์ค์ ๋ก ๊ณผํ์ ๋ฐ๊ฒฌ๊ณผ ์ํฅ ํ์ฅ์ ์ด๋ ํ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์๋์ง ๋ณด์ฌ์ฃผ์ด, ๊ฐ์ค ํ๊ฐ๊ฐ ์ค์ ์ฐ๊ตฌ ๋ง์ผ์คํค์ ๋ฐ๊ฟ ์ ์์์ ์
์ฆํฉ๋๋ค.