์ ์: Zhehui Liao, Maria Antoniak, Inyoung Cheong, Evie Yu-Yen Cheng, Ai-Heng Lee, Kyle Lo, Joseph Chee Chang, Amy X. Zhang | ๋ ์ง: 2024-10-30 | DOI: 10.48550/arXiv.2411.05025 📄 PDF
Essence
๋๊ท๋ชจ ๊ฒ์ฆ๋ ๋
ผ๋ฌธ ์ ์ 816๋ช
์ ๋์์ผ๋ก LLM(Large Language Model)์ ์ฐ๊ตฌ ํ์ฉ ํํฉ๊ณผ ์ธ์์ ์กฐ์ฌํ ์ฒซ ๋๊ท๋ชจ ์ค์ฆ ์ฐ๊ตฌ๋ก, ์ฐ๊ตฌ์์ ์ธ๊ตฌํต๊ณํ์ ๋ฐฐ๊ฒฝ์ ๋ฐ๋ฅธ ์ฌ์ฉ ์์๊ณผ ์ค๋ฆฌ ์ธ์์ ์ฐจ์ด๋ฅผ ๋๋ฌ๋๋ค.
Achievement
๊ฐ ์ฌ์ฉ ์ ํ๋ณ ์ฌ์ฉ ๋น๋ ๋ถํฌ (N=816). ์ ๋ณด ํ์๊ณผ ํธ์ง์ด ๊ฐ์ฅ ์์ฃผ ๋ณด๊ณ ๋๊ณ , ๋ฐ์ดํฐ ๋ถ์๊ณผ ์์ฑ์ด ๊ฐ์ฅ ์ ๊ฒ ๋ณด๊ณ ๋จ
- ๊ด๋ฒ์ํ LLM ๋์
: ์๋ต์์ 81%๊ฐ ์ฐ๊ตฌ workflow์ ํ ๊ณณ ์ด์์์ LLM์ ์ฌ์ฉ ์ค์ด๋ฉฐ, ์ ๋ณด ํ์๊ณผ ํธ์ง(Information Seeking & Editing)์ด ๊ฐ์ฅ ๋น๋ฒํ๊ฒ ๋ณด๊ณ ๋๊ณ ๋ฐ์ดํฐ ๋ถ์ ๋ฐ ์์ฑ์ด ๊ฐ์ฅ ์ ๊ฒ ๋ณด๊ณ ๋์๋ค.
- ์ธ๊ตฌํต๊ณํ์ ๊ฒฉ์ฐจ์ ํํ์ฑ ๊ธฐํ: ์์์ธ์ข
(non-White), ๋น๋ชจ๊ตญ์ด ์์ด ์ฌ์ฉ์, ์ด๊ธ ์ฐ๊ตฌ์๋ค์ด LLM์ ๋ ์์ฃผ ์ฌ์ฉํ๋ฉฐ ์ด์ ์ ๋ ๋๊ฒ ํ๊ฐํ๋ ๋ฐ๋ฉด, ์ฌ์ฑ, ๋
ผ๋ฐ์ด๋๋ฆฌ, ๊ฒฝ๋ ฅ์ด ๋ง์ ์ฐ๊ตฌ์๋ค์ ์ค๋ฆฌ ์ฐ๋ ค๊ฐ ๋ ํฌ๋ค. ์ด๋ ์ ํต์ ์ผ๋ก ํ์ ์์ ์์ธ๋ ์ง๋จ์ ํํ์ฑ ๊ฐ์ ๊ฐ๋ฅ์ฑ์ ์์ฌํ๋ ํํธ, ๋ค๋ฅธ ์ง๋จ์ ๋ฎ์ ์ฑํ๋ฅ ๋ก ์ธํ ์๋ก์ด ๋ถํ๋ฑ ์ํ์ ๊ฒฝ๊ณ ํ๋ค.
์ธ๊ตฌํต๊ณํ์ ํน์ฑ๋ณ LLM ์ฌ์ฉ ๋ฐ ์ธ์ ํํฉ. ๊ฐ ํํธ๋งต์ ์ฌ์ฉ ๋น๋, ์ํ ์ธ์, ์ด์ ํ๊ฐ, ์ค๋ฆฌ ์ฐ๋ ค, ๊ณต๊ฐ ์ํฅ์ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ค
- ๋ถ์ผ๋ณ ๊ท๋ฒ ์ฐจ์ด: ์ปดํจํฐ๊ณผํ ์ฐ๊ตฌ์๋ค์ด ๋ค๋ฅธ ๋ถ์ผ ์ฐ๊ตฌ์๋ค๋ณด๋ค LLM ์ฌ์ฉ ๊ณต๊ฐ์ ๋ ํธ์ํ๊ณ ์ค๋ฆฌ ์ฐ๋ ค๊ฐ ๋ฎ๋ค. ์ด๋ ๊ฐ ๋ถ์ผ๋ง๋ค ์๋ก ๋ค๋ฅธ ์ฌํ์ ๊ท๋ฒ ํ์ฑ์ด ํ์ํจ์ ์์ฌํ๋ค.
- LLM ์ถ์ฒ ์ ํธ๋: ์ฐ๊ตฌ์๋ค์ ์๋ฆฌ ๊ธฐ์
์ ์์ฉ ๋ชจ๋ธ๋ณด๋ค ์คํ์์ค/๋น์๋ฆฌ LLM์ ์ ํธํ๋๋ฐ, ์ด๋ ๊ธฐ์กด ๋๊ท๋ชจ ์์ฉ ๊ธฐ์
์ ๋ฐ์ดํฐ ํ๋ผ์ด๋ฒ์, ํฌ๋ช
์ฑ, ์ ๊ทผ์ฑ ๊ด๋ จ ์ฐ๋ ค ๋๋ฌธ์ด๋ค.
How
๊ฐ LLM ์ฌ์ฉ ์ ํ๋ณ ์ฐธ์ฌ์ ์ ๋ถํฌ. ์ ๋ณด ํ์์ด ๊ฐ์ฅ ๋ง์ ์ฐธ์ฌ์๊ฐ ์ํํ๋ ์์
์์ ๋ณด์ฌ์ค
์กฐ์ฌ ์ค๊ณ ๋ฐ ๋ถ์ ๋ฐฉ๋ฒ:
- ๊ฒ์ฆ๋ ๋
ผ๋ฌธ ์ ์๋ฅผ Semantic Scholar์์ ๋ชจ์งํ์ฌ ํ๋ณธ์ ์ ๋ขฐ์ฑ ํ๋ณด
- 6๊ฐ์ง LLM ์ฌ์ฉ ์ ํ(์ ๋ณด ํ์, ํธ์ง, ์์ด๋์ด ์์ฑ, ์ง์ ์์ฑ, ๋ฐ์ดํฐ ์ ์ /๋ถ์, ๋ฐ์ดํฐ ์์ฑ)๊ณผ 4๊ฐ์ง ์ธ์ ์ฐจ์(์ํ, ์ด์ , ์ค๋ฆฌ, ๊ณต๊ฐ ์ํฅ)์ ์ธก์
- 5๊ฐ์ง ์ธ๊ตฌํต๊ณํ์ ํน์ฑ(์ธ์ข
, ์ฑ๋ณ, ์์ด ๋ชจ๊ตญ์ด ์ฌ๋ถ, ๊ฒฝ๋ ฅ ๋จ๊ณ, ๋ถ์ผ)๋ณ ๋ถ์
- ์ ๋์ ๋ถ์: ๋น๋๋ถ์, ๊ต์ฐจ๋ถ์, ์นด์ด์ ๊ณฑ ๊ฒ์ ๋ฐ ๋ค์ค ๋น๊ต ๋ณด์
- ์ ์ฑ์ ๋ถ์: ์์ ์๋ต ์ฝ๋ฉ ๋ฐ ์ฃผ์ ๋ถ์(thematic analysis)
- ๊ณต๊ฐ ์ค๋ฌธ ๊ณต์(GitHub ๊ณต๊ฐ): ๊ฐ์ธ์๋ณ ์ ๋ณด ์ ๊ฑฐ ํ ํ์ ์ฌ์ฌ์ฉ ํ์ฉ
Figure 1์ ์ค๋ฌธ ๊ตฌ์กฐ:
- ์ฐธ๊ฐ์์ ์ธ๊ตฌํต๊ณํ์ ์ ๋ณด, 6๊ฐ์ง ์ฌ์ฉ ์ ํ๋ณ ๋น๋, ๊ฐ ์ฌ์ฉ ์ ํ์ ๋ํ ์ธ์(์ํ/์ด์ /์ค๋ฆฌ) ํ๊ฐ, LLM ์ถ์ฒ๋ณ ์ ํธ๋, ํผ์ด/๋ฆฌ๋ทฐ์ด ๊ณต๊ฐ ์ํฅ
Evaluation
์ดํ: ๋ณธ ์ฐ๊ตฌ๋ LLM์ ํ์ ๋์
์ ๋จ์ ๊ธฐ์ ์ฑํ ๋ฌธ์ ๊ฐ ์๋ ์ฐ๊ตฌ ํํ์ฑ ๋ฌธ์ ๋ก ์ฌํ๋ ์ํํ๋ฉฐ, 816๋ช
์ ๊ฒ์ฆ๋ ์ ์๋ฅผ ์กฐ์ฌํ ์ฒซ ๋๊ท๋ชจ ์ค์ฆ ์๋ฃ๋ฅผ ์ ๊ณตํ๋ค. ์ธ๊ตฌํต๊ณํ์ ๊ฒฉ์ฐจ์ ๋ฐ๊ฒฌ์ ํ์ ๊ณต๋์ฒด์ ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ์ด๋, ์๊ธฐ ๋ณด๊ณ ํธํฅ๊ณผ ์ธ๊ณผ์ฑ ๊ท๋ช
๋ถ์ฌ ๋ฑ ๋ฐฉ๋ฒ๋ก ์ ํ๊ณ๋ ๋ค์ ๋จ๊ณ ์ข
๋จ ๋๋ ์คํ ์ค๊ณ ์ฐ๊ตฌ๋ก ๋ณด์๋์ด์ผ ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM์ ์ค์ ์ฐ๊ตฌ ํ์ฅ ์ ์ฉ ๋ฐ ์ฐ๊ตฌ์ ์ธ์์ ๊ดํ ๋๊ท๋ชจ ์ค์ฆ ์กฐ์ฌ๋ ์๋ด ์๋ฎฌ๋ ์ด์
๋ฑ ์ค์ LLM ์์ด์ ํธ ์ ์ฉ ๋
ผ์์ ๋ฐฐ๊ฒฝ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์ฐ๊ตฌ์ ๊ด์ ์ LLM ํ์ฉ ์ธ์ ๋๊ท๋ชจ ์กฐ์ฌ๊ฐ AI ๊ธฐ๋ฐ ์ธ๋ฌธํ ์ฐฝ์(ํ
์คํธ ๊ฒ์ ์์ฑ ๋ฑ) ๊ฐ๋ฅ์ฑ ํ๊ฐ์ ๊ทผ๊ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLM ๊ธฐ๋ฐ ์์ด๋์ด ์์ฑ๊ณผ ์ฐ๊ตฌ ๋ณด์กฐ์ ๋ํ ์ด๋ก ์ ยท์ค์ฆ์ ๋ฆฌ๋ทฐ๋ก, ์ฐ๊ตฌ์ ์ธ์ ์กฐ์ฌ ๊ฒฐ๊ณผ์ ๋ํ ํด์์ ์งํ์ ๋ํ์ค๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLMs as Research Tools ๋
ผ๋ฌธ์ ์ฐ๊ตฌ์์ LMM ๊ฐ ์ํธ์์ฉ/ํผ๋๋ฐฑ ์ค๊ณ์ ๊ด์ฌ์ด ์์ผ๋ฉฐ, InterFeedback์ ๋ํํ ์ํธ์์ฉ ํ๊ฐ์ ์ด๋ก ์ ๊ทผ๊ฑฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
508 ๋
ผ๋ฌธ์ ์ฐ๊ตฌ์๋ค์ LLM ํ์ฉ ์ค์ ์ฌ๋ก์ ์ธ์์กฐ์ฌ๋ฅผ ํตํด 074์์ ์ค๋ช
ํ๋ ๊ฐ ๋จ๊ณ๋ณ ์ ํฉ ๋๊ตฌ๋ค์ ํ์ฅ์ฑ, ํ์ฉ ํธ๋ ๋๋ฅผ ํต์ฐฐํ ์ ์๊ฒ ํด์ค๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ๊ธฐ๋ฐ ๊ธฐ์ ๊ณผ ํน์ฑ์ ์ค๋ช
ํ๋ ๊ธฐ์ด ์ฐ๊ตฌ์ด๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
508์ LLM ๊ธฐ๋ฐ ์ฐ๊ตฌ ๋๊ตฌ๋ฅผ ์ค์ ์ฐ๊ตฌ์๊ฐ ์ด๋ป๊ฒ ์ฌ์ฉ ์ค์ธ์ง ์กฐ์ฌํ์ฌ, 3256์ ๋์ฌ์ฒด ๋ถ์๊ณผ AI ํตํฉ ๊ฒฐ๊ณผ์ ์ค์ ์ฐ๊ตฌ์ํฉํธ ํ๊ฐ์ ์ฐธ๊ณ ํ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐ๊ตฌ์ ๊ด์ ์์ LLM ํ์ฉ ์คํ๋ฅผ ์ค๋ฌธ/์ค์ฆ์ ์ผ๋ก ์กฐ์ฌํ ์ ์ฌ ์ฐ๊ตฌ๋ก, ํ๋ณธ/๋ถ์ ์ฐจ์ด์ ๋ฐ๋ผ ์ํธ๋ณด์์ ์ธ์ฌ์ดํธ๋ฅผ ์ป์ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐ๊ตฌ์๋ค์ด LLM์ ์ฐ๊ตฌ ๋๊ตฌ๋ก ํ์ฉํ ๋ ์ธ๊ฐ์ ์ถ๋ก ๊ณผ์ ์ฐจ์ด ๋ฐ ์ค๋ฆฌ์ ์ธ์์ ๋๊ท๋ชจ๋ก ๋ถ์ํ ์ค์ฆ ์ฐ๊ตฌ๋ก, ์ธ๊ฐ-LLM ๋น๊ต๋ถ์์ ์ํธ์ฐธ๊ณ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ฐ๊ตฌ์ ๋์ LLM ํ์ฉ๋์ ํธ์์ฑ ๋ฑ ๋ค์ํ ๋๊ตฌ ๋น๊ต ์ฐ๊ตฌ๋ก, ๋๊ตฌ๋ณ ์ค์ง์ ์ฌ์ฉ ๊ฒฝํ์ ๋ณด์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
444 ๋
ผ๋ฌธ์ AI ์ ์ ์ค๋ฆฌ ์ธ์, 508์ ์ค์ LLM ์ฐ๊ตฌ ํ์ฉ ํํ๋ฅผ ์ค์ฆ์ ์ผ๋ก ์กฐ์ฌํด, ํ๊ณ์ ์ธ์-์ค์ ์ฐจ์ด์ ๋ํ ๋น๊ต ๋
ผ์๊ฐ ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLMs as Research Tools๋ AlphaFold ๋ฑ AI ๋๊ตฌ๊ฐ ์ ์ฒด ๊ณผํ์ ์ฐ๊ตฌ ์ค์ฒ์ ๋ฏธ์น๋ ์ํฅ ์กฐ์ฌ ์ฐ๊ตฌ๋ก, 3130์ ๊ตฌ์กฐ์๋ฌผํ ๋ถ์ผ๋ฅผ ๋์ด broader impact๋ฅผ ์กฐ๋งํ๋ค.
ํ์ ์ฐ๊ตฌ
LLM์ด ์ธ๋ฅํ ํ
์คํธ ๊ฒ์ ๋ฑ ์ค์ ์ฐ๊ตฌ ์ฐฝ์ ๋ฐ ํ์
์ ์ ์ฉ๋๋ ์ฌ๋ก๋ก, ์ค์ฌ์ฉ์ ๊ด์ ์ LLM ํ์ฉ ๋
ผ์๊ฐ ๊ตฌ์ฒดํ๋๋ค.
ํ์ ์ฐ๊ตฌ
โLLMs as Research Toolsโ ์ฐ๊ตฌ์ ์ค๋ฌธ์ ์ค์ LLM ๊ธฐ๋ฐ ๋๊ตฌ ์ฌ์ฉ์ ๋ฌธ์ ์ ์ธ์, ๊ธฐ๋ํจ๊ณผ๋ฅผ ๋ถ์ํ์ฌ OverleafCopilot ๋๊ตฌ ์ฌ์ฉ ๋งฅ๋ฝ๊ณผ ์ฌ์ฉ์ ์์ฉ์ฑ์ ๋น๊ตํ ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
์ฐ๊ตฌ์ ์ง๋จ์์ LLM๊ณผ ์ธ๊ฐ์ ์ธ์ยท์ฑ๊ณผ ๋น๊ต ์กฐ์ฌ๋, ์ค์ LLM๊ณผ ์ธ๊ฐ ์ ๋ฌธ๊ฐ ์ง๋จ ๊ฐ ์ฑ๋ฅ ์ฐจ์ด ๋ถ์๊ณผ ์ง๊ฒฐ๋๋ค.
ํ์ ์ฐ๊ตฌ
๊ธ๋ก๋ฒ ๊ท๋ชจ๋ก ์ฐ๊ตฌ์ ๋์ LLM ๋๊ตฌ ํ์ฉ ๋ฐ ์ธ์์ ๋ํ ๋ณด๋ค ์ฒด๊ณ์ ๋ถ์์ ์ ๊ณตํ์ฌ, ์ค์ ์ฌ์ฉํํฉ ํ์
์ ๊ธฐ์ฌํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
611 ๋
ผ๋ฌธ์ LLM ์ฌ์ฉ์ด ์ ์ ์ง๋จ๋ณ๋ก ์ค์ ๊ณผ์
์ํฅ์ ๋ฏธ์น๋ ์ ๋์ ํจ๊ณผ๊น์ง ๋ค๋ฃจ๋ฉฐ, 508์์ ์ ์ํ ์ธ์/๋ถํ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ฒดํํ๋ค.
ํ์ ์ฐ๊ตฌ
508 ๋
ผ๋ฌธ์ LLM ํ์ฉ์ ๋ํ ์ฐ๊ตฌ์ ๋๊ท๋ชจ ์ค๋ฌธ์ ํตํด, 444์ AI ๋
ผ๋ฌธ์์ฑ ์ค๋ฆฌ์ฑ ์ธ์๊ณผ ์ค์ ์ฌ์ฉ ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ธต์ ์ผ๋ก ์ ๊ณตํ๋ค.
์์ฉ ์ฌ๋ก
LLM์ ์ฐ๊ตฌ ๋๊ตฌ๋ก ์ฌ์ฉํ๋ ๊ธ๋ก๋ฒ ์ฐ๊ตฌ์ ์คํ์กฐ์ฌ๋ฅผ ๋ถ์ํ์ฌ, ์ค์ ๊ณผํ๋ฌธํ ๊ฒํ ๋ฐ ํ์ฉ ํ์ฅ์ ๋ฌธ์ ์ ์ฐ๊ณํด๋ณผ ์ ์์ต๋๋ค.
์์ฉ ์ฌ๋ก
์ฐ๊ตฌ์ ์ค๋ฌธ์ ํตํด ์ค์ ํ์ฅ์์ AI ํ์ฉ์ ๋ํ ์ธ์ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ, AI-์ธ๊ฐ ํ๋ ฅ์ ํ์ค์ ๋งฅ๋ฝ์ ์ ๊ณตํฉ๋๋ค.
๋ฐ๋ก /๋นํ
์ฐ๊ตฌ์ LLM ๋๊ตฌ ํ์ฉ ์ํฅ์ ๋ํ ์ธ์ ์กฐ์ฌ ๊ฒฐ๊ณผ์ LLM ์ฌ์ฉ์ ์ธ์ง ๋ถ์ฑ(accumulated cognitive debt) ๊ฒฝ๊ณ ์ฌ๋ก๋ฅผ ํจ๊ป ๊ณ ์ฐฐํ ์ ์์ต๋๋ค.