S2ORC: The Semantic Scholar Open Research Corpus

์ €์ž: Kyle Lo, Lucy Lu Wang, Mark Neumann, Rodney Kinney, Daniel Weld | ๋‚ ์งœ: 2020 | DOI: 10.18653/v1/2020.acl-main.447 📄 PDF


Essence

Figure 1

Figure 1: Inline citations and references to ๏ฌgures and

81.1M ํ•™์ˆ  ๋…ผ๋ฌธ์˜ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ, ์ดˆ๋ก, ์ธ์šฉ ์ •๋ณด์™€ 8.1M ์˜คํ”ˆ ์•ก์„ธ์Šค ๋…ผ๋ฌธ์˜ ๊ตฌ์กฐํ™”๋œ ์ „์ฒด ํ…์ŠคํŠธ๋ฅผ ํฌํ•จํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ๊ณต๊ฐœ ํ•™์ˆ  ์ฝ”ํผ์Šค(S2ORC)๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค.

Motivation

Achievement

Figure 1

Figure 1: Inline citations and references to ๏ฌgures and

How

Figure 1

Figure 1: Inline citations and references to ๏ฌgures and

Originality

Limitation & Further Study

Evaluation

Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5

์ดํ‰: S2ORC๋Š” ํ•™์ˆ  ํ…์ŠคํŠธ์— ๋Œ€ํ•œ ๊ธฐ์กด ์ฝ”ํผ์Šค์˜ ๊ทœ๋ชจ, ๊ตฌ์กฐํ™”, ํ•™์ œ ๊ฐ„ ํฌ๊ด„์„ฑ์˜ ํ•œ๊ณ„๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ๊ทน๋ณตํ•˜๋Š” ๋Œ€๊ทœ๋ชจ ๊ณต๊ฐœ ์ž์›์œผ๋กœ, NLP ๋ฐ ๋ฌธํ—Œ ๋ถ„์„ ์—ฐ๊ตฌ์— ์ง€๋Œ€ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค.

๊ฐ™์ด ๋ณด๋ฉด ์ข‹์€ ๋…ผ๋ฌธ

๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
S2ORC์™€ ์—ฐ๊ด€๋œ ๋Œ€๊ทœ๋ชจ ๊ณต๊ฐœ ์ฝ”ํผ์Šค ๊ตฌ์ถ• ๋ฐ ํ™œ์šฉ ๋ฐฉ์•ˆ์„ ๋‹ค๋ฃจ๋Š” ๋…ผ๋ฌธ์œผ๋กœ ๋ฐ์ดํ„ฐ์…‹ ํ™•์žฅ์— ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
S2ORC ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ํ•™์ˆ  ๋…ผ๋ฌธ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์ถ•ยท๊ฐœ๋ฐฉํ•˜์—ฌ OAG-Bench ๋ฒค์น˜๋งˆํฌ์˜ ๋ฐ์ดํ„ฐ์  ๊ธฐ๋ฐ˜์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
S2ORC ์˜คํ”ˆ ์—ฐ๊ตฌ ์ฝ”ํผ์Šค๊ฐ€ ๋Œ€๊ทœ๋ชจ scientometric ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์˜ ๋ฐฉ๋ฒ•๋ก ์  ์„ ๋ก€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋Œ€๊ทœ๋ชจ ํ•™์ˆ  ์ฝ”ํผ์Šค ๊ตฌ์ถ•์˜ ๋ฐฉ๋ฒ•๋ก ์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๊ณผํ•™ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ๊ณผ ๊ฒ€์ƒ‰์„ ์œ„ํ•œ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ์ธํ”„๋ผ๋ฅผ ์ œ๊ณตํ•˜๋Š” ๊ธฐ์ดˆ ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
Named Entity Recognition๊ณผ entity linking์„ ๊ฒฐํ•ฉํ•œ ์ƒ๋ฌผ์ •๋ณดํ•™ ํ…์ŠคํŠธ ๋งˆ์ด๋‹์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ
๋Œ€๊ทœ๋ชจ ํ•™์ˆ  ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์ธ์šฉ ์ถ”์ฒœ ์‹œ์Šคํ…œ์˜ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ์ธํ”„๋ผ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ ํ•™์ˆ  ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ๊ตฌ์กฐํ™”์— ๋Œ€ํ•œ ์œ ์‚ฌํ•œ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•˜๋Š” ๋Œ€์•ˆ์  ์ฝ”ํผ์Šค ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
์ธ์šฉ ์ถ”์ฒœ ์‹œ์Šคํ…œ์˜ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋ก ์„ ๋‹ค๋ฃจ๋Š” ์œ ์‚ฌํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๋Œ€๊ทœ๋ชจ ํ•™์ˆ  ๋ฐ์ดํ„ฐ ์ฝ”ํผ์Šค๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ๊ตฌ์ถ•ํ•˜๊ณ  ์ œ๊ณตํ•˜๋Š” ๋Œ€์•ˆ์  ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
๊ณผํ•™ ๋ฌธํ—Œ์˜ ์ž๋™ํ™”๋œ ๋ถ„์„ ๋ฐ ํ’ˆ์งˆ ๊ฒ€์‚ฌ๋ฅผ ์œ„ํ•œ ์œ ์‚ฌํ•œ ๊ธฐ์ˆ ์  ์ ‘๊ทผ๋ฒ•์„ ์ทจํ•˜๋Š” ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•™์ˆ  ๋…ผ๋ฌธ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ์™€ ์ธ์šฉ ์ •๋ณด๋ฅผ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ํ†ตํ•ฉํ•œ ๋ฐ์ดํ„ฐ์…‹ ์—ฐ๊ตฌ์ด๋‹ค.
๋‹ค๋ฅธ ์ ‘๊ทผ
ํ•™์ˆ  ๋ฌธํ—Œ ๋ฐœ๊ฒฌ๊ณผ ๋ถ„์„์„ ์œ„ํ•œ AI ๊ธฐ๋ฐ˜ ๋„๊ตฌ๋ฅผ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•์œผ๋กœ ๊ตฌํ˜„ํ•œ ์—ฐ๊ตฌ์ด๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
S2ORC๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๊ฑฐ๋‚˜ ์œ ์‚ฌํ•œ ๋Œ€๊ทœ๋ชจ ํ•™์ˆ  ์ฝ”ํผ์Šค๋ฅผ ํ™œ์šฉํ•œ ์—ฐ๊ตฌ๋กœ ์ง์ ‘์ ์œผ๋กœ ์—ฐ๊ด€๋œ๋‹ค.
ํ›„์† ์—ฐ๊ตฌ
ํ•™์ˆ  ๋ฌธํ—Œ ๋ฐ์ดํ„ฐ๋ฅผ NLP ๋ฐ ์ •๋ณด ์ถ”์ถœ์— ํ™œ์šฉํ•˜๋Š” ํ™•์žฅ ์‘์šฉ ์—ฐ๊ตฌ์ด๋‹ค.
์‘์šฉ ์‚ฌ๋ก€
S2ORC์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ํ•™์ˆ  ์ฝ”ํผ์Šค๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์‹ค์ œ ์—ฐ๊ตฌ ๋ฌธ์ œ์— ์ ์šฉํ•œ ์‚ฌ๋ก€์ด๋‹ค.
← ๋ชฉ๋ก์œผ๋กœ ๋Œ์•„๊ฐ€๊ธฐ

๐ŸŽง Audio Overview

์ด ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํŒŸ์บ์ŠคํŠธํ˜• ์˜ค๋””์˜ค๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. (Gemini ยท ํ‚ค๋Š” ๋ธŒ๋ผ์šฐ์ €์—๋งŒ ์ €์žฅ ยท ์™„์„ฑ๋ณธ์€ ์ด๋ฉ”์ผ๋กœ๋„ ์ „์†ก)
โ–ธ ๊ณ ๊ธ‰: ๊ตฌ์„ฑ ๋ฐฉํ–ฅ(๋Œ€๋ณธ ์ž‘์„ฑ ์ง€์นจ) ์ง์ ‘ ์ˆ˜์ •