Essence
Figure 1: An instance in the SciDQA dataset. The ques-
์ด ๋
ผ๋ฌธ์ OpenReview์ ํผ์ด ๋ฆฌ๋ทฐ์์ ์ถ์ถํ ์ง๋ฌธ๊ณผ ์ ์ ๋ต๋ณ์ ๊ธฐ๋ฐ์ผ๋ก 2,937๊ฐ์ QA ์์ผ๋ก ๊ตฌ์ฑ๋ SCIDQA ๋ฐ์ดํฐ์
์ ์ ์ํ๋ค. ๊ธฐ์กด scientific QA ๋ฐ์ดํฐ์
๊ณผ ๋ฌ๋ฆฌ ํ๋ฉด์ ์ ๋ณด๊ฐ ์๋ ์ฌ์ธต์ ์ดํด๋ฅผ ์๊ตฌํ๋ ์ง๋ฌธ๋ค์ ํฌํจํ๋ฉฐ, ๊ทธ๋ฆผยทํยท์์ยท๋ค๋ฌธ์ ์ถ๋ก ๋ฑ์ ํฌํจํ ๋ณต์กํ ๊ณผํ ๋ฌธํ ์ดํด ๋ฅ๋ ฅ์ ํ๊ฐํ๋๋ก ์ค๊ณ๋์๋ค.
Achievement
Figure 2: Dataset curation pipeline for SCIDQA. LLM-
๋ฐ์ดํฐ์
๊ตฌ์ถ: ํผ์ด ๋ฆฌ๋ทฐ ๊ธฐ๋ฐ ์์ฐ ํ์ QA ์ 2,937๊ฐ ๊ตฌ์ฑ, ๊ธฐ์กด ๋ฐ์ดํฐ์
๋๋น ํ๊ท ์ง๋ฌธ ๊ธธ์ด 23.92 ๋จ์ด, ๋ต๋ณ ๊ธธ์ด 104.67 ๋จ์ด๋ก ์๋นํ ๊ธธ๊ณ ๋ณต์กํจ / ํ์ง ๊ด๋ฆฌ: 7,000๊ฐ ์ธ์คํด์ค ๊ฒํ ๋ก 41% ๊ด๋ จ์ฑ ๋ฌ์ฑ, ๋๋ฉ์ธ ์ ๋ฌธ๊ฐ 2๋ช
์ด 85% inter-annotator agreement ํ๋ณด / ๋ฐ์ดํฐ์
๋ค์์ฑ: ์ฝ 11%์ ์ง๋ฌธ์ด ๋ค์ค ๋ฌธ์ ์ถ๋ก ํ์, ๊ทธ๋ฆผยทํยท์์ ์ดํด ํฌํจ / LLM ํ๊ฐ: ์ฌ๋ฌ LLM์ ์ฑ๋ฅ ํธ์ฐจ ์๋ณ ๋ฐ ๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ ์ ์
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: SCIDQA๋ scientific QA ๋ฒค์น๋งํน ๋ถ์ผ์์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ๋ค. ํผ์ด ๋ฆฌ๋ทฐ ๊ธฐ๋ฐ์ ์์ฐ ํ์ ๋ฐ์ดํฐ, domain experts ๊ฐ์ ์ค์ ์ํธ์์ฉ, ๊ทธ๋ฆฌ๊ณ ์ฌ์ธต ์ดํด๋ฅผ ์๊ตฌํ๋ ์ค๊ณ๊ฐ ๊ฐ์ ์ด๋ค. ๋ค๋ง ๊ท๋ชจ๊ฐ ์ ํ์ ์ด๊ณ ML/DL ๋ถ์ผ์๋ง ๊ตญํ๋์ด ์์ผ๋ฉฐ, annotation ๋น์ฉ์ผ๋ก ์ธํ ์์ ์ฑ ๋ถ์กฑ์ด ์ฝ์ ์ด๋ค. ์ ๋ฐ์ ์ผ๋ก high-quality ๋ฆฌ์์ค๋ก์ ๊ณผํ ๋
ผ๋ฌธ ์ดํด ์ฐ๊ตฌ๋ฅผ ์ด์งํ ์ ์ฌ๋ ฅ์ด ์ถฉ๋ถํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
SciBERT๋ ๊ณผํ ๋
ผ๋ฌธ ๊ธฐ๋ฐ ์ฌ์ ํ์ต ๋ชจ๋ธ๋ก, Scidqa์ ๊ฐ์ ๊ณผํ ํ
์คํธ QA ๋ฒค์น๋งํฌ์ ํ์์ ์ธ ์ธ์ด๋ชจ๋ธ ์ธํ๋ผ ์ญํ ์ ํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
SciReviewGen์ ๋ค์ค ๋ฌธ์ ์์ฝ ๋ฐ ์ง์์๋ต๊ณผ ๊ด๋ จ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์ ์ ๊ณตํ์ฌ, Scidqa์ ์ฌ์ธต ๊ณผํ ํ
์คํธ ์ดํด ๋ฐ์ดํฐ ์์ฑ ๋ฐ ํ๊ฐ ํ๋ ์์ํฌ์ ๊ธฐ๋ฐ์ด ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
715๋ฒ ๋
ผ๋ฌธ์ ๋ฆฌ๋ทฐ์ ๊น์ ์ดํด๋ฅผ ์ํ ์ฝ๊ธฐ ๋ฐ ์ดํด ๋ฐ์ดํฐ์
์ ์ ๊ณตํ๋ฉฐ, 739๋ฒ์ ๋ฆฌ๋ทฐ ์ฝ๋ฉํธ ์๋ ๋ถ์๊ณผ ์ฐ๊ฒฐ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Scidqa ๋ฒค์น๋งํฌ๊ฐ ๋ค์ค ๋ฌธ์ยท๋ณต์กํ ๊ณผํ ํ
์คํธ ์ดํด๋ฅผ ๋ค๋ฃฌ๋ค๋ฉด, SciFIBench๋ ์ด๋ฅผ ๋ฉํฐ๋ชจ๋ฌ ๊ทธ๋ฆผ ์์ญ๊น์ง ํ์ฅํ์ฌ ์ฐ๊ฒฐ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๊ณผํ์ ๋
ํด์ ์ง์์๋ต ๊ธฐ๋ฅ์ด ๊ฒฐํฉ๋ ๋จ๋ฐฑ์ง-์ฝ๋ฌผ ์ํธ์์ฉ ๊ธฐ๋ฐ์ ์ง๋ฌธ ์๋ต ๋ฒค์น๋งํฌ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ธ์ด๋ชจ๋ธ์ ๋
ํด ์ดํด ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋์ ์ ์ธ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ ๊ด๋ จ ๋
ผ๋ฌธ์ด๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciBench(706)๋ ๋ํ ์์ค์ ๊ณผํ ๋ฌธ์ ํด๊ฒฐ๋ ฅ ํ๊ฐ์ฉ ๋ฒค์น๋งํฌ๋ก, SCIDQA์ ๋ฌ๋ฆฌ ๋ฌธ์ ์ ํ ๋ฐ ๋ฒ์์ ์ฐจ๋ณ์ฑ์ด ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
715๋ ๊ณผํ์ ์ฌ์ธต ์ฝ๊ธฐ ์ง์์๋ต ๋ฐ์ดํฐ์
์ผ๋ก, 488์ SciQA์ ๋ฌ๋ฆฌ ์์ฐ์ด ์ง์ ์๋ต์ ๋์ด๋๋ฅผ ๋ณ๋๋ก ์คํํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SciPIP๋ LLM ๊ธฐ๋ฐ ๊ณผํ ๋
ผ๋ฌธ ์์ด๋์ด ์ ์ ๋ฐ ์ง์์๋ต์ ์ด์ ์ ๋์ด, Scidqa์ ๋
ผ๋ฌธ ์ถ๋ก ํ QA์ ๋ค๋ฅธ ๊ด์ ์ ๊ณผํ ๋ฌธ์ ์๋ํ ๋ฐฉ๋ฒ๋ก ์ ๋ณด์ฌ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
715๋ ๊ณผํ ๋
ผ๋ฌธ ๊ธฐ๋ฐ ๋ฅ ๋ฆฌ๋ฉ ์ง์์๋ต ๋ฐ์ดํฐ์
์ ๊ณต์ ์ง์คํ๋ฉฐ, 730์ ์๋ QA ์ ์์ฑ ์ ๊ทผ๊ณผ ๋น๊ต๋ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋
ผ๋ฌธ ๊ธฐ๋ฐ ๋ฅ ์ง์์๋ต ๋ฐ์ดํฐ์
์ผ๋ก, openscholar์ ์ ์ฌํ QA ํ
์คํฌ์์ ๋ชจ๋ธ ๊ฒ์ฆ์ ํ์ฉํ ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
Scicueval ๋
ผ๋ฌธ์ SCIDQA์ ๋ฌ๋ฆฌ ๊ณผํ ๋ถ์ผ LLM QA์ ์ ๋ขฐ์ฑ ํ๊ฐ์ ์ค์ ์ ๋์ด ๋ฌธํญ ๊ตฌ์ฑ ๋ฐ ํ๊ฐ ์งํ์์ ๋์กฐ ์๋ฃ๊ฐ ๋ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ง๊ตฌ๊ณผํ ๋๋ ํ๊ฒฝ๊ณผํ ๋ถ์ผ์ LLM ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์ ์ฌํ ๋ฒค์น๋งํฌ ์ฐ๊ตฌ์ด๋ค
ํ์ ์ฐ๊ตฌ
SciFIBench ์ญ์ ๋
ผ๋ฌธ ๋ด ๊ทธ๋ฆผยท๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด ํด์ ํ๊ฐ๋ฅผ ํตํด, ํ
์คํธ QA๋ฅผ ๋์ด์ ๊ณผํ์ ๋ฌธํ ์ดํด๋ ฅ ์ธก์ ์ ํ์ฅํ๋ค.
์์ฉ ์ฌ๋ก
Scholawrite๋ ์ค์ ํ์ ๊ธ์ฐ๊ธฐ ํ๋ก์ธ์ค์ ๋ฐ์ดํฐ์
๊ตฌ์ถ์ ์ด์ ์ ๋ง์ถ์ด, ์ฌ์ธต ๋
ผ๋ฌธ ์ดํด ๋ฐ ์ง์์๋ต ๋ชจ๋ธ์ ์ค์ ์ ์ฉ์ ๋ณด์ฌ์ค๋ค.
์์ฉ ์ฌ๋ก
Select, read, and write ๋
ผ๋ฌธ์ SCIDQA์์ ์ ์ํ ๋ค๋ฌธ์/๋คํ ๋ฑ ๋ณต์ก ์ง๋ฌธ์๋ต์ ํ๊ธฐ ์ํ LLM ๊ธฐ๋ฐ ๋ฉํฐ์์ด์ ํธ ํ๋ ์์ํฌ ์์ฉ์ฌ๋ก๋ฅผ ๋ค๋ฃน๋๋ค.
์์ฉ ์ฌ๋ก
Scidqa๋ ๊ณผํ ๋
ผ๋ฌธ ๋ด ์ฌ์ธต์ ํ
์คํธโ๊ทธ๋ฆผ ๋งฅ๋ฝ ๋ถ์์ ํตํด ์บก์
์์ฑ ๋ชจ๋ธ ํ๊ฐ ๊ด์ ์์ MLBCAP์ ํ์ฅ ์์ฉ์ฌ๋ก๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค.