Essence
Fig. 1: Overview of the selective prediction framework for molecular structure retrieval from tandem
์ง๋๋ถ์๊ธฐ ์คํํธ๋ผ์์ ๋ถ์ ๊ตฌ์กฐ๋ฅผ ๊ฒ์ํ ๋ ์ด๋ค ์์ธก์ ์ ๋ขฐํ ์ ์๋์ง ํ๋จํ๊ธฐ ์ํด ์ ํ์ ์์ธก(selective prediction) ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ , ๋ถํ์ค์ฑ ์ ๋ํ ์ ๋ต์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ์ง๋๋ถ์ ๊ธฐ๋ฐ ๋ถ์ ์๋ณ์ ์ ๋ขฐ์ฑ ๋ฌธ์ ๋ฅผ ์ ํ์ ์์ธก์ผ๋ก ์ฒ์ ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฃจ๋ฉฐ, ์ค์ฆ์ ๋ถ์์ ํตํด ๊ณ์ฐ ํจ์จ์ฑ๊ณผ ํต๊ณ์ ๋ณด์ฆ์ ์ค์ฉ์ ๊ท ํ์ ์ ์ํ ์ฐ์ํ ์ฐ๊ตฌ์ด๋ค. ์์/ํ๊ฒฝ ์์ฉ์ ์์ ์ฑ ์๊ตฌ๋ฅผ ์ถฉ์กฑํ๋ uncertainty-aware ํ๋ ์์ํฌ์ ๋ชจ๋ฒ์ด ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
์์ฒด ๋ถ์ ์ํธ์์ฉ ๋ฐ ๊ตฌ์กฐ ์์ธก ์ ํ์ฑ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๋ ๋
ผ๋ฌธ์ผ๋ก, ๊ตฌ์กฐ ์์ธก์ ์ ๋ขฐ์ฑ ์ฒ๋ ๋ฐ ์ ํ์ ์์ธก ๊ฐ๋
์ ์ด๋ก ์ ์ผ๋ก ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
665๋ฒ ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์๋ ๋ฆฌ๋ทฐ ๋ฐ ์ ๋ขฐ์ฑ ํ๊ฐ์งํ ๊ฐ๋ฐ์ ๋ค๋ฃจ๋ฉฐ, 3283๋ฒ์ ์ ํ์ ์์ธก ํ๋ ์์ํฌ์ ํ๋น์ฑ ํ๊ฐ ๋ฐ ์ ๋ขฐ์ฑ ๋
ผ์์ ๊ธฐ์ด๋ฅผ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
๊ณผํ ๋จธ์ ๋ฌ๋์์์ ๋ถํ์ค์ฑ ์ ๋ํ ๋ฐฉ๋ฒ์ ๊ดํ ์ข
ํฉ ๋ฆฌ๋ทฐ๋ก, ๋ถ์ ๊ตฌ์กฐ ์ ๋ขฐ์ฑ ํ๋ณ์ ํ ์ ๊ทผ ๋ฐ ํ๊ณ๋ ํจ๊ป ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ง๋๋ถ์๊ธฐ ์์ฉ์ ๋ํ ์ ํ์ ์์ธก๊ณผ ๋ฌ๋ฆฌ, ๊ตฌ์กฐ ๊ธฐ๋ฐ ํ ํฌ๋์ด์ฆ๋ฅผ ํตํ ์์ธก ๋ฐ ์ค๊ณ์ ์ด์ ์ ๋ง์ถ ์ ๊ทผ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
Annotation์ ์ ๋ขฐ๋์ LLM ํ์ฉ๋ ์์ธก ๋ฌธ์ ๋ฅผ ์ค์ฆ์ ์ผ๋ก ๋ถ์ํ์ฌ 206๋ฒ์ ์๋ ์ฃผ์ ์ฐ๊ตฌ์ ๊น์ด๋ฅผ ๋ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
SciTrust๋ LLM ๊ธฐ๋ฐ ๊ณผํ ์์ธก์ ์ ๋ขฐ์ฑ ํ๊ฐ ์ฒด๊ณ๋ฅผ ์ ๊ณตํ์ฌ, ์ ํ์ ๋ถ์ ๊ตฌ์กฐ ์์ธก์ ์ ๋ขฐ์ฑ ํ๋จ ์ฐ๊ตฌ์ ์ง์ ์ ์ผ๋ก ์ฐ๊ด๋๋ค.
ํ์ ์ฐ๊ตฌ
โTrust, But Verifyโ ๋
ผ๋ฌธ์ ์๊ธฐ๊ฒ์ฆ ํ๋ ์์ํฌ๋ฅผ ํตํด ์์ธก ์ ๋ขฐ์ฑ ํ๋จ, ์ ํ์ ์์ธก์ ๊ทผ๋ณธ์ ๋ฐฉํฅ์ฑ๊ณผ ๋ง๋ฟ์ ์๋ค.
ํ์ ์ฐ๊ตฌ
๋จ๋ฐฑ์ง-๋ฆฌ๊ฐ๋ ์ํธ์์ฉ ์์ธก์ ์ฌ์ธต์ /์ง๊ต์ ํ๊ฐ๋ก ๋ณธ ๋
ผ๋ฌธ์ ๋ถํ์ค์ฑ ์ ๋ต์ ์ค์ ์ ํฉ๋๋ฅผ ํ๊ฐํ ์ ์์ต๋๋ค.
๋ฐ๋ก /๋นํ
397๋ฒ ๋
ผ๋ฌธ์ ํ๊ฐ(hallucination) ๋ถ์์ 3283๋ฒ์์ ๋ค๋ฃจ๋ ๋ถ์๊ตฌ์กฐ ์์ธก ์ ๋ขฐ๋ ํ๋จ์ ์์ด ์ ์ฌ์ ์ค๋ฅ ๋ฐ ์ผ๋ฐํ ๋ฌธ์ ์ ๋ํ ๋นํ์ ๊ด์ ์ ์ ์ํฉ๋๋ค.