Essence
์ผ๋ฐ์ ์ธ ์๋ ํฉํธ์ฒดํน(AFC) ํ์ดํ๋ผ์ธ: ์ฃผ์ฅ ๊ฒ์ฆ์ฑ ํ์ง โ ์ฆ๊ฑฐ ๊ฒ์ ๋ฐ ์ ํ โ ์ง์ ํ์ โ ์ ๋นํ ์์ฑ
๋ณธ ๋
ผ๋ฌธ์ ์๋ ํฉํธ์ฒดํน ์์คํ
์์ ํ์ ๊ฒฐ๊ณผ๋ฅผ ์ค๋ช
ํ๊ธฐ ์ํ ์ ๋นํ(justification) ์๋ ์์ฑ์ ์ด์ ์ ๋ง์ถ ์ข
ํฉ ์๋ฒ ์ด๋ก, ์ต๊ทผ ํธ๋์คํฌ๋จธ์ ๋ํ์ธ์ด๋ชจ๋ธ(LLM) ๋ฐ์ ์ ๋ฐ๋ฅธ ์ค๋ช
๊ฐ๋ฅํ ํฉํธ์ฒดํน์ ์งํ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๊ณ ์ ๋นํ ํ์คํ๋ฅผ ์ํ ๋ค์ฐจ์ ๋ถ๋ฅ์ฒด๊ณ๋ฅผ ์ ์ํ๋ค.
How
AFC ํ์ดํ๋ผ์ธ์ 4๋จ๊ณ ๊ตฌ์ฑ:
- ์ฃผ์ฅ ๊ฒ์ฆ์ฑ ํ์ง (3.1): ์ฃผ์ฅ์ ์ค์๋, ๊ฒ์ฆ ๊ฐ๋ฅ์ฑ, ์ ์ฌ์ ํด์
์ฑ ํ๋จ
- ์ฆ๊ฑฐ ๊ฒ์ ๋ฐ ์ ํ (3.2): ์ ๋ขฐํ ์ ์๋ ์ถ์ฒ์์ ๊ด๋ จ ์ฆ๊ฑฐ ์์ง
- ์ง์ ํ์ (3.3): ์ด์ง(์ฐธ/๊ฑฐ์ง) ๋๋ ์ธ๋ถํ๋ ๋ค์ค ๋ถ๋ฅ(๋ถ๋ถ์ ์ฐธ, ์ค๋์ ๋ฑ)
- ์ ๋นํ ์์ฑ (3.4): ํ์ ๊ทผ๊ฑฐ๋ฅผ ์์ฐ์ธ์ด๋ก ์ค๋ช
์ฃผ์ ์ ๋นํ ์์ฑ ์ ๊ทผ๋ฒ:
- ์ดํ
์
๊ธฐ๋ฐ(Attention-based): ์ฆ๊ฑฐ์ ์ฃผ์ฅ ๊ฐ ๊ด๊ณ์์ ๋์ ์ดํ
์
์ค์ฝ์ด ๋ถ๋ถ ๊ฐ์กฐ
- ์ง์๊ทธ๋ํ ๊ธฐ๋ฐ(Knowledge Graph-based): ๊ทธ๋ํ ๊ตฌ์กฐ๋ก ์ฆ๊ฑฐ ํํ, ์ ํ๋ ๋
ธ๋๋ฅผ ์ ๋นํ๋ก ํ์ฉ
- ์์ฝ ๊ธฐ๋ฐ(Summarization-based): ๊ด๋ จ ์ฆ๊ฑฐ๋ฅผ ์์ฐ์ธ์ด ํ
์คํธ๋ก ์์ฝ
- ๋ฉํฐํ ๊ธฐ๋ฐ(Multi-hop based): ์ฃผ์ฅ์ ๋ถ๋ถ์ผ๋ก ๋ถํดํ์ฌ ์์ฐจ์ ๊ฒ์ฆ
- LLM ๊ธฐ๋ฐ(RAG/Fine-tuning): ํ๋กฌํํ
์ ํตํ LLM ํ์ฉ
ํ์ค ์ ์ฅํ๋ฅผ ์ํ ํ๊ฐ ์งํ:
- ์ ์ญ ์ผ๊ด์ฑ(global coherence): ์ ๋นํ์ ์ฃผ์ฅ, ํ์ ๋ ์ด๋ธ์ ๊ด๋ จ์ฑ
- ์ง์ญ ์ผ๊ด์ฑ(local coherence): ์ ์ฅ ๋ด ๋ฌธ์ฅ ๊ฐ ๋ชจ์ ๋ถ์ฌ
Evaluation
์ดํ: ์ด ์๋ฒ ์ด๋ ์๋ ํฉํธ์ฒดํน์ ์ค๋ช
๊ฐ๋ฅ์ฑ ํฅ์์ด๋ผ๋ ์์์ ์ ํ ์ฃผ์ ๋ฅผ ๋ค๋ฉด์ ๋ถ๋ฅ์ฒด๊ณ๋ก ์ ๋ฆฌํ ์ ์ฉํ ์ฐธ๊ณ ์๋ฃ์ด๋, ์ ์ฅํ ํ์คํ์ ๊ตฌ์ฒด์ ๊ธฐ์ ์ ์ง์ ๊ณผ ์ค์ ๋ฒค์น๋งํน ๊ฒฐ๊ณผ ๋ถ์์ ํตํด ๋์ฑ ๊ฐํ๋ ์ ์์ ๊ฒ์ผ๋ก ํ๋จ๋๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
827๋ฒ ๋
ผ๋ฌธ์ ์ฃผ์ฅ ์ถ์ถ ๋ฐ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ 124์ ํฉํธ์ฒดํน ์ ๋นํ ์๋์์ฑ ๋
ผ์์ ๊ธฐ์ด ์๋ฃ๊ฐ ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Transforming Science with Large Language Models ๋
ผ๋ฌธ์ LLM์ด ๊ณผํ์ ์ฆ๊ฑฐ์ ์ค๋ช
์ ์ด๋ป๊ฒ ๋ง๋ค๊ณ ์งํํ๋์ง ๊ฐ๊ด์ ์ผ๋ก ์ค๋ช
ํ์ฌ, ์ ๋นํ ์์ฑ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Automated justification production for claim veracity in fact checking์ ML ๊ธฐ๋ฐ ์์ธก ๊ฒฐ๊ณผ์ ๋ํ ์ค๋ช
๋ฐ ํด์ ๊ฐ๋ฅ์ฑ ์ฐ๊ตฌ๋ก, ํผํฉ ์ ๊ฒฝ๋ง ๋ชจ๋ธ ์์ธก์ ์ค์ฉ์ ํด์ ํ์์ฑ๊ณผ ์ฐ๊ณ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
124๋ fact-checking ๋ฐ claim veracity explanation ์๋ํ ๊ธฐ๋ฒ์ ๋ค๋ฃจ์ด, 3024 ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ reasoning์์์ '์ค๋ช
๊ฐ๋ฅ์ฑ' ๊ธฐ์ ์ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
What Can NLP Do for Peer Review? ๋
ผ๋ฌธ์ LLM์ ๋ฆฌ๋ทฐ ์์ฑยท์ ๋นํ ์ญํ ์ ๋ํ ํํฉ์ ๋ค๋ฅธ ์๊ฐ์์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
ํ๋ก๊ทธ๋จ ๊ธฐ๋ฐ ํฉํธ์ฒดํน ์๋ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, ์ ๋นํ ์ค๋ช
์์ฑ ๊ธฐ๋ฒ์ ์์ฉ๊ณผ ์๋ํ ๊ฐ๋ฅ์ฑ์ ์ค์ฆํ๋ค.
ํ์ ์ฐ๊ตฌ
ํฉํธ์ฒดํน ์ค๋ช
์๋ํ์ justification ํ์คํ ์ด์๋ฅผ ๋ค๋ฃจ๋ฉฐ, TrendFact ๋ฒค์น๋งํฌ์ ํ๊ฐ ๊ธฐ์ค ๋ฐ ํ๋ ์์ํฌ ๊ณ ๋ํ ๋ฐฉํฅ์ ์ ์ํ๋ค.
ํ์ ์ฐ๊ตฌ
ReviewEval ๋
ผ๋ฌธ์ AI๊ฐ ์์ฑํ ๋ฆฌ๋ทฐ์ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ฉฐ, ์ ๋นํ ์๋์์ฑ ์์คํ
๊ฒฐ๊ณผ์ ํ์ง ๊ฒ์ฆ์ ์ฐธ๊ณ ํ ๋งํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
124๋ฒ ๋
ผ๋ฌธ์ ํฉํธ์ฒดํน ๊ฒฐ๊ณผ์ ์ ๋นํ ์๋ ์์ฑ์ ์ง์ค๋์ด ์์ด 827์ ์ฃผ์ฅ ์ถ์ถยทํ๊ฐ ํ๋ ์์ํฌ์ ์๋์ง๋ฅผ ์ด๋ฃจ๋ฉฐ ์ฝ์ ์ ์์ต๋๋ค.
๋ฐ๋ก /๋นํ
541๋ฒ ๋
ผ๋ฌธ์ ๋ฐ์ฆ ์ฆ๊ฑฐ ๋ถ์ฌ์ ํ๊ณ๋ฅผ ์ง์ํ๊ฒ ๋นํํ์ฌ 124์์ ์ ์ํ๋ ์ ๋นํ ์๋ํ์ ์คํจ์ฑยทํ๊ณ๋ฅผ ์ ๊ฒํ ๋ ์ฐธ๊ณ ํด์ผ ํฉ๋๋ค.