Essence
๋ค์ค ๊ด์ ์๋ฒ ๋ฉ์ ํตํ LLM ์์ฑ ์ฝํ
์ธ ์ ๋ค์์ฑ๊ณผ ์ ๊ท์ฑ ํฅ์ ๊ฐ์
๋ณธ ๋
ผ๋ฌธ์ ์ถ๋ก ์์ (inference-time)์ ํ
์คํธ์ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ๋ค์ค ๊ด์ (multi-view) ์๋ฒ ๋ฉ์ ํ์ฉํ์ฌ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ด ์์ฑํ๋ ์ฝํ
์ธ ์ ๋ค์์ฑ๊ณผ ์ ๊ท์ฑ์ ๊ฐ์ ํ๋ ์ํคํ
์ฒ ๋ฌด๊ด(model-agnostic) ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
How
ํ
์คํธ ๋ค์ค ๊ด์ ์๋ฒ ๋ฉ ํ๋ก์ธ์ค
์ด๋ฏธ์ง ๊ธฐ๋ฐ ๊ด์ ์์ฑ ๋ฐ ์ค๋ช
๊ฐ์ ํ๋ก์ธ์ค
1. ๋ค์ค ๊ด์ ์๋ฒ ๋ฉ
ํ
์คํธ ๊ด์ ์๋ฒ ๋ฉ (Text View Embedding)
- ์
๋ ฅ ํ๋กฌํํธ์ ๋ํด GPT-4o๋ฅผ ์ฌ์ฉํ์ฌ n=50๊ฐ์ ๋ค์ํ ๊ด์ ์์ฑ
- ์ธํฐ๋ท, ์๋ ์
๋ ฅ, ๋๋ ์ธ์ด๋ชจ๋ธ๋ก ์์ฑ๋ ๋ค์ํ ํ
์คํธ ์์ค ํ์ฉ
- ๊ฐ ๊ด์ ์ LLM ์
๋ ฅ ์ ์ ๊ฒฐํฉ
์ด๋ฏธ์ง ๊ด์ ์๋ฒ ๋ฉ (Image View Embedding)
- ์
๋ ฅ ํ๋กฌํํธ ๊ด๋ จ ์ด๋ฏธ์ง๋ฅผ ์น์์ ํฌ๋กค๋ง
- Qwen-2VL ๋น์ -์ธ์ด ๋ชจ๋ธ๋ก ๊ฐ ์ด๋ฏธ์ง๋ฅผ ํ
์คํธ ์ค๋ช
์ผ๋ก ๋ณํ
- GPT-4o-mini๋ฅผ ์ฌ์ฉํ์ฌ ์ค๋ช
์ ์ผ๊ด์ฑ๊ณผ ๊ตฌ์กฐ ๊ฐ์
- ๊ฐ์ ๋ ์ค๋ช
์ ์ถ๊ฐ ์ปจํ
์คํธ๋ก ์ต์ข
์๋ต ์์ฑ์ ํ์ฉ
2. ํ๊ฐ ์งํ (DNC Framework)
๋ค์์ฑ ์ธก์ (Diversity)
- MTLD (Measure of Textual Lexical Diversity): ์ดํ ๋ค์์ฑ ์ธก์ (TTR threshold = 0.72)
- SDT (Semantic Diversity of Text): TF-IDF ๋ฒกํฐ ๊ธฐ๋ฐ ์๋ฏธ์ ๋ค์์ฑ (SDT = 1 - Sim)
- SDE (Semantic Diversity of Embeddings): BERT ์๋ฒ ๋ฉ ๊ธฐ๋ฐ ์ปจํ
์คํธ ๋ค์์ฑ
- Self-BLEU: ์์ฑ ์ํ ๊ฐ ์ํธ ์ ์ฌ๋ ์ธก์
์ ๊ท์ฑ ์ธก์ (Novelty)
- GPT-4o ๊ธฐ๋ฐ ์ ๊ท์ฑ ๊ฐ์ง ๋ฉ์ปค๋์ฆ ํ์ฉ
์ ํ์ฑ ์ธก์ (Correctness)
- ์์ฑ๋ ์๋ต์ ์ฌ์ค์ ์ ํ์ฑ ๋ฐ ์์
์์๋ ํ๊ฐ
Evaluation
Novelty: 3.5/5 Technical Soundness: 3.5/5 Significance: 4/5 Clarity: 3.5/5 Overall: 3.5/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ LLM์ ๋ค์์ฑ๊ณผ ์ ๊ท์ฑ ๋ฌธ์ ์ ์ค์ง์ ์ธ ์๋ฃจ์
์ ์ ์ํ๋ฉฐ 909k ๊ท๋ชจ์ ๊ด๋ฒ์ํ ์คํ์ผ๋ก ํจ๊ณผ๋ฅผ ์
์ฆํ์ผ๋, ๊ธฐ์ ๊ฐ๋
์ ์ ๊ท์ฑ์ด ์ ํ์ ์ด๊ณ ๊ณ์ฐ ๋น์ฉ ๋ฐ ๋ค๊ตญ์ด ํ์ฅ์ฑ์ ๋ํ ๊ณ ๋ ค๊ฐ ์ถฉ๋ถํ์ง ์๋ค. ์ค๋ฌด ์ ์ฉ ๊ฐ์น๋ ๋์ผ๋ ํ์ ์ ํ์ ์ฑ์ ์ค๊ฐ ์์ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
314๋ฒ ๋
ผ๋ฌธ์ LLM์ด ์ค์ค๋ก self-improvement๋ฅผ ํตํด ์ฐฝ์์ฑ์ ์งํ์ํค๋ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฃจ๋ฉฐ, 565๋ฒ ์ฐ๊ตฌ์ ๋ชจ๋ธ-๋ถ๋ณ์ ๋ค๊ฐ์ ์๋ฒ ๋ฉ๊ณผ ์ ๋ชฉํ ์ด๋ก ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
714๋ ์ธ๊ฐ-LLM ํ๋ ฅ ๊ธฐ๋ฐ ์ฐฝ์์ฑ ๋ฐ ์ ๊ท์ฑ ํ๊ฐ ์คํ์ ์งํํ์ฌ, 565์์ ๋ค๋ฃฌ ๋ชจ๋ธ ์๊ทธ๋
ธ์คํฑ ๋ฐฉ๋ฒ์ ์ฌํ์ , ์ค์ฉ์ ๋งฅ๋ฝ์ ๋ณด์ํด์ค๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
LLMs can realize combinatorial creativity ๋
ผ๋ฌธ์ LLM์ ์กฐํฉ ์ฐฝ์์ฑ ํ๊ณ, ๋ค์์ฑ ์ด์ ๋ฑ์ ๊ธฐ์ ์ ์ผ๋ก ๋ถ์ํด 565์ ๋ค์์ฑ/์ ๊ท์ฑ ์ฆ์ง ์๋์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
411 ๋
ผ๋ฌธ์ ์ธ๊ฐยทLLM ์ฐฝ์์ฑ ๋น๊ต๋ถ์์ ํตํด 565์ ์์ฑ ๋ค์์ฑ ๋ฐ ์ ๊ท์ฑ ํ๊ฐยท์ค๊ณ์ ํ๊ฐ ์ง์นจ์ ์ ๊ณตํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Multi-novelty ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ์์ฑ๋ฌผ์์ ๋ด์ฉ ๋ค์์ฑ๊ณผ ์ฐธ์ ์ฑ ์ฆ์ง ์ธก๋ฉด์ ์ง์ค์ ์ผ๋ก ๋ค๋ฃจ์ด, ์ฑ๋ณ ๋ฐ ์ ๋ณด ํธํฅ ๋ฌธ์ ์ ๋ณด์์ ํด๋ฒ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
494 ๋
ผ๋ฌธ์ LLM ๊ธฐ๋ฐ ๊ณผํ์ ์์ด๋์ด์ ์ฐฝ์์ฑยท๋ค์์ฑ ํ๊ฐ๋ฅผ ์ค์ ์ ์ผ๋ก ๋ค๋ฃจ๋ฉฐ, 565์์ ์ ์ํ ์ถ๋ก ๊ธฐ๋ฐ ๋ค์์ฑ ๊ฐํ ๋ฐฉ์๊ณผ ๋น๊ตํ๋ฉด ์ ์ฉํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
518์ ๋ค์ ์ ๋ฌธ๊ฐ ๋๋ ์์ด์ ํธ ์์ด๋์ด ์ตํฉ ๊ธฐ๋ฐ ๋ค์์ฑ ๋ฐ ์ฐฝ์์ฑ ์ฆ์ง ๊ธฐ๋ฒ์ ์ ์ํด, 565์ ์๋ฒ ๋ฉ ์ค์ฌ ๋ฐฉ์๊ณผ ๋น๊ตํ ๋งํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
SCI-IDEA๋ ๋ฏธ์ธํ ์๋ฒ ๋ฉ ๋ฐ ๋ค์ํ ํ๋กฌํํธ๋ฅผ ํ์ฉํด LLM ์์ฑ ๋ด์ฉ์ ๋ค์์ฑใป์ ๊ท์ฑ ํฅ์์ ์๋ํ๋ ๋๋ค๋ฅธ ์์ด๋์ด ์์ฑ ๋ฐฉ๋ฒ๋ก ์
๋๋ค.
ํ์ ์ฐ๊ตฌ
Multi-novelty(565)๋ AI ์์ฑ ์ปจํ
์ธ ์ ๋ค์์ฑ๊ณผ ์ฐธ์ ์ฑ ํฅ์์ด๋ผ๋ ๊ด์ ์์ SciMON์ novelty optimization์ ์ค์ง์ ์ผ๋ก ํ์ฅํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
565๋ ๋ค์ํ ์๋ฒ ๋ฉ์ผ๋ก LLM์ ์ ๊ท์ฑ๊ณผ ์ฐฝ์์ฑ ํฅ์ ๋ฐฉ์์ ์ ์ํ์ฌ, 762์ ๊ณผํ ์์ด๋์ด ์์ฑ ์์คํ
์ ์ฑ๋ฅ์ ๋์ผ ํ์ ๋ฐฉ๋ฒ์
๋๋ค.
์์ฉ ์ฌ๋ก
762 ๋
ผ๋ฌธ์ ๊ณผํ์ ์์ด๋์ด ์์ฑ๊ณผ ์ฐฝ์์ฑ ์๋ ํ๊ฐ ์์คํ
์ ๊ตฌ์ถํ์ฌ, 565์์ ์ ์ํ ์ ๊ท์ฑยท๋ค์์ฑ ๊ฐํ ๊ธฐ๋ฒ์ ์ค์ง์ ์ ์ฉ ์ฌ๋ก์
๋๋ค.