Wrong-of-Thought: An Integrated Reasoning Framework with Multi-Perspective Verification and Wrong Information
์ ์: Yongheng Zhang, Qiguang Chen, Jingxuan Zhou, Peng Wang, Jiasheng Si, Jin Wang, Wenpeng Lu, Libo Qin | ๋ ์ง: 2024 | DOI: arXiv:2410.04463 📄 PDF
Essence
๊ทธ๋ฆผ 1: ๊ธฐ์กด ๋ค์ค ์ฌ๊ณ ํตํฉ ๋ฐฉ๋ฒ(a)์ ๋จ์ผ ๊ฒ์ฆ๋ง ์ฌ์ฉํ๊ณ ์ค๋ฅ ์ ๋ณด๋ฅผ ํ์ฉํ์ง ์๋ ๋ฐ๋ฉด, WoT(b)๋ ๋ค์ค ๊ด์ ๊ฒ์ฆ๊ณผ ์ค๋ฅ ์ ๋ณด ํ์ฉ์ ์ ๊ณตํ๋ค.
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ถ๋ก ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๋ค์ค ๊ด์ ์์ ๊ฒ์ฆํ๊ณ ์ด์ ์ค๋ฅ ์ ๋ณด๋ฅผ ํ์ฉํ๋ WoT(Wrong-of-Thought) ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด XoT์ ๋จ์ผ ๊ฒ์ฆ ๋ฐฉ์๊ณผ ์ค๋ฅ ์ ๋ณด ๋ฌด์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ฌ 8๊ฐ ๋ฐ์ดํฐ์
๊ณผ 5๊ฐ LLM์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: Chain-of-Thought (CoT) ๊ธฐ๋ฐ์ ๋ฐ๋ณต์ ๊ฒ์ฆ๊ณผ ๊ฐ์ ๋ฐฉ์์ด LLM์ ์ถ๋ก ์ฑ๋ฅ์ ํฅ์์ํค๊ณ ์์ผ๋ฉฐ, XoT๋ PoT, EoT, CoT๋ฅผ ํตํฉํ๋ ํ๋ ์์ํฌ๋ก ์ด๋ฏธ ๊ฐ๋ฐ๋จ
- Gap: (1) ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋จ์ํ ์ด์ค์
(assertion) ๊ฒ์ฆ๋ง ์ฌ์ฉํ์ฌ ๋ถ์์ ํ ๊ฒ์ฆ์ ์ํํจ (2) ์ค๋ฅ ๋ฐ์ ์ ์ค๋ฅ ์ ๋ณด๋ฅผ ๋ฒ๋ฆฌ๊ณ ์ฒ์๋ถํฐ ์ฌ์ถ๋ก ํ๋ฏ๋ก ๊ท์คํ ํผ๋๋ฐฑ ์ ํธ๋ฅผ ์์คํจ
- Why: ์ธ๊ฐ์ ๋ฌธ์ ํด๊ฒฐ ๊ณผ์ ์์ ์คํจ๋ ํ์ต์ ์ค์ํ ์์ฒ์ด๋ฉฐ, ๋ค์ํ ๊ด์ ์ ๊ฒ์ฆ๊ณผ ๊ณผ๊ฑฐ ์ค๋ฅ๋ก๋ถํฐ์ ํ์ต์ด ์ถ๋ก ์ ํ๋๋ฅผ ํฅ์์ํฌ ์ ์์
- Approach: (1) ์ด์ค์
๊ฒ์ฆ, ํ๋ก์ธ์ค ๊ฒ์ฆ, ๊ฒฐ๊ณผ ๊ฒ์ฆ์ 3๊ฐ์ง ๊ด์ ์ผ๋ก ๋ค์ค ๊ฒ์ฆ ์ํ (2) ์ด์ ์ค๋ฅ ์ ๋ณด๋ฅผ ํ์ฌ ์ถ๋ก ๋ฌธ๋งฅ์ ํฌํจ์์ผ ๋์ผํ ์ค์ ๋ฐ๋ณต ๋ฐฉ์ง
Achievement
๊ทธ๋ฆผ 3: WoT ํ๋ ์์ํฌ์ ๊ตฌ์กฐ. ๊ณํ ๋ฐ ํ์ด, ๋ค์ค ๊ด์ ๊ฒ์ฆ, ์ค๋ฅ ์ ๋ณด ํ์ฉ์ ์ธ ๊ฐ์ง ํต์ฌ ๋ชจ๋๋ก ๊ตฌ์ฑ๋๋ค.
- ์ข
ํฉ์ ์ฑ๋ฅ ํฅ์: 8๊ฐ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
(GSM8K, GSM-Hard, Algebra, MultiArith ๋ฑ)๊ณผ 5๊ฐ LLM(Mistral-7B, Qwen-7B/14B, Gemini-1.0-Pro, GPT-3.5-Turbo)์์ ๋ชจ๋ ๊ธฐ์กด ๋ฒ ์ด์ค๋ผ์ธ์ ๋ฅ๊ฐ
- ์ด๋ ค์ด ๊ณ์ฐ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ: ํนํ ๋ณต์กํ ์ํ์ ์ถ๋ก ์ด ํ์ํ ๋ฌธ์ ์์ ํ์ํ ์ฑ๋ฅ ์
์ฆ
- ์ค๋ฅ ์ ๋ณด ํ์ฉ์ ํจ๊ณผ์ฑ: ์๋ชป๋ ์ถ๋ก ์ ๋ณด๋ฅผ ๋ค์ ์ ์ํจ์ผ๋ก์จ LLM์ด ์ ์ฌํ ์ค๋ฅ๋ฅผ ๋ฐ๋ณตํ ํ๋ฅ ๊ฐ์
How
๊ทธ๋ฆผ 2: XoT ํ๋ ์์ํฌ. ์ถ๋ก ๋ฐฉ๋ฒ ์ ํ ํ ์ด์ค์
๊ฒ์ฆ์ ํตํด ํ๋จํ๊ณ , ์ค๋ฅ ์ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก ์ ํํ์ฌ ์ฌ์์ํ๋ค.
๋ค์ค ๊ด์ ๊ฒ์ฆ(Multi-Perspective Verification)
- ์ด์ค์
๊ฒ์ฆ: XoT์ ๊ธฐ์กด ๋ฐฉ์์ ์ฑ์ฉํ์ฌ ์ค๊ฐ ๋ณ์๋ฅผ ์ด์ค์
๋ฌธ์ฅ์ผ๋ก ํ์ํํ๊ณ ์ธ๋ถ ๋๊ตฌ๋ก ์คํ ๊ฒ์ฆ
- ํ๋ก์ธ์ค ๊ฒ์ฆ: ๊ณ์ฐ ๊ฒฐ๊ณผ๋ฅผ ์ ์ธํ ์ถ๋ก ๊ณผ์ ๋ง ์ ์ํ์ฌ LLM์ด ๊ฐ ๋จ๊ณ์ ๋ณ์๊ฐ ๋ฌธ์ ์ ์ ๋ณด์ ์ผ๋์ผ๋ก ๋์๋๋์ง ํ์ธํ๋๋ก ์ ๋
- ๊ฒฐ๊ณผ ๊ฒ์ฆ: ์ถ๋ก ๊ณผ์ ๊ณผ ๊ณ์ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ชจ๋ ์ ์ํ ํ, ๋ฌธ์ ๋ฅผ ์ฒ์๋ถํฐ ๋ค์ ํ์ด์ ๊ฒฐ๊ณผ์ ์ผ๊ด์ฑ ๊ฒ์ฆ
- ํฌํ ๋ฉ์ปค๋์ฆ: ์(1)์ ํตํด ์ธ ๊ฒ์ฆ ๋ฐฉ๋ฒ์ ๊ฒฐ๊ณผ ์ค ๊ฐ์ฅ ์ผ์น๋๊ฐ ๋์ ํ๋จ์ ์ต์ข
๊ฒฐ๊ณผ๋ก ์ ํ
$$\hat{V} = \arg\max_{V_t \in V} \sum_{t=1}^{N} \sum_{R \in M_i} \mathbb{1}(V_t = R)$$
์ค๋ฅ ์ ๋ณด ํ์ฉ(Wrong Information Utilization)
- ์ด์ ์ถ๋ก ์์ ๋ฐ์ํ ์ค๋ฅ ์ ๋ณด๋ฅผ ํ์ฌ ํ์ด ๋ฌธ๋งฅ์ ํฌํจ์ํด
- ์(2)๋ก ํํ๋๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ต๋ํํ์ฌ ์ค๋ฅ ์ ๋ณด WI๊ฐ ์ถ๊ฐ๋ ์ํ์์ ์ต์ ์ ์ถ๋ก ๊ฒฝ๋ก R์ ์์ฑ
$$\hat{R} = \arg\max_{R \in M_i} P(R|Q, I, WI)$$
- ์ฌ๊ฒ์ฆ ํ์๋ ์ค๋ฅ ๋ฐ์ ์, ํ์ฌ์ ์ด์ ์ ์ค๋ฅ ์ ๋ณด๋ฅผ ๋ชจ๋ CoT ์ถ๋ก ์ ๋ถ์ ์ ์์๋ก ํ์ฉ
Originality
- ๋ฌธ์ ์ ์์ ๋ช
ํ์ฑ: ๋จ์ผ ๊ฒ์ฆ ๋ฐฉ์์ ํ๊ณ์ ์ค๋ฅ ์ ๋ณด ๋ฌด์๋ผ๋ ๊ตฌ์ฒด์ ์ธ ๋ฌธ์ ์ ์ ์ฒด๊ณ์ ์ผ๋ก ์ง์
- ๋ค์ค ๊ด์ ๊ฒ์ฆ์ ์ค๊ณ: ์ธ๊ฐ์ ๋ฌธ์ ํด๊ฒฐ ๋ฐฉ์์ ์๊ฐ์ ๋ฐ์ ์ด์ค์
, ํ๋ก์ธ์ค, ๊ฒฐ๊ณผ๋ผ๋ ์ธ ๊ฐ์ง ๋
๋ฆฝ์ ๊ฒ์ฆ ๊ด์ ์ ์ ๋ฐ ํฌํ ๊ธฐ๋ฐ ํตํฉ
- ์ค๋ฅ ์ ๋ณด์ ์ ๊ทน์ ํ์ฉ: ๊ธฐ์กด ํ๊ธฐ์ ์ ๊ทผ์์ ์ค๋ฅ๋ฅผ ํ์ต ์ ํธ๋ก ๋ณํํ๋ ํจ๋ฌ๋ค์ ์ ํ
- ๊ด๋ฒ์ํ ์คํ ๊ฒ์ฆ: 8๊ฐ ๋ฐ์ดํฐ์
๊ณผ 5๊ฐ LLM(์คํ์์ค ๋ฐ ํด๋ก์ฆ๋์์ค)์์ ์ผ๊ด๋ ์ฑ๋ฅ ๊ฐ์ ์
์ฆ
Limitation & Further Study
- ๊ฒ์ฆ ์ค๋ฒํค๋: ์ธ ๊ฐ์ง ๊ฒ์ฆ ๋ฐฉ์์ ๋ชจ๋ ์ํํ๋ฏ๋ก ๊ณ์ฐ ๋น์ฉ์ด ์ฆ๊ฐํ๋ฉฐ, ์ถ๋ก ์๊ฐ ๋๋น ์ฑ๋ฅ ํฅ์์ ํจ์จ์ฑ ๋ถ์ ๋ถ์ฌ
- ํฌํ ๋ฉ์ปค๋์ฆ์ ํ๊ณ: ์ธ ๊ฒ์ฆ ๋ฐฉ๋ฒ ์ค ์ ํ๋๊ฐ ์์ดํ ์ ์์ผ๋ ๋๋ฑํ ๊ฐ์ค์น๋ก ์ทจ๊ธํ๋ ๋ฌธ์ (๊ฐ์ค ํฌํ ๋ฐฉ์ ๋ฏธ๊ฒํ )
- ์ค๋ฅ ์ ๋ณด ํํ์ ๋จ์์ฑ: ์ค๋ฅ ์ ๋ณด๋ฅผ ๋จ์ํ ํ๋กฌํํธ์ ์ถ๊ฐํ๋ ์์ค์ด๋ฉฐ, ์ด๋ค ์ค๋ฅ ํน์ง์ด ๊ฐ์ฅ ์ ํจํ์ง์ ๋ํ ๋ถ์ ๋ถ์กฑ
- ๋๋ฉ์ธ ํ์ฅ์ฑ: ์ฃผ๋ก ์ํ ์ถ๋ก ๋ฌธ์ ์ ์ด์ ๋์ด ์์ผ๋ฉฐ, ์์ฐ์ธ์ด ์ถ๋ก ์ด๋ ์์ ์ถ๋ก ๋ฑ ๋ค๋ฅธ ๋๋ฉ์ธ์์์ ์ฑ๋ฅ ๋ฏธ๊ฒ์ฆ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: (1) ๊ฒ์ฆ ๋ฐฉ์๋ณ ์ ๋ขฐ๋ ํ์ต ๋ฐ ์ ์ํ ๊ฐ์ค์น ์ ์ฉ (2) ์ค๋ฅ ๋ถ๋ฅ ์ฒด๊ณ ๊ตฌ์ถ ๋ฐ ํน์ ์ค๋ฅ ์ ํ์ ๋ํ ์ต์ ํ (3) ๋ค์ํ ๋๋ฉ์ธ์ผ๋ก์ ํ์ฅ ์คํ
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: WoT๋ ๋จ์ํ์ง๋ง ํจ๊ณผ์ ์ธ ๊ฐ์ ์ฑ
์ ํตํด LLM์ ์ถ๋ก ์ฑ๋ฅ์ ์ผ๊ด๋๊ฒ ํฅ์์ํค๋ฉฐ, ๊ด๋ฒ์ํ ์คํ์ผ๋ก ๊ทธ ์ ํจ์ฑ์ ์
์ฆํ๋ค. ๋ค๋ง ๊ฒ์ฆ ์ค๋ฒํค๋์ ์ค๋ฅ ์ ๋ณด ํ์ฉ์ ์ฌํ ๋ฐฉ์์ ๋ํ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Selfcheck ๋
ผ๋ฌธ์ LLM์ด ์์ฑํ ์ถ๋ก ๊ณผ์ ์ ์ค์ค๋ก ๊ฒ์ฆํ๋ ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ์ฌ, Wrong-of-Thought์ ๋ค์ค ๊ด์ ๊ฒ์ฆ ์์ด๋์ด ์ด๊ธฐ ์ฐ๊ตฌ๋ก ๋ณผ ์ ์๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
์๊ธฐ๋นํ(Self-critique) ๊ธฐ๋ฐ ์ถ๋ก ์ ์ฐจ๋ฅผ ์๊ฐํ๋ฉฐ Wrong-of-Thought์ ๋ค์ค ๊ด์ ๊ฒ์ฆ๊ณผ ํ๋น์ฑ ํ๊ฐ ์ธก๋ฉด์์ ๋ฐฐ๊ฒฝ์ด ๋ฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
790์ LLM์ ์๊ธฐ ๋๋ฒ๊น
ํ์ต์ ๋ค๋ฃจ์ด, 887์ ๋ค์ค ๊ด์ ๊ฒ์ฆ ํ๋ ์์ํฌ์ ์ค์ง์ ๊ฐํ๋ฒ์ ์ ๊ณตํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
Critique-GRPO ๋
ผ๋ฌธ์ ์์ฐ์ด ๋นํ ๋ฐ ์๊ธฐ ๋ถ์์ ํตํ LLM ์ถ๋ก ๊ฐํ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ, WoT ํ๋ ์์ํฌ์ ์ค์ง ์ ์ฉ ์ฌ๋ก๋ก ์ฐธ๊ณ ํ ์ ์์ต๋๋ค.
๋ฐ๋ก /๋นํ
Large Language Models are Zero Shot Hypothesis Proposers ๋
ผ๋ฌธ์ ๋ค์ค ๊ด์ /์ค๋ฅ ํผ๋๋ฐฑ ์์ด๋ LLM์ด ์ฐฝ์์ ์ถ๋ก ์ ์ํํ ์ ์๋ค๋ ์ ์ ๊ฐ์กฐํ๋ฉฐ, Wrong-of-Thought(887)์ ๋ค์ค ๊ฒ์ฆ ์ ๋ต ์ ๊ทผ๊ณผ ๋์กฐ๋๋ค.
๋ฐ๋ก /๋นํ
LLM์ ์๊ธฐ์์ ยท์๊ธฐ๊ฒ์ฆ์ ํ๊ณ์ XoT ๋ฑ ๋ค์ํ ๋ฐฉ๋ฒ์ ๋ํ ๋นํ์ ์๊ฐ์ ์ ์ํด Wrong-of-Thought ํ๋ ์์ํฌ์ ํ์์ฑ์ ๋ถ๊ฐํฉ๋๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์