Essence
RISE ํ๋ ์์ํฌ: (i) ๋ฌธ์ ํ์ด ๋ฐ ๊ฒ์ฆ ์์ฑ ๋จ๊ณ์ (ii) RL ์ต์ ํ ๋จ๊ณ๋ก ๊ตฌ์ฑ
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ "ํ๋ฉด์ ์๊ธฐ๋ฐ์ฑ(superficial self-reflection)" ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์(verifiable rewards)์ ํ์ฉํ์ฌ ๋ฌธ์ ํ์ด ๋ฅ๋ ฅ๊ณผ ์๊ธฐ๊ฒ์ฆ ๋ฅ๋ ฅ์ ๋์์ ์จ๋ผ์ธ์ผ๋ก ํ์ตํ๋ RISE ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 4/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: ๋ณธ ๋
ผ๋ฌธ์ ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์์ ํ์ฉํ์ฌ LLM์ ๋ฌธ์ ํ์ด์ ์๊ธฐ๊ฒ์ฆ ๋ฅ๋ ฅ์ ๋์์ ๊ฐํํ๋ ์ค์ฉ์ ์ด๊ณ ํจ๊ณผ์ ์ธ ์จ๋ผ์ธ RL ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, ์ํ์ ์ถ๋ก ๋ฒค์น๋งํฌ์์์ ์ผ๊ด๋ ์ฑ๋ฅ ๊ฐ์ ๊ณผ ์์ธํ ๋ถ์์ผ๋ก ํ๊ณ์ ์ฃผ๋ชฉํ ๋งํ ๊ธฐ์ฌ์ด๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
467์ LLM์ ์ ๋ต์ reasoning ๋ฒค์น๋งํฌ ๋
ผ์๋ก, 845์ ์๊ธฐ๊ฒ์ฆ ๊ฐํํ์ต์ ์ด๋ก ์ ํ ๋๋ฅผ ์ ๊ณตํ๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ณด์ ๋ชจ๋ธ๋ง๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฐ๊ณํ๋ ์ ๊ทผ๋ฒ์ ๋ค๋ฃจ๊ธฐ ๋๋ฌธ์, ๊ฐํํ์ต ๊ธฐ๋ฐ ์๊ธฐ๊ฒ์ฆ(RISE) ์์คํ
๊ณผ์ ์ด๋ก ์ ์ฐ๊ณ๊ฐ ์ ์๋ฏธํฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
SFT์ RL์ ์ผ๋ฐํ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ์คํ์ ์ผ๋ก ๋น๊ตยท๋ถ์ํ์ฌ ๋ณธ ๋
ผ๋ฌธ์ ์๊ธฐ๊ฒ์ฆ ์ฌ์ธต ํ์ต ๊ตฌ์กฐ์ ์ฐ๊ฒฐ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
ReTool ๋
ผ๋ฌธ์ LLM์ ์ ๋ต์ ๋๊ตฌ ์ฌ์ฉ์ RL์ ์ ์ฉํ๋ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฃจ๋ฉฐ, RISE์ ์๊ธฐ๊ฒ์ฆ ๋ฐฉ์์ ๊ฐํํ์ต์ ๊ธฐ์ฌ์ ์ ์ค๋ค.
๋ค๋ฅธ ์ ๊ทผ
747๋ฒ ๋
ผ๋ฌธ์ LLM์ ์์ฒด ๋จ๊ณ๋ณ ์ฒดํฌ ๋ฅ๋ ฅ์ ์ด์ ์ ๋๋ฉฐ LM ๊ธฐ๋ฐ ์๊ธฐ๊ฒ์ฆ ํ๋ ์์ํฌ์ ๋ค๋ฅธ ๊ด์ ์ ์ ์ํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
Trust, But Verify๋ LLM์ด ํฉํธ์ฒดํน ํ์คํฌ์์ ์๊ธฐ ๊ฒ์ฆยท์ผ๊ด์ฑ ๊ฐํ๋ฅผ ์๋ํ ์ ๊ทผ๋ฐฉ๋ฒ์ผ๋ก ProToCo์ ๋น๊ต ๊ฐ๋ฅํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
Self-verification/reinforcement ์ ๊ทผ์ ํตํด LLM์ ์ค๋ช
๋ฐ ๊ฒ์ฆ ๋ฅ๋ ฅ์ ๋์ด๋ ๋ฐฉ๋ฒ๋ก ๋น๊ต๊ฐ GEEX ์ฐ๊ตฌ์ ์๋ฏธ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
Self-critique ์ค์ฌ์ ๋ฐ๋ณต์ ์ถ๋ก ๊ฐํ ๊ธฐ๋ฒ์ ์ ์ํ๋ฉฐ, ์๊ธฐ๊ฒ์ฆ ๊ธฐ๋ฐ ๊ฐํํ์ต๊ณผ ๋น๊ตํด ๋ณผ ์ ์์ต๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
LLM์ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐ์ ์ ์ํ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ด๋ ์ํคํ
์ฒ๋ฅผ ์ ์ํ๋ค.
๋ค๋ฅธ ์ ๊ทผ
์์ด์ ํธ ๊ฒ์ฆ-์์ ์ฑ ์ธก๋ฉด์์ Reinforcement ๊ธฐ๋ฐ ์์จ์ ๊ฒ์ฆ(์๊ธฐ๊ฒ์ฆ/๊ณ์ฝ ์๋ฐ ๊ฐ์ง)์ด๋ผ๋ ๋ณ๋์ ์ ๊ทผ๋ฒ์ ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
470์ LLM์ ์๊ธฐ๊ฐ์ ํ์ต๊ณผ ์๊ธฐ๋ฐ์ฑ์ ๊ธฐ๋ฒ์ ๋ค๋ฃจ์ด, 845์์ ์ ์ํ RISE ํ๋ ์์ํฌ์ ํ์ฅ ๋
ผ์๋ฅผ ๋ณด์ํ๋ค.
ํ์ ์ฐ๊ตฌ
Trust, But Verify ๋
ผ๋ฌธ์ ์๊ธฐ ํ์ธ(self-verification)์ผ๋ก ์ ๋ต๋ฅ ์ ๋์ด๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ LaMAI์ ์๋ต ํ์ง ๊ฐ์ ์ ํ์ฅ ์ฐ๊ตฌ๋ก ๋ณผ ์ ์์ต๋๋ค.
ํ์ ์ฐ๊ตฌ
845๋ LLM์ ์๊ธฐ ๊ฒ์ฆ ๊ธฐ๋ฐ ์ ๋ขฐ ๋ณด๊ฐ ์ ๊ทผ์ ์คํํ์ฌ, 736์ LLM ์ ๋ขฐ์ฑ ํ๊ฐ ํ๋ ์์ํฌ ์ดํ์ ๊ฐ์ ๋ฐฉํฅ์ ๋ณด์ฌ์ค๋๋ค.
ํ์ ์ฐ๊ตฌ
665๋ฒ ๋
ผ๋ฌธ์ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ ์์ฑ ๊ณผ์ ์์ ์๊ธฐ๊ฒ์ฆ, ๋
ผ๋ฆฌ๋ฌธ์ ํด๊ฒฐ ๋ฑ์ LLM์ ์ด๋ป๊ฒ ํ์ฉํ ์ ์๋์ง ์ฌ์ธต์ ์ผ๋ก ์ ์ํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
845 ๋
ผ๋ฌธ์ 844์ ์ ์ฌํ๊ฒ LLM์ ์๊ธฐ ๊ฒ์ฆ ๋ฐ ์ ๋์ ์ถ๋ก ํ๊ฐ (Self-Verification Bench)๋ฅผ ์ค์ ์ ์ผ๋ก ๋ค๋ฃจ์ด ์ํธ ๋ณด์ ํจ๊ณผ๊ฐ ์๋ค.
ํ์ ์ฐ๊ตฌ
845๋ฒ ๋
ผ๋ฌธ์ ์๊ธฐ ๊ฒ์ฆ์ ๊ฐํํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ฉฐ, 395๋ฒ์ ์์ ์ฑ ์งํฅ ์ฅ๋ฒฝํจ์์ ์๋์ง ๋๋ ์ํธ ๋ณด์์ ์์ฉ ๊ฐ๋ฅ์ฑ์ ์์ฌํฉ๋๋ค.
ํ์ ์ฐ๊ตฌ
โTrust, But Verifyโ ๋
ผ๋ฌธ์ ์๊ธฐ๊ฒ์ฆ ํ๋ ์์ํฌ๋ฅผ ํตํด ์์ธก ์ ๋ขฐ์ฑ ํ๋จ, ์ ํ์ ์์ธก์ ๊ทผ๋ณธ์ ๋ฐฉํฅ์ฑ๊ณผ ๋ง๋ฟ์ ์๋ค.
๋ฐ๋ก /๋นํ
Geometry Informed Tokenization of Molecules ๋
ผ๋ฌธ์ LLM-RL ์กฐํฉ ์์ด๋ ๊ณผํ ์ถ๋ก ์ ์ ๋ขฐ์ฑ๊ณผ ๊ฒ์ฆ์ฑ์ ๋ณด์ฅํ๋ ๊ตฌ์กฐ๋ฅผ ์คํํด ๊ฐํํ์ต ๊ธฐ๋ฐ ์๊ธฐ๊ฒ์ฆ๊ณผ ํ๊ณ์ ๋น๊ต์ ๋์์ด ๋๋ค.