Scaling physical reasoning with the physics dataset
์ ์: Shenghe Zheng, Qianjia Cheng, Junchi Yao, Mengsong Wu, Haonan He, Ning Ding, Yu Cheng, Shuyue Hu, Lei Bai, Dongzhan Zhou, Ganqu Cui, Peng Ye | ๋ ์ง: 2025 | DOI: arXiv:2506.00022v4 📄 PDF
Essence
PHYSICS ๋ฐ์ดํฐ์
๊ตฌ์ถ ํ์ดํ๋ผ์ธ(์ข)๊ณผ ์ฃผ์ ํน์ฑ(์ฐ)
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ๋ฌผ๋ฆฌํ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐ๋ฐ์ ์ถฉ๋ถํ ์ฃผ๋ชฉ์ ๋ฐ์ง ๋ชปํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, 100๊ฐ ์ด์์ ๊ต๊ณผ์๋ก๋ถํฐ ์ ์ ๋ 16,568๊ฐ์ ๊ณ ํ์ง ๋ฌผ๋ฆฌ ๋ฌธ์ ๋ฅผ ํฌํจํ๋ PHYSICS ๋ฐ์ดํฐ์
์ ์๊ฐํ๋ค. ๋ฌผ๋ฆฌ ๋ถ์ผ์ ํนํ๋ ํ๊ฐ ํ๋ ์์ํฌ(Rule+Model)๋ฅผ ์ต์ด๋ก ์ ์ํ์ฌ ๋จ์ ๋ณํ, ์์น ๊ฐ๋จํ ํ๊ธฐ ๋ฑ์ ๋ฌผ๋ฆฌ ๊ณ ์ ํน์ฑ์ ๋ฐ์ํ ์ ํํ ํ๊ฐ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Motivation
- Known: LLM์ ์ํ๊ณผ ์ฝ๋ฉ ๊ฒฝ์์์ ์ฌ๋ฆผํผ์๋ ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ผ๋, ํ์ค ์ธ๊ณ ์ดํด์ ๊ธฐ์ด์ธ ๋ฌผ๋ฆฌํ์ ์ ํ๋ ์ฃผ๋ชฉ์ ๋ฐ์
- Gap: (1) ๊ณ ํ์ง ๋ฌผ๋ฆฌ ํ๋ จ ๋ฐ์ดํฐ ๋ถ์กฑ (2) ๊ธฐ์กด ํ๊ฐ ํ๋ ์์ํฌ๊ฐ ๋ฌผ๋ฆฌ ๊ณ ์ ๋ฌธ์ (๋จ์ ๋ณํ, ์์น ๊ทผ์ฌ ๋ฑ)๋ฅผ ์ ๋๋ก ์ฒ๋ฆฌํ์ง ๋ชปํจ (3) ๋์ด๋์ ์ฃผ์ ๋ถํฌ๊ฐ ๋ถ๊ท ํํ ํ
์คํธ ๋ฐ์ดํฐ
- Why: AI๊ฐ ํ์ค ์ธ๊ณ๋ฅผ ์ ํํ ๋ชจ๋ธ๋งํ๊ณ ์ํธ์์ฉํ๊ธฐ ์ํด์๋ ๋ฌผ๋ฆฌํ์ ์ถ๋ก ๋ฅ๋ ฅ์ด ํ์์ ์ด๋ฉฐ, ์ด๋ LLM ๋ฐ์ ์ ์ค์ํ ๋ฐฉํฅ
- Approach: ๊ท๋ชจ ์๋ ๊ณ ํ์ง ๋ฌผ๋ฆฌ ๋ฐ์ดํฐ์
๊ตฌ์ถ + ๋ฌผ๋ฆฌ ํนํ ํ๊ฐ ํ๋ ์์ํฌ ๊ฐ๋ฐ + ํ์ฌ ๋ชจ๋ธ๋ค์ ๋ฌผ๋ฆฌ ๋ฅ๋ ฅ ๊ด๋ฒ์ ํ๊ฐ
Achievement
PHYSICS ๋ฐ์ดํฐ์
์ ๊ตฌ์ถ ํ์ดํ๋ผ์ธ๊ณผ ํน์ง
- ์ต๋ ๊ท๋ชจ ๋ฌผ๋ฆฌ ๋ฐ์ดํฐ์
: 16,568๊ฐ ๋ฌธ์ (ํ์ ์ด์ค์ธ์ด), 5๊ฐ ๋ฌผ๋ฆฌ ๋ถ์ผ, 4๋จ๊ณ ๋์ด๋ ์์ค(๊ณ ๋ฑํ๊ต~๋ํ์), ๋ช
ํํ ํ๋ จ/ํ
์คํธ ๋ถํ (7:1 ๋น์จ)
- ๋ฌผ๋ฆฌ ํนํ ํ๊ฐ ํ๋ ์์ํฌ: Rule+Model ํ์ด๋ธ๋ฆฌ๋ ๋ฐฉ์์ผ๋ก ๋ฌผ๋ฆฌ ํน์ ์ ํ๊ฐ ๋ฌธ์ (๋จ์ ๋ณํ, ์์น ๊ฐ๋จํ ํ๊ธฐ, ์ ๋ฐ๋) ํด๊ฒฐ. ์ธ๊ณต ์ฃผ์ ํ
์คํธ์
์ผ๋ก ๊ฐ์ ํจ๊ณผ ๊ฒ์ฆ
- ๊ด๋ฒ์ํ ๋ชจ๋ธ ํ๊ฐ: ์คํ์์ค/ํด๋ก์ฆ๋์์ค ๋ชจ๋ธ ํ๊ฐ ๊ฒฐ๊ณผ, OpenAI-o3, Gemini-2.5-pro ๋ฑ ์ต๊ฐ ๋ชจ๋ธ๋ ๋ฌผ๋ฆฌ ๋ฌธ์ ์์ ์ฑ๋ฅ ๋ถ์กฑ ๋ช
์
How
- ๋ฐ์ดํฐ ์์ง: 100๊ฐ ์ด์ ๊ต๊ณผ์์ PDF๋ฅผ OCR๋ก Markdown ๋ณํ โ GPT-4o๋ก QA์ ์ถ์ถ โ ๋ฉํ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๋งค์นญ
- ํ์ง ๊ด๋ฆฌ: (1) OCR ์ค๋ฅ ๋ณด์ (2) ๋ค์ค๋ชจ๋ฌ/์ธ๋ถ ๋ฌธ๋งฅ ์์กด ๋ฌธ์ ์ ๊ฑฐ (3) ์ธ๊ฐ ์ ๋ฌธ๊ฐ ๊ฒ์ โ 8,284๊ฐ ์ต์ข
์ ์
- ๋ฐ์ดํฐ ๋ถํ : ํ๋ จ์
14,568๊ฐ(๊ฐ๋ ฅํ ์ถ๋ก ๋ชจ๋ธ์ reasoning path ์ ๊ณต), ํ
์คํธ์
1,000๊ฐ(๊ท ํ์กํ ๋์ด๋/์ฃผ์ ๋ถํฌ)
- Rule+Model ํ๊ฐ:
- Rule: ๋จ์ ๋ณํ(kmโm), ์ํ ์ ์ ๊ทํ ๋ฑ ๊ท์น ๊ธฐ๋ฐ ์ฌ์ ์ฒ๋ฆฌ
- Model: ํ๋ จ์
์๋ ์ฃผ์์ผ๋ก ํ์ธํ๋ํ ํ์ ๋ชจ๋ธ๋ก ๋ฏธ๋ฌํ ์๋ฏธ๋ก ์ ์ฐจ์ด ํ๋จ
- ๋์ค ํ์ง(Leak Detection): ํ
์คํธ์
์ด ํ๋ จ ๋ฐ์ดํฐ์ ํฌํจ๋์ด ์์ง ์์์ ๊ฒ์ฆ
Originality
- ์ต์ด ์๋: ๋ฌผ๋ฆฌํ์ ํนํ๋ Rule+Model ํ์ด๋ธ๋ฆฌ๋ ํ๊ฐ ํ๋ ์์ํฌ ์ค๊ณ
- ๊ด๋ฒ์ํ ์ปค๋ฒ๋ฆฌ์ง: ๊ธฐ์กด ๋ฌผ๋ฆฌ ๋ฐ์ดํฐ์
๋๋น ์ต๋ ๋์ด๋ ๋ฒ์(๊ณ ๋ฑํ๊ต~๋ํ์), ๊ฐ์ฅ ํฐ ๊ท๋ชจ(16,568๋ฌธ์ )
- ์ฒด๊ณ์ ๊ตฌ์ถ ํ์ดํ๋ผ์ธ: OCR ๊ธฐ๋ฐ ์๋ ์ถ์ถ + LLM ๋ณด์กฐ + ์ธ๊ฐ ๊ฒ์์ 3๋จ๊ณ ํ์ง ๊ด๋ฆฌ ์ ์ฐจ
- ์ด์ค์ธ์ด ๊ตฌ์ฑ: ์์ด/์ค๊ตญ์ด 1:1 ๋น์จ๋ก ๋์ญ ์ ๊ณต, ๋ค์ํ ํ๊ฐ ์๋๋ฆฌ์ค ๊ฐ๋ฅ
- ์์ธํ reasoning path: ํ๋ จ์
์ ๊ฐ๋ ฅํ ์ถ๋ก ๋ชจ๋ธ์ด ์์ฑํ ์ค๊ฐ ๊ณผ์ ์ ๊ณต(๊ฐ๋
ํ์ต ์ฉ์ด)
Limitation & Further Study
- ํ๊ฐ ํ๋ ์์ํฌ์ ํ๊ณ: Rule+Model ๋ฐฉ์๋ ๋ณต์กํ ๋ฌผ๋ฆฌ ํ์์ ๋ฏธ๋ฌํ ํด์ ์ฐจ์ด๋ฅผ ์์ ํ ํฌ์ฐฉํ์ง ๋ชปํ ์ ์์
- ๋ฐ์ดํฐ ์๋ณธ ํธํฅ: 100๊ฐ ๊ต๊ณผ์๋ ํน์ ๊ตญ๊ฐ/๊ต์ก ์์คํ
์ ํธ์ค๋ ๊ฐ๋ฅ์ฑ(์์ด๊ถ, ์ค๊ตญ์ด๊ถ ๊ต๊ณผ์ ์ฃผ๋ก ์ฌ์ฉ)
- ์คํ ๋ฐ์ดํฐ ์ ํ: ํ
์คํธ์
1,000๊ฐ๋ ๋๊ท๋ชจ ๋ฒค์น๋งํฌ ๊ธฐ์ค์์ ๋ค์ ์ ํ์ (๋ค์ํ ์ธ๋ถ ๋ถ์ผ ์์ธ ๋ถ์ ์ด๋ ค์)
- ๋น์ ๋ฌธ์ ๋ฏธํฌํจ: PDF์์ ์ถ์ถํ๋ ๊ณผ์ ์์ ๋ํ, ๊ทธ๋ํ, ์ด๋ฏธ์ง ๊ธฐ๋ฐ ๋ฌธ์ ๊ฐ ์๋์ ์ผ๋ก ์ ์ธ๋์ด ์๊ฐ์ ๋ฌผ๋ฆฌ ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ ๋ถ๊ฐ
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ:
- ๋ค์ค๋ชจ๋ฌ ๋ฌผ๋ฆฌ ๋ฌธ์ ํ์ฅ
- ๋์ ํ๊ฐ ํ๋ ์์ํฌ(์๋ก์ด ๋ฌผ๋ฆฌ ํ์์ ์๋ ์ ์)
- ๊ฐํ ํ์ต ๊ธฐ๋ฐ ๋ฌผ๋ฆฌ ๋ชจ๋ธ ๊ฐ์ ๊ธฐ๋ฒ ๊ฐ๋ฐ
Evaluation
Novelty: 4.5/5 Technical Soundness: 4/5 Significance: 4.5/5 Clarity: 4/5 Overall: 4.2/5
์ดํ: PHYSICS ๋ฐ์ดํฐ์
์ ๋ฌผ๋ฆฌํ์ด ๊ณผ์ํ๊ฐ๋ ๋ถ์ผ์์ ๋ช
ํํ ํ๊ณ , ์ฒด๊ณ์ ์ธ ๊ตฌ์ถ ํ์ดํ๋ผ์ธ๊ณผ ๋ฌผ๋ฆฌ ํนํ ํ๊ฐ ํ๋ ์์ํฌ๋ก LLM์ ๋ฌผ๋ฆฌ ์ถ๋ก ๋ฅ๋ ฅ ๋ฐ์ ์ ์ํ ๊ฒฌ๊ณ ํ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค. ๋ค๋ง ๋น์ ๋ฌธ์ ํฌํจ ๋ฐ ๋ ๋๊ท๋ชจ ํ
์คํธ์
ํ๋ณด๋ก ์ค์ฉ์ฑ์ ๋์ผ ์ฌ์ง๊ฐ ์๋ค.
๊ฐ์ด ๋ณด๋ฉด ์ข์ ๋
ผ๋ฌธ
๊ธฐ๋ฐ ์ฐ๊ตฌ
Physics-informed neural network(PI-NN) ๋ฑ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ AI ์ถ๋ก ๋ฒค์น๋งํฌ์ ๋ํ ์ฌํ ํ์ต์ ๋์์ด ๋ฉ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
697์ LLM ๋ฌผ๋ฆฌ์ถ๋ก ๋ถ์ผ ๋ฅ๋ ฅํ๊ฐ ๋ฌธ์ ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ์ด์ ์ ์ฒด ํํฉ์ 506์ด ์๋ฒ ์ด ํํ๋ก ํญ๋๊ฒ ๋ค๋ฃน๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
๋ฌผ๋ฆฌํ LLM ํ๊ฐ(697)์ ๊ท์น ๊ธฐ๋ฐ ํ๋ ์์ํฌ ๋
ผ์๊ฐ ๊ณผํ ์์ฝ ์ผ๋ฐํ ํธํฅ(373)๊ณผ LLM ํ๊ฐ๋ฐฉ์ ๋๋น์ ์ด๋ก ์ ํ ๋๊ฐ ๋๋ค.
๊ธฐ๋ฐ ์ฐ๊ตฌ
Lang-PINN ๋
ผ๋ฌธ์ ์ธ์ด๋ชจ๋ธ ๊ธฐ๋ฐ ๋ฌผ๋ฆฌ ์ถ๋ก ๊ณผ ๋ฌผ๋ฆฌํ ๋ฌธ์ ํด๊ฒฐ์ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ์๋ฆฌ๋ฅผ ์ ๊ณตํ์ฌ ์ด ๋
ผ๋ฌธ์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ๋ง๋ จํฉ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
์ํ ๋ฐ ๋ฌผ๋ฆฌ ์ ๋ฆฌ ๊ธฐ๋ฐ์ QA ๋ฐ์ดํฐ์
์ ํตํด LLM์ ๋ฌผ๋ฆฌ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ค๋ฅธ ๋ฐ์ดํฐ์
์ผ๋ก ํ๊ฐํ ์ ์๊ธฐ ๋๋ฌธ์
๋๋ค.
๋ค๋ฅธ ์ ๊ทผ
MatPilot ๋
ผ๋ฌธ์ ๋ฌผ๋ฆฌ์ ๋ฐ ์ฌ๋ฃ๊ณผํ์ ๋ฐ์ดํฐ์ ๋ํ AI ์์ด์ ํธ ๊ธฐ๋ฐ ํ๊ฐ์ ์ถ์ฒ์ ์ ์ฉํ์ฌ, PHYSICS ๋ฐ์ดํฐ์
์ ๋ชฉ์ ๊ณผ ๋ฐ์ ํ๊ฒ ๋ง๋ฟ์ ์๋ค.
๋ค๋ฅธ ์ ๊ทผ
697์ด ๋๊ท๋ชจ ๋ฌผ๋ฆฌ ์ถ๋ก ๋ฐ์ดํฐ์
(PHYSICS)๊ณผ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ค๋ฉด, 142๋ PDE ๋ฌธ์ ๋ฅผ ์ํ ์๋ํ ๋ฉํฐ์์ด์ ํธ ํ์ดํ๋ผ์ธ์ผ๋ก ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ฌ๋ก์
๋๋ค.
์์ฉ ์ฌ๋ก
LLM์ ์์ ์ฑ๊ณผ ์ ๋ ฌ ๋ฌธ์ ๋ฅผ ์ค์ ๋ฌผ๋ฆฌ ์ถ๋ก ๋ฒค์น๋งํฌ์ ์ด๋ป๊ฒ ๋ฐ์ํ ์ง ํ๊ตฌํ ๋ ์ฐธ๊ณ ๊ฐ ๋ฉ๋๋ค.
์์ฉ ์ฌ๋ก
๊ณผํ์ ๋ฐ์ดํฐ ๋ถ์ ๋ฐ ์ฐ๊ตฌ ์๋ํ์ ๋ํด VLM๊ณผ ์์ด์ ํธ ์์คํ
์ ๊ฒฐํฉํ๋ ์คํ์ ์ฌ๋ก๋ก, nanomaterial ์ ๋ณด ์ถ์ถ์ ์์ฉ ํ์ฅ์ฑ์ ํ์ธํ ์ ์๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์