IPR-1: Interactive Physical Reasoner
์ ์: Mingyu Zhang, Lifeng Zhuo, Tianxi Tan, Guocan Xie, Xian Nie, Yan Li, Renjie Zhao, Zizhu He, Ziyu Wang, Jiting Cai, Yong-Lu Li | ๋ ์ง: 2025-11-19 | URL: https://arxiv.org/abs/2511.15407 📄 PDF
Essence
Figure 5. IPR training pipeline. Stage 1: PhysCode pre-training. Video clips with optical flow and action semantics are
Interactive Physical Reasoner (IPR)๋ VLM์ ์ ์ฑ
์ world model์ ๋กค์์์ผ๋ก ๊ฐํํ์ฌ ์ํธ์์ฉ์ ํตํด ๋ฌผ๋ฆฌ ์ถ๋ก ๋ฅ๋ ฅ์ ํ์ตํ๋ ์์ด์ ํธ์ด๋ค. PhysCode๋ผ๋ ๋ฌผ๋ฆฌ ์ค์ฌ ์ก์
์ฝ๋๋ฅผ ๋์
ํ์ฌ ์๋ฏธ๋ก ์ ์๋์ ์ญํ์ ์ ๋ ฌํ๊ณ , 1,000+ ๊ฒ์์ผ๋ก ์ฌ์ ํ์ต๋์ด ๋ฌผ๋ฆฌ ์ง๊ด๋ถํฐ ๋ชฉํ ์งํฅ ์ถ๋ก ๊น์ง ๊ฒฌ๊ณ ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
Motivation
- Known: ๊ธฐ์กด VLM/VLA๋ ์ถ๋ก ๋ฅ๋ ฅ์ ์์ง๋ง ๋ํํ ์ค์ ์์ ์ ํ ์์ธก์ด ๋ถ์กฑํ๊ณ , world model์ ๋ฌผ๋ฆฌ์ ์ธ๊ณผ๊ด๊ณ๋ณด๋ค ์๊ฐ์ ํจํด์ ๋ชจ๋ฐฉํ๋ค. RL ๊ธฐ๋ฐ ์์ด์ ํธ๋ ์ํ ๋นํจ์จ์ฑ๊ณผ ์ธํฐํ์ด์ค ๋ณํ์ ์ทจ์ฝํ๋ค.
- Gap: ๊ธฐ์กด ์ ๊ทผ๋ฒ๋ค์ ๋ฌผ๋ฆฌ์ ์ธ๊ณผ๊ด๊ณ๋ผ๋ ํต์ฌ ๋ฉ์ปค๋์ฆ๋ณด๋ค ์๊ฐ์ ์ธ๋ถ์ฌํญ์ ๊ณผ์ ํฉ๋์ด, ๋ค์ํ ํ๊ฒฝ ๊ฐ ๊ฒฌ๊ณ ํ ์ ์ด๋ฅผ ๋ฌ์ฑํ์ง ๋ชปํ๋ค. ์ํธ์์ฉ์ ํตํด ๊ณต์ ๋ ๋ฌผ๋ฆฌ ์๋ฆฌ๋ฅผ ํ์ตํ๋ฉด์๋ ๋ํํ ์ค์ ์์ ์์ธก ๋ฅ๋ ฅ์ ๊ฐ์ถ ์์คํ
์ด ๋ถ์ฌํ๋ค.
- Why: ๋ฌผ๋ฆฌ ์ถ๋ก ๋ฅ๋ ฅ์ ์๊ฐ์ ๋๋ฉ์ธ ๊ฒฉ์ฐจ๊ฐ ํฐ ์๋ก์ด ํ๊ฒฝ์ผ๋ก์ ์ ์ด์ ์ ์์ ํ์์ ์ด๋ฉฐ, ์ด๋ ๊ตฌ์ฒดํ๋ AI์ ๋ก๋ด๊ณตํ ๋ถ์ผ์ ํต์ฌ ๊ณผ์ ์ด๋ค. ์ธ๊ฐ์ด ์ํธ์์ฉ์ ํตํด ๋ฌผ๋ฆฌ๋ฅผ ํ์ตํ๋ ๋ฐฉ์์ AI ์์ด์ ํธ์ ์ ์ฉํ๋ฉด ํ์ฅ ๊ฐ๋ฅํ๊ณ ์ผ๋ฐํ๋ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ฌ์ฑํ ์ ์๋ค.
- Approach: IPR์ (1) PhysCode๋ผ๋ ๋ฌผ๋ฆฌ ์ค์ฌ ์ก์
์ฝ๋ ๊ณต๊ฐ์ ํตํด VLM์ ์ ์ฑ
๊ณผ world model์ ์์ธก์ ์ ๋ ฌํ๊ณ , (2) world model์ ๋กค์์์ ํตํด VLM์ ์ ์ฑ
์ ์ ์ ๋งค๊ธฐ๊ณ ๊ฐํํ๋ฉฐ, (3) Latent World Model ํจ๋ฌ๋ค์์ ๊ธฐ๋ฐํ์ฌ ๋ณธ์ง์ ์ธ ์ ์ฌ ์ญํ๋ง์ ๋ชจ๋ธ๋งํ๋ค.
Achievement
Figure 2. Three-level evaluation inspired by Maslowโs hierarchy of needs. We organize tasks into a pyramid of Survival,
- Game-to-Unseen (G2U) ๋ฒค์น๋งํฌ: ์๊ฐ์ ๋๋ฉ์ธ ๊ฒฉ์ฐจ๊ฐ ์๋ 1,000+๊ฐ์ ์ด์ง์ ๊ฒ์์ผ๋ก ๊ตฌ์ฑ๋ ํ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ๊ณ ๊ธฐ์กด ๋ฐฉ๋ฒ์ ๊ฐ์ ๊ณผ ์ฝ์ ์ ์ง๋จํ๋ค.
- ์ธ ์์ค ํ๊ฐ ํ๋ ์์ํฌ: Maslow์ ์๊ณ์ค์ ์๊ฐ์ ๋ฐ์ Survival, Curiosity, Utility ์ธ ์์ค์ผ๋ก ํ๊ฐํ์ฌ ๋ฌผ๋ฆฌ ์ง๊ด๋ถํฐ ๋ชฉํ ์งํฅ ์ถ๋ก ๊น์ง ํฌ๊ด์ ์ผ๋ก ์ธก์ ํ๋ค.
- IPR์ ์ฐ์ํ ์ฑ๋ฅ: 8B ๋ฐฑ๋ณธ์ผ๋ก GPT-5๋ฅผ ๋ฅ๊ฐํ๋ ์ ์ฒด ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ณ ์ธ ์์ค ๋ชจ๋์์ ๊ฒฌ๊ณ ์ฑ์ ์ ์งํ๋ค.
- ์ค์ผ์ผ๋ง๊ณผ ์ ์ด์ฑ: ํ๋ จ ๊ฒ์ ์์ ์ํธ์์ฉ ๋จ๊ณ ์ฆ๊ฐ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๊ฐ์ ๋๋ฉฐ, ๋ฏธํ์ต ๊ฒ์์ผ๋ก์ ์ ๋ก์ท ์ ์ด๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ํํ๋ค.
- PhysCode ์ก์
๊ณต๊ฐ: ์๋ฏธ๋ก ์ ์๋์ ์๊ฐ์ ์ญํ์ ์ตํฉํ์ฌ ์์ธก๊ณผ ์ถ๋ก ์ ์ํ ๊ณต์ ์ก์
๊ณต๊ฐ์ ์ ๊ณตํ๋ค.
How
Figure 5. IPR training pipeline. Stage 1: PhysCode pre-training. Video clips with optical flow and action semantics are
- PhysCode ์ฌ์ ํ์ต ๋จ๊ณ: ๋น๋์ค ํด๋ฆฝ์ ํตํด ๋ฌผ๋ฆฌ ์ค์ฌ ์ก์
์ฝ๋๋ฅผ ํ์ตํ์ฌ ์๊ฐ์ ์ญํ๊ณผ ํ๋ ์๋ฏธ๋ฅผ ์ ๋ ฌํ๋ค.
- VLM ์ ์ฑ
ํ๋ จ: PhysCode ๊ณต๊ฐ์์ VLM์ด ์ ์ฑ
์ ์์ฑํ๋๋ก ํ์ตํ๋ค.
- World model ๊ฐํ: Latent world model์ ๋กค์์์ ์ฌ์ฉํ์ฌ VLM ์ ์ฑ
์ ๋ฌผ๋ฆฌ์ ํ๋น์ฑ์ ํ๊ฐํ๊ณ ์ ์๋ฅผ ๋งค๊ธด๋ค.
- ์ํธ์์ฉ ๊ฒฝํ ์์ง: ํ๋ จ๋ IPR ์์ด์ ํธ๊ฐ ๊ฒ์ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉด์ ๊ฒฝํ์ ์ถ์ ํ๋ค.
- ๋ฐ๋ณต์ ๊ฐ์ : ์์ง๋ ์ํธ์์ฉ ๋ฐ์ดํฐ๋ก world model๊ณผ ์ ์ฑ
์ ์ง์์ ์ผ๋ก ๊ฐ์ ํ๋ค.
- ์ด์ง์ ๊ฒ์์ ๋ํ ์ผ๋ฐํ: ๋ค์ํ ๋ฌผ๋ฆฌ ๊ตฌ์ฑ๊ณผ ์๊ฐ์ ์คํ์ผ์ ๊ฐ์ง 1,000+ ๊ฒ์์์ ํ์ตํ์ฌ ์ผ๋ฐํ๋ ๋ฌผ๋ฆฌ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ฌ์ฑํ๋ค.
Originality
- Physics-centric latent action space (PhysCode): ๊ธฐ์กด ์ธ์ด ๊ธฐ๋ฐ ๋๋ ์๊ฐ์ ์ผ๋ก ์ฝํ ์ก์
์ฝ๋์ ๋ฌ๋ฆฌ, ๋ฌผ๋ฆฌ ์๋ฆฌ๋ฅผ ๋ช
์์ ์ผ๋ก ์บก์ฒํ๋ ์๋ก์ด ์ก์
ํํ์ ๋์
ํ๋ค.
- World model๊ณผ VLM์ ํผํฉ ํจ๋ฌ๋ค์: ์์ธก ๊ธฐ๋ฐ(world model), RL ๊ธฐ๋ฐ(๊ฐํ), VLM ๊ธฐ๋ฐ(์๋ฏธ๋ก ) ์ ๊ทผ์ ๊ฐ์ ์ ํตํฉํ๋ 'ํผํฉ' ๊ด์ ์ ์ ์ํ๋ค.", 'G2U ๋ฒค์น๋งํฌ์ ์ผ์ธต ํ๊ฐ: 1,000+๊ฐ ๊ฒ์์ ๋ํ ๋๊ท๋ชจ ๋ฒค์น๋งํฌ์ Maslow ์๊ณ์ ์๊ฐ์ ๋ฐ์ ํ๊ฐ ํ๋ ์์ํฌ๋ ๊ธฐ์กด ์ฐ๊ตฌ์์ ์ฐพ๊ธฐ ์ด๋ ค์ด ์๋ก์ด ๊ธฐ์ค์ ์ ์ํ๋ค.
- Interactive experience๋ฅผ ํตํ ์ ์ง์ ๊ฐ์ : ์ํธ์์ฉ ๊ฒฝํ ์ฆ๊ฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ์ค์ผ์ผ๋ง์ ๋ช
ํํ ์ฆ๊ฑฐ๋ฅผ ์ ์ํ์ฌ ์ํธ์์ฉ ๊ธฐ๋ฐ ํ์ต์ ๊ฐ๋ฅ์ฑ์ ์
์ฆํ๋ค.
- ์ ๋ก์ท ์ ์ด: ํ์ต๋์ง ์์ ๊ฒ์์ผ๋ก์ ์ ๋ก์ท ์ ์ด ์ฑ๊ณต์ ํ์ต๋ ๋ฌผ๋ฆฌ ์๋ฆฌ์ ์ง์ ํ ์ผ๋ฐํ๋ฅผ ์์ฌํ๋ค.
Limitation & Further Study
- ๊ฒ์ ํ๊ฒฝ์ ์ ํ: ์ค์ ๋ก๋ด๊ณตํ ์์
์ผ๋ก ํ์ฅํ๊ธฐ ์ ๊ฒ์ ํ๊ฒฝ์์์ ์ฑ๋ฅ๋ง ๊ฒ์ฆ๋์๋ค. ์ค์ธ๊ณ์ ๋์ ๊ฐ๋ณ์ฑ๊ณผ ๋
ธ์ด์ฆ๊ฐ ์๋ ์ผ์ ๋ฐ์ดํฐ์ ๋ํ ๊ฒฌ๊ณ ์ฑ์ ๋ฏธ๊ฒ์ฆ ์ํ์ด๋ค.
- ๊ณ์ฐ ๋น์ฉ: 1,000+๊ฐ ๊ฒ์์ ๋ํ ์ฌ์ ํ์ต๊ณผ world model ๋กค์์ ๊ธฐ๋ฐ ๊ฐํ๋ ์๋นํ ๊ณ์ฐ ๋ฆฌ์์ค๋ฅผ ์๊ตฌํ๋ฉฐ, ์ด๋ฌํ ๋น์ฉ์ ๋ช
์์ ๋ถ์์ด ๋ถ์ฌํ๋ค.
- PhysCode ํ์ต์ ์ธ๋ถ์ฌํญ: PhysCode๊ฐ ์ค์ ๋ก ๋ฌผ๋ฆฌ ์๋ฆฌ๋ฅผ ์บก์ฒํ๋์ง ๋๋ ์๊ฐ์ ์๊ด์ฑ์ ํ์ตํ๋์ง์ ๋ํ ํด์ ๊ฐ๋ฅ์ฑ ๋ถ์์ด ์ ํ์ ์ด๋ค.
- ๋ณต์กํ ์ธ๊ณผ ๊ตฌ์กฐ ์ฒ๋ฆฌ: ๋ณต์กํ๊ณ ์ฅ๊ธฐ์ ์ธ ์ธ๊ณผ ๊ด๊ณ๊ฐ ์๋ ํ๊ฒฝ์์์ ์ฑ๋ฅ์ด ์ถฉ๋ถํ ํ๊ฐ๋์ง ์์๋ค.
- ํ์ ์ฐ๊ตฌ ๋ฐฉํฅ: ์ค์ ๋ก๋ด ์์
์ผ๋ก์ ํ์ฅ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ฉฐ, ๊ณ์ฐ ํจ์จ์ฑ์ ๋์ด๊ธฐ ์ํ PhysCode ํ์ต ์ต์ ํ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค. ๋ํ ํ์ต๋ ํํ์ ํด์ ๊ฐ๋ฅ์ฑ์ ํฅ์์ํค๊ธฐ ์ํ ์ถ๊ฐ ๋ถ์์ด ์๊ตฌ๋๋ค.
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: IPR์ VLM๊ณผ world model์ ๋ฌผ๋ฆฌ ์ค์ฌ์ ์ก์
๊ณต๊ฐ์ผ๋ก ํตํฉํ๋ ํ์ ์ ์ ๊ทผ์ ์ ์ํ๋ฉฐ, ๋๊ท๋ชจ ์ด์ง์ ๊ฒ์ ๋ฒค์น๋งํฌ์์ ์ฐ์ํ ์ฑ๋ฅ๊ณผ ์ ์ด ๋ฅ๋ ฅ์ ๋ณด์๋ค. ์ํธ์์ฉ ๊ธฐ๋ฐ ๋ฌผ๋ฆฌ ์ถ๋ก ์ ๊ฐ๋ฅ์ฑ์ ํจ๊ณผ์ ์ผ๋ก ์
์ฆํ์ผ๋, ์ค์ ๋ก๋ด๊ณตํ ํ๊ฒฝ์ผ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ๊ณผ ๊ณ์ฐ ํจ์จ์ฑ์ ๋ํ ์ถ๊ฐ ๊ฒ์ฆ์ด ํ์ํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์