Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning
์ ์: Baining Zhao, Ziyou Wang, Jianjie Fang, Chen Gao, Fanhang Man, Jinqiang Cui, Xin Wang, Xinlei Chen, Yong Li, Wenwu Zhu | ๋ ์ง: 2025-04-17 | URL: https://arxiv.org/abs/2504.12680 📄 PDF
Essence
Figure 2: The proposed Embodied-R is a collaborative embodied spatial reasoning framework integrating a Vision-Language
Embodied-R์ ๋๊ท๋ชจ Vision-Language Model(VLM)๊ณผ ์๊ท๋ชจ Language Model(LM)์ ํ๋ ฅ์ํค๊ณ RL์ ํตํด embodied video์์์ spatial reasoning ๋ฅ๋ ฅ์ ํ์ฑํํ๋ ํ๋ ์์ํฌ์ด๋ค. ๋จ 5k๊ฐ์ embodied video ์ํ๋ก ํ๋ จํ์ฌ OpenAI-o1, Gemini-2.5-pro ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
Motivation
- Known: VLM์ perception ๋ฅ๋ ฅ์ ์ด๋ฏธ ์ถฉ๋ถํ ๊ฒ์ฆ๋์์ผ๋, embodied spatial reasoning ๋ฅ๋ ฅ์ ์ฌ์ ํ ์ ํ์ ์ด๋ค. ์ต๊ทผ o1/o3, DeepSeek-R1 ๋ฑ์ด RL๊ณผ chain-of-thought๋ฅผ ํตํด complex reasoning ๋ฌธ์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๋ค.
- Gap: video ๊ธฐ๋ฐ spatial reasoning์ ์ง๊ฐ-์ถ๋ก ์ ์ํธ์์ฉ, ์๊ณต๊ฐ์ ๋ณต์ก์ฑ, embodied input์ ํน์์ฑ ๋ฑ์ผ๋ก ์ธํด ๊ธฐ์กด SFT ๋ฐฉ์์ผ๋ก๋ ์ถฉ๋ถํ supervision์ด ๋ถ๊ฐ๋ฅํ๋ค. ๋ํ ๋๊ท๋ชจ ๋ชจ๋ธ์ perception ๋ฅ๋ ฅ์ ํ์ฉํ๋ฉด์๋ ๊ณ์ฐ ๋น์ฉ์ ๋ฎ์ถ๋ ๋ฐฉ๋ฒ์ด ๋ถ์ฌํ๋ค.
- Why: embodied AI๊ฐ AGI ๋ฌ์ฑ์ ์ํ ํต์ฌ ์์์ด๋ฉฐ, spatial reasoning ๋ฅ๋ ฅ์ navigation, planning, manipulation ๋ฑ ์ค์ 3D ํ๊ฒฝ์์์ ์์ด์ ํธ ํ๋์ ํ์์ ์ด๋ค.
- Approach: ์ ๊ฒฝ๊ณผํ์์ ์๊ฐ์ ์ป์ perception๊ณผ reasoning์ ๋ถ๋ฆฌํ ํ๋ ฅ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ , keyframe extraction์ผ๋ก computational cost๋ฅผ ์ค์ธ๋ค. ๋
ผ๋ฆฌ์ ์ผ๊ด์ฑ์ ๊ณ ๋ คํ๋ novel reward system์ ๊ฐ์ง RL์ ์ฌ์ฉํ์ฌ slow-thinking ๋ฅ๋ ฅ์ ํ์ต์ํจ๋ค.
Achievement
Figure 3: Case Analysis: Embodied-R has initially developed the ability for slow-thinking: it can think before answering
- ์ฑ๋ฅ ๋ฌ์ฑ: 3B LM์ ์ฌ์ฉํ Embodied-R์ด 5k ์ํ ํ๋ จ์ผ๋ก OpenAI-o1, Gemini-2.5-pro์ ๋๋ฑํ ์์ค์ in-distribution, out-of-distribution embodied spatial reasoning ์ฑ๋ฅ ๋ฌ์ฑ
- Emergent thinking: ์ฒด๊ณ์ ๋ถ์(systematic analysis)๊ณผ ๋ฌธ๋งฅ ํตํฉ(contextual integration) ๋ฑ์ slow-thinking ํจํด ์๋ ๋ฐํ
- ํจ์จ์ ์ค๊ณ: ๋๊ท๋ชจ VLM์ perception ๋ฅ๋ ฅ์ ํ์ฉํ๋ฉด์ ์๊ท๋ชจ LM์ reasoning๋ง RL๋ก ํ๋ จํ์ฌ computational cost ์ต์ํ
- Novel reward design: think-answer ๋
ผ๋ฆฌ์ ์ผ๊ด์ฑ์ ๊ณ ๋ คํ reward๋ก reasoning process์ ์ต์ข
๋ต๋ณ์ ์ ๋ ฌ ํฅ์
How
Figure 2: The proposed Embodied-R is a collaborative embodied spatial reasoning framework integrating a Vision-Language
- Keyframe extraction: video์ ์๊ฐ์ ์ฐ์์ฑ์ ํ์ฉํ์ฌ ์ค์ ํ๋ ์๋ง ์ถ์ถํ๊ณ VLM์ ์
๋ ฅ ํ ํฐ ๊ธธ์ด ๊ด๋ฆฌ
- Sequential perception: VLM์ผ๋ก keyframe๋ค๋ก๋ถํฐ ์์ฐจ์ ์ผ๋ก semantic information ์ถ์ถํ์ฌ online reasoning ์๋ฎฌ๋ ์ด์
- Collaborative architecture: ๋๊ท๋ชจ VLM์ด perception ๋ด๋น, ์๊ท๋ชจ LM์ด reasoning ๋ด๋น์ผ๋ก ์ญํ ๋ถ๋ฆฌ
- RL training with novel rewards: rule-based rewards (from DeepSeek-R1-Zero)์ logical consistency rewards์ ๊ฒฐํฉ์ผ๋ก GRPO ํ๋ จ
- Reasoning prompt design: reasoning question๊ณผ semantic information์ ์๊ท๋ชจ LM์ ์
๋ ฅํ์ฌ reasoning process์ ๋ต๋ณ ์์ฑ
Originality
- embodied spatial reasoning์ RL์ ์ฒ์ ์ ์ฉํ ์ฐ๊ตฌ๋ก, think-answer logical consistency๋ผ๋ novel reward ๊ฐ๋
๋์
- ๋๊ท๋ชจ์ ์๊ท๋ชจ ๋ชจ๋ธ์ ํ๋ ฅ์ ํตํด perception๊ณผ reasoning์ ๋ช
ํํ ๋ถ๋ฆฌํ ํ๋ ์์ํฌ๋ ์ ๊ฒฝ๊ณผํ ๊ธฐ๋ฐ์ ์ฐฝ์์ ์ค๊ณ
- embodied video์ ํน์์ฑ(egocentric perspective, temporal continuity, spatial redundancy)์ ๊ณ ๋ คํ keyframe extraction ๋ฐ sequential processing ๋ฐฉ์์ ๊ณ ์
- SFT์ RL ํ๋ จ์ generalization ์ฐจ์ด๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ thorough empirical investigation
Limitation & Further Study
- ์๊ท๋ชจ LM์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฌ์ ํ ํ์ต๋ reward signal์ ์์กดํ๋ฏ๋ก, ์๋ก์ด reasoning task์ ๋ํ zero-shot generalization์ ์ ํ์ ์ผ ์ ์์
- 5k embodied video ์ํ์ด๋ผ๋ ์ ํ์ ๋ฐ์ดํฐ๋ก ํ๋ จํ์ผ๋ฏ๋ก, ๋ diverseํ embodied scenario์์์ ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฒ์ฆ ํ์
- keyframe extraction ๋ฐฉ์์ด heuristic ๊ธฐ๋ฐ์ธ๋ฐ, learned keyframe selection ๋ฉ์ปค๋์ฆ์ผ๋ก์ ๊ฐ์ ๊ฐ๋ฅ์ฑ
- VLM์ hallucination ๋ฌธ์ ๊ฐ perception ๋จ๊ณ์์ ์ง์ reasoning์ ์ํฅ์ ๋ฏธ์น๋ error propagation ๋ฌธ์ ๋ ์ถฉ๋ถํ ๋ค๋ฃจ์ด์ง์ง ์์
- ํ์์ฐ๊ตฌ๋ก larger-scale embodied video dataset ํ๋ณด, ๋ค์ํ embodied reasoning task๋ก์ ํ์ฅ, ๋ ํจ์จ์ ์ธ video encoding ๋ฐฉ์ ๊ฐ๋ฐ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: embodied spatial reasoning์ RL์ ์ฒ์ ์ ์ฉํ๊ณ ๋๊ท๋ชจ-์๊ท๋ชจ ๋ชจ๋ธ์ ํ๋ ฅ์ด๋ผ๋ ์ฐฝ์์ ์ค๊ณ๋ก competitiveํ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ค์ํ ์ฐ๊ตฌ์ด๋ค. ๋ค๋ง reward design์ ์ผ๋ฐ์ฑ๊ณผ ์๋ก์ด task์ ๋ํ generalization ๋ฅ๋ ฅ ๊ฒ์ฆ์ด ํฅํ ๊ณผ์ ์ด๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์