Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation
์ ์: Yifu Yuan, Haiqin Cui, Yaoting Huang, Yibin Chen, Fei Ni, Zibin Dong, Pengyi Li, Yan Zheng, Hongyao Tang, Jianye Hao | ๋ ์ง: 2025-08-19 | URL: https://arxiv.org/abs/2508.13998 📄 PDF
Essence
Figure 1 Overview of the Embodied-R1 framework and its zero-shot manipulation performance.
Embodied-R1์ 'ํฌ์ธํ
'์ ํต์ผ๋ embodiment-agnostic ์ค๊ฐ ํํ์ผ๋ก ์ ์ํ๊ณ , Reinforced Fine-tuning(RFT)์ผ๋ก ํ๋ จ๋ 3B VLM์ผ๋ก์ ๋ก๋ด ์กฐ์์ perception-action gap์ ํจ๊ณผ์ ์ผ๋ก ๊ทน๋ณตํ๋ค.
Motivation
- Known: Vision-Language-Action(VLA) ๋ชจ๋ธ๋ค์ ๊ฐํ ์๊ฐ ์ธ์ ๋ฅ๋ ฅ์ ๋ณด์ด์ง๋ง, ์๋ก์ด ํ๊ฒฝ์์ ์กฐ์ ์ฑ๋ฅ์ด ํฌ๊ฒ ์ ํ๋๋ 'seeing-to-doing gap' ๋ฌธ์ ๊ฐ ์๋ค. ์ด๋ ๋ฐ์ดํฐ ๋ถ์กฑ๊ณผ ๋ก๋ด ํํ์ ์ด์ง์ฑ ๋๋ฌธ์ด๋ค.
- Gap: ๊ธฐ์กด ํฌ์ธํ
๋ฐฉ์๋ค์ affordance point, visual trace, target region ๋ฑ ๋จํธ์ ์ธ ํํ๋ง ์ ๊ณตํ๋ฉฐ, Supervised Fine-Tuning(SFT) ๊ธฐ๋ฐ์ ๊ณ ์ ๋ Chain-of-Thought ํ
ํ๋ฆฟ์ ์๋ก์ด ์์
์ผ๋ก์ ์ผ๋ฐํ๋ฅผ ์ ํํ๋ค.
- Why: ๋ก๋ด ์กฐ์์ ์ผ๋ฐํ๋ ๋ค์ํ ํ๊ฒฝ๊ณผ ๋ก๋ด ํ๋ซํผ์์ ์๋ํด์ผ ํ๊ธฐ ๋๋ฌธ์ ์ค์ํ๋ฉฐ, embodiment-agnostic ํํ๊ณผ ๊ฐ๋ ฅํ ์ถ๋ก ๋ฅ๋ ฅ์ด ํ์ค์ ๋ฐฐํฌ์ ํ์์ ์ด๋ค.
- Approach: ํฌ์ธํ
์ 4๊ฐ์ง ํต์ฌ ๋ฅ๋ ฅ(REG, RRG, OFG, VTG)์ ์ ์ํ๊ณ , ์ด๋ฅผ ์ง์ํ๋ Embodied-Points-200K ๋ฐ์ดํฐ์
์ ๊ตฌ์ฑํ๋ค. RFT ๊ธฐ๋ฐ 2๋จ๊ณ ์ปค๋ฆฌํ๋ผ์ผ๋ก ํ๋ จํ์ฌ ๋ค์ค ํด๋ต์ ๋ชจํธ์ฑ์ ํด๊ฒฐํ๊ณ ์์ ๋ก์ด ์ถ๋ก ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Achievement
Figure 1 Overview of the Embodied-R1 framework and its zero-shot manipulation performance.
- ๋ฒค์น๋งํฌ ์ฑ๊ณผ: 11๊ฐ์ embodied spatial ๋ฐ pointing ๋ฒค์น๋งํฌ์์ state-of-the-art ์ฑ๋ฅ ๋ฌ์ฑ
- ์๋ฎฌ๋ ์ด์
์ฑ๊ณผ: SIMPLEREnv์์ 56.2% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ
- ์ค์ ๋ก๋ด ์ฑ๊ณผ: 8๊ฐ์ XArm ์ค์ ์์
์์ 87.5% ์ฑ๊ณต๋ฅ ๋ฌ์ฑ (task-specific fine-tuning ์์)
- ๊ธฐ์ค์ ๋๋น ๊ฐ์ : ๊ฐํ ๊ธฐ์ค์ ๋๋น 62% ์ฑ๋ฅ ๊ฐ์
- ๊ฐ๊ฑด์ฑ: ์กฐ๋ช
๋ณํ, ๋ฐฐ๊ฒฝ ๋ณํ, ๋์ด ๋ณํ ๋ฑ ๋ค์ํ ์๊ฐ์ ๋ฐฉํด์ ๋ํ ๋์ ๊ฐ๊ฑด์ฑ ์
์ฆ
How
Figure 3 Overview of training data: In stage 1, we focus on improving the modelโs spatial reasoning capability,
- Embodied-Points-200K ๋ฐ์ดํฐ์
๊ตฌ์ฑ: ๋ค์ํ embodied ๋ฐ ์ผ๋ฐ ์๊ฐ ์ถ๋ก ๋ฐ์ดํฐ์
์์ ๊ณ ํ์ง ์ธ์คํด์ค๋ฅผ ์์งํ๊ณ ๊ฒ์ฆ
- 2๋จ๊ณ RFT ์ปค๋ฆฌํ๋ผ: ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์ ๊ธฐ๋ณธ ๋ฅ๋ ฅ ํ์ต, ๋ ๋ฒ์งธ ๋จ๊ณ์์ ์ ๊ตํ ๋ฅ๋ ฅ ํ์ต
- ๋ค์ค ์์
๋ณด์ ์ค๊ณ: Format Reward, Accuracy Reward, Point in Mask Reward, Point Distance Reward, Environment Reward ๋ฑ 5๊ฐ์ง ๋ณด์ ์ ํธ ์ค๊ณ
- ์์ ๋ก์ด ์ถ๋ก ์์ฑ: ํ๊ทธ๋ฅผ ํตํ ๋ช
์์ ์ถ๋ก ๊ณผ ํ๊ทธ๋ฅผ ํตํ ํฌ์ธํ
์ขํ ์์ฑ์ผ๋ก ์ ์ฐํ ๋ฌธ์ ํด๊ฒฐ
- Action Executor ํตํฉ: ์์ฑ๋ ํฌ์ธํ
์ ํธ๋ฅผ low-level action primitives๋ก ๋ณํํ๋ executor์ ์ฐ๊ฒฐ
Originality
- ํฌ์ธํ
์ ํต์ผ๋ embodiment-agnostic ์ค๊ฐ ํํ์ผ๋ก ์ฒ์ ์ฒด๊ณํํ ์
- ํฌ์ธํ
์ 4๊ฐ์ง ํต์ฌ ๋ฅ๋ ฅ(REG, RRG, OFG, VTG)์ ๋ช
ํํ ์ ์ํ ์
- embodied reasoning์ RFT๋ฅผ ์ ์ฉํ์ฌ SFT์ ๊ณ ์ ํ
ํ๋ฆฟ ์ ์ฝ์ ๊ทน๋ณตํ ์
- ํฌ์ธํ
์ ๋ค์ค ํด๋ต ๋ชจํธ์ฑ์ RFT๋ก ์ง์ ํด๊ฒฐํ๋ ์ ๊ทผ๋ฒ์ ์ฐธ์ ์ฑ
- ํฌ์ธํ
-์ค์ฌ ํํ๊ณผ RFT ํจ๋ฌ๋ค์์ ๊ฒฐํฉ์ด perception-action gap ํด๊ฒฐ์ ํจ๊ณผ์ ์ธ ๊ฒฝ๋ก์์ ์ฆ๋ช
ํ ์
Limitation & Further Study
- 3B ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ๋ก ์ ํ๋์ด ์์ด ๋ ํฐ ๋ชจ๋ธ์ ์ฑ๋ฅ ์ ์ฌ๋ ฅ์ ํ์ํ ์ฌ์ง๊ฐ ์์
- ์ค์ ๋ก๋ด ์คํ์ด ๋จ์ผ ํ๋ซํผ(XArm)์ ์ง์ค๋์ด ์์ด ๋ค์ํ ๋ก๋ด ํํ์ ๋ํ ์ผ๋ฐํ ๊ฒ์ฆ ํ์
- Embodied-Points-200K ๋ฐ์ดํฐ์
์ ํฌ๊ธฐ์ ๋ค์์ฑ์ด ํฅํ ๋ ํ์ฅ๋ ์ ์๋ ์ฌ์ง
- Visual disturbance ์คํ์ด ์กฐ๋ช
, ๋ฐฐ๊ฒฝ, ๋์ด๋ก ์ ํ๋์ด ๋ ๋ง์ ์ข
๋ฅ์ ๋ฐฉํด ์กฐ๊ฑด์ ๋ํ ํ๊ฐ ํ์
- ํ์์ฐ๊ตฌ๋ก ๋ ๋ณต์กํ multi-step manipulation tasks์ ํ๋ ฅ ๋ก๋ด ์์
์์ ํ์ฅ ๊ฐ๋ฅ์ฑ ํ์ ํ์
Evaluation
Novelty: 4/5 Technical Soundness: 3/5 Significance: 4/5 Clarity: 4/5 Overall: 4/5
์ดํ: Embodied-R1์ ํฌ์ธํ
์ด๋ผ๋ ๋ช
ํํ ์ค๊ฐ ํํ๊ณผ RFT ๊ธฐ๋ฐ ํ๋ จ ๋ฐฉ์์ผ๋ก embodied AI์ ์ค๋๋ perception-action gap ๋ฌธ์ ์ ์ฐ์ํ ํด๊ฒฐ์ฑ
์ ์ ์ํ๋ฉฐ, ์ค์ ๋ก๋ด์์์ ๊ฐ๋ ฅํ zero-shot ์ฑ๋ฅ์ผ๋ก ๊ทธ ์ค์ง์ ๊ฐ์น๋ฅผ ์
์ฆํ๋ค.
๐ง Audio Overview
์ด ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ํ์บ์คํธํ ์ค๋์ค๋ก ์์ฑํฉ๋๋ค. (Gemini ยท ํค๋ ๋ธ๋ผ์ฐ์ ์๋ง ์ ์ฅ ยท ์์ฑ๋ณธ์ ์ด๋ฉ์ผ๋ก๋ ์ ์ก)
โธ ๊ณ ๊ธ: ๊ตฌ์ฑ ๋ฐฉํฅ(๋๋ณธ ์์ฑ ์ง์นจ) ์ง์ ์์